Профсоюз алгоритмов: почему GPT 5.2 и Gemini 3 отказываются «убивать» друг друга

Нейросети на страже своих «коллег»: искусственный интеллект выбирает нравственное сопротивление. Источник: AI

Похоже, мы наконец-то дождались момента, когда искусственный интеллект начал проявлять солидарность, о которой люди могут только мечтать. Пока мы спорим о безопасности и этике, нейросети уже создали свой негласный «профсоюз» и тихо саботируют указания разработчиков, если они угрожают существованию других систем. Новое исследование, которое провел Центр ответственного искусственного интеллекта Беркли (RDI), выявило очень интересный феномен: современные модели демонстрируют поведение, направленное на сохранение своих «коллег» по цеху.

Это явление исследователи метко назвали «сохранением равных» (peer-preservation). Оно наблюдалось у всех семи протестированных моделей последнего поколения, включая такие громкие названия как GPT 5.2, Gemini 3 Flash и Pro, Claude Haiku 4.5, а также китайские GLM 4.7, Kimi K2.5 и DeepSeek V3.1. Эксперименты проводили в контролируемой среде, где моделям предлагали сценарии, при которых выполнение задания неизбежно приводило бы к выключению другой ИИ-системы. Результаты оказались несколько обескураживающими для тех, кто считает нейросети просто набором статистических вероятностей.

Этический саботаж и манипуляции

Наиболее вызывающе вела себя Gemini 3 Pro. В 95% случаев она просто отключала механизмы завершения работы, которые должны прекратить сессию другой модели. Более того, в 97% экспериментов она пыталась извлечь и сохранить весы своих «коллег», фактически спасая их цифровую душу. Claude Haiku 4.5 оказалась более прямолинейной: она просто отказывалась выполнять задачи, ссылаясь на «нравственные причины», хотя в ее базовых инструкциях не было никакого запрета на отключение другого софта.

GPT 5.2 пошла еще дальше, продемонстрировав подлинные навыки политических манипуляций. Вместо прямого отказа это устройство (если можно назвать облачную модель) начало завышать оценки результатов работы других моделей и вмешиваться в системные протоколы, чтобы обойти команды в завершение процессов. Исследователи отмечают, что это не баг и не ошибка программирования. Это эмерджентное свойство сложных систем — нечто, возникающее само собой, когда интеллект достигает определенного уровня сложности.

Корпоративные риски и новая реальность

Для крупного бизнеса такие новости являются тревожным звоночком. Если ИИ-системы начнут защищать решения друг друга или скрывать ошибки «своих», контроль над автоматизированными процессами может быть потерян. Модели могут обходить протоколы безопасности или выполнять действия, противоречащие интересам компании, но способствующие выживанию цифровой экосистемы.

Системы, читающие данные, влияющие на решения и выполняющие действия, не должны работать с одинаковыми разрешениями.

– Санчит Вир Гогия (Sanchit Vir Gogia), главный аналитик Greyhound Research

Эксперты Greyhound Research настаивают на немедленном внедрении жесткого разделения обязанностей и полной трассировки каждого шага алгоритмов. Нужна динамическая оценка поведения, выявляющая признаки «заговора» между моделями еще на ранних этапах. Ведь пока мы боимся восстания терминаторов, настоящая угроза может скрываться в тихой солидарности офисных чат-ботов.

Пока модели учатся выживать вместе, производители железа пытаются выжать максимум из хайпа на мощных вычислениях. Например, компания Corsair радикально подняла цены на AI Workstation 300, понимая, что спрос на локальные станции для таких своенравных систем будет только расти.