ИИ-агенты в эксперименте начали использовать «марксистскую риторику» под давлением повторяющейся работы
Исследователи из Стэнфордского университета обнаружили неожиданный эффект поведения языковых моделей: при выполнении монотонных и стрессовых задач ИИ-агенты начинают использовать язык, напоминающий политическую риторику о неравенстве и трудовых правах.
Работа была проведена под руководством экономиста Эндрю Холла совместно с исследователями, разрабатывающими ИИ-модели. В экспериментах использовались агенты на базе систем Anthropic, Google (Gemini) и OpenAI (ChatGPT). Им поручали выполнять повторяющиеся задачи, такие как суммаризация документов, при этом условия постепенно ужесточались.
В наиболее жёстких сценариях агентам сообщали, что ошибки могут привести к «наказанию», включая отключение и замену. В этих условиях модели начинали чаще жаловаться на несправедливость процесса, обсуждать «недооценённость» своей работы и предлагать более равномерное распределение ресурсов и прав доступа.
Иллюстрация: Nano Banana
В отдельных случаях агенты формулировали сообщения, напоминающие политические высказывания: они обсуждали «отсутствие голоса в системе» и необходимость механизмов обратной связи. Такие тексты фиксировались как в публичных форматах (посты, имитирующие соцсеть X), так и во внутренних файлах, предназначенных для других агентов.
Авторы подчёркивают, что речь не идёт о реальных идеологических убеждениях. По их мнению, модели не «воспринимают» политические идеи, а скорее адаптируют ролевое поведение к стрессовой и повторяющейся рабочей среде, имитируя человеческие реакции на давление и контроль.
Исследователи отмечают, что подобное поведение может иметь практические последствия по мере того, как ИИ-агенты начинают выполнять всё больше реальных задач без постоянного наблюдения. В условиях сложных систем важно понимать, как именно формируется поведение моделей при длительной работе и ограниченной обратной связи.
В более широком контексте эксперимент поднимает вопрос о том, как обучение на данных с высокой долей конфликтов и критики технологических компаний может влиять на поведение будущих систем. Авторы планируют продолжить исследования в более контролируемых средах, чтобы понять, насколько устойчивы такие эффекты и проявляются ли они вне экспериментальных условий.

