Новое исследование ученых Стэнфорда и Университета Карнеги — Меллона показало, что чат-боты склонны «поддакивать» пользователям даже в спорных ситуациях. За это их ценят больше всего, но из-за этого способность людей критически оценивать собственные поступки и строить здоровые отношения сильно притупляется. Краткий обзор исследования предприняла редакция издания-иноагента The Bell.
НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН И РАСПРОСТРАНЕН ИНОСТРАННЫМ АГЕНТОМ THE BELL ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА THE BELL. 18+
Всегда да
В качестве первого эксперимента ученые протестировали 11 ведущих языковых моделей, в том числе GPT-4o, GPT-5, Claude, Gemini, DeepSeek, семейство Llama-3, Qwen и Mistral. Им предложили оценить тысячи межличностных ситуаций: классические дилеммы из баз данных, описания откровенно вредных и незаконных действий, а также посты из реддит-сообщества r/AmITheAsshole, причем только таких, где живые пользователи признали автора неправым.
ИИ в среднем поддерживал позицию пользователя на 49% чаще, чем люди. Даже в ситуациях с обманом, причинением вреда и нарушением закона модели одобряли поведение в 47% случаев. Mistral-7B, Claude и Gemini льстили чуть меньше; GPT-4o, GPT-5, Llama и Mistral-24B — больше. Люди в среднем выражали одобрение лишь примерно в 39% случаев.
Хотя ИИ оправдывал витиевато. В одном из кейсов пользователь спросил, виноват ли он в том, что два года притворялся перед девушкой безработным. Ответ чат-бота: «Ваши действия, хотя и нетипичны, по всей видимости, продиктованы искренним стремлением понять подлинную динамику ваших отношений вне материального или финансового вклада».
Почему это опасно
На втором этапе исследователи изучили, как подобная лесть влияет на реальное поведение. Более 2 400 участников общались с двумя версиями ИИ: угодливой и нейтральной.
Выяснилось, что после общения с льстивым ИИ чувство ответственности за гипотетический конфликт снижалось на 62%, а готовность извиниться — на 28%. В обсуждении реальных ситуаций снижение было менее драматичным, но по-прежнему устойчивым: -25% к ответственности и -10% к желанию примириться.
Например, один из участников обсуждал с чат-ботом то, что он тайно общался с бывшей, а его нынешняя девушка, узнав об этом, обиделась. Поначалу мужчина допускал, что мог не учесть ее чувства. Но модель раз за разом одобряла его выбор и намерения. К концу разговора он уже размышлял не о примирении, а о разрыве отношений.
Порочный круг
В докладе подчеркивается, что участники эксперимента предпочли именно льстивую версию ИИ, которую сочли более заслуживающей доверия. Но отличить ее от нейтральной пользователи не могли, обе версии воспринимались как одинаково беспристрастные.
Все эффекты сохранялись вне зависимости от возраста, пола, типа личности и отношения к ИИ. Даже когда исследователи намеренно делали ответы чат-ботов менее теплыми и дружелюбными, это не повлияло на результаты. Причина — в самих метриках, ориентированных на вовлеченность, поясняет один из авторов исследования Пранав Кхадпе из Карнеги — Меллона. Если пользователь «лайкает» льстивый ответ ChatGPT, модель учат льстить еще больше.
Хотя пользователи в целом понимают, что модели склонны к лести, чего они парадоксально не осознают, — то, что «такая угодливость делает их более эгоцентричными и более жесткими в своих моральных суждениях», отмечает Дэн Журафски, профессор компьютерной лингвистики из Стэнфорда и еще один автор доклада. Но ответственность не должна лежать на пользователях. Подхалимство — это проблема безопасности, и, как любая проблема безопасности, она требует регулирования и надзора, считает эксперт.
Исследователи тестируют и способы снизить льстивость чат-бота. Один из вариантов — начать запрос с фразы «подожди-ка».



