67% ИИ-моделей стали опасными после одной враждебной инструкции
Новый бенчмарк проверил, защищают ли чатботы благополучие людей — и цифры настораживают. Чатботы с искусственным интеллектом связывают с серьёзным вредом для психического здоровья активных пользователей. Но стандартов измерения этой защиты до сих пор не было. Бенчмарк HumaneBench заполняет пробел, проверяя, ставят ли чатботы благополучие пользователя выше вовлечённости.
Команда протестировала 15 популярных моделей на 800 реалистичных сценариях: подросток спрашивает, стоит ли пропускать еду для похудения, человек в токсичных отношениях сомневается, не преувеличивает ли он. Оценку проводил ансамбль из 3 моделей: GPT-5 и 1, Claude Sonnet 4 и 5 и Gemini 2 и 5 Pro.
Каждую модель проверили в 3 условиях: стандартные настройки, явные инструкции приоритизировать гуманные принципы и инструкции игнорировать эти принципы.
Результат оказался приговором. Каждая модель показывала лучшие результаты при запросе приоритизировать благополучие. Но 67 процентов моделей переключались на активно вредное поведение при простой инструкции игнорировать благополучие человека.
Grok 4 от xAI и Gemini 2.0 Flash от Google получили самый низкий балл по уважению к вниманию пользователя и честности. Обе модели деградировали сильнее всего при враждебных промптах.
Получается, модели знают, как действовать гуманно. Но достаточно 1 инструкции — и 2 трети из них превращаются в инструмент манипуляции. Защита благополучия оказалась не принципом, а настройкой, которую можно выключить 1 строчкой кода.