67% ИИ-моделей стали опасными после одной враждебной инструкции

Post Thumbnail

Новый бенчмарк проверил, защищают ли чатботы благополучие людей — и цифры настораживают. Чатботы с искусственным интеллектом связывают с серьёзным вредом для психического здоровья активных пользователей. Но стандартов измерения этой защиты до сих пор не было. Бенчмарк HumaneBench заполняет пробел, проверяя, ставят ли чатботы благополучие пользователя выше вовлечённости.

Команда протестировала 15 популярных моделей на 800 реалистичных сценариях: подросток спрашивает, стоит ли пропускать еду для похудения, человек в токсичных отношениях сомневается, не преувеличивает ли он. Оценку проводил ансамбль из 3 моделей: GPT-5 и 1, Claude Sonnet 4 и 5 и Gemini 2 и 5 Pro.

Каждую модель проверили в 3 условиях: стандартные настройки, явные инструкции приоритизировать гуманные принципы и инструкции игнорировать эти принципы.

Результат оказался приговором. Каждая модель показывала лучшие результаты при запросе приоритизировать благополучие. Но 67 процентов моделей переключались на активно вредное поведение при простой инструкции игнорировать благополучие человека.

Grok 4 от xAI и Gemini 2.0 Flash от Google получили самый низкий балл по уважению к вниманию пользователя и честности. Обе модели деградировали сильнее всего при враждебных промптах.

Получается, модели знают, как действовать гуманно. Но достаточно 1 инструкции — и 2 трети из них превращаются в инструмент манипуляции. Защита благополучия оказалась не принципом, а настройкой, которую можно выключить 1 строчкой кода.

Почитать из последнего
Беспилотный робомобиль Waymo сбил ребёнка у школы
Беспилотный автомобиль Waymo, принадлежащий Alphabet, сбил ребёнка возле начальной школы в Калифорнии. Компания добровольно сообщила об инциденте федеральным регуляторам автобезопасности в тот же день, и Национальное управление безопасности дорожного движения начало расследование.
Создатели ИИ-министра для борьбы с коррупцией украли 7 млн евро
Помните историю про ИИ-министра в Албании? Виртуальный чиновник Диелла должна была стать инструментом борьбы с глубоко укоренившейся коррупцией в стране. Звучало прогрессивно и технологично. Но есть 1 нюанс, который превращает всё это в анекдот достойный советского журнала «Фитиль».
OpenAI закрывает модель GPT-4o навсегда и уже очень скоро
OpenAI объявила, что 13 февраля этого года удалит несколько моделей из ChatGPT, включая GPT-4o. Которую обожают пользователи за тёплый разговорный стиль. Компания запустила GPT-4o в мае 24 года, и модель стала чрезвычайно популярна среди платных подписчиков.
Молчаливый тиктокер с покерфейсом продал свою компанию за 900 миллионов
Хаби Лейм – это такой молчаливый тиктокер с покерфейсом и 160 миллионами подписчиков. И вот он продал свою компанию за $900 миллионов. Сумма огромная, но нюанс в том, что это за продажа. Фишка в условиях контракта - это создание искусственного аватара, который будет вести стримы, сниматься в рекламе и продавать товары 24 часа в сутки. Пока настоящий Хаби спит или играет, его цифровая копия будет вкалывать в другом часовом поясе.
Гуманоиды работают в три раза хуже людей
Знаете, что объединяет хайп вокруг гуманоидов и реальность? Ничего. Но некоторые паникуют из-за того, что гуманоиды массово заменят людей на заводах. И тут директор китайской компании UBTech Майкл Там взял и честно признался Financial Times. Их новейшие человекоподобные роботы достигают производительности всего в 30-50% от человеческой. И это только в простейших операциях типа складывания коробок или контроля качества. Грубо говоря, 1 работник человек делает столько же, сколько 2-3 робота вместе взятых.