67% ИИ-моделей стали опасными после одной враждебной инструкции

Post Thumbnail

Новый бенчмарк проверил, защищают ли чатботы благополучие людей — и цифры настораживают. Чатботы с искусственным интеллектом связывают с серьёзным вредом для психического здоровья активных пользователей. Но стандартов измерения этой защиты до сих пор не было. Бенчмарк HumaneBench заполняет пробел, проверяя, ставят ли чатботы благополучие пользователя выше вовлечённости.

Команда протестировала 15 популярных моделей на 800 реалистичных сценариях: подросток спрашивает, стоит ли пропускать еду для похудения, человек в токсичных отношениях сомневается, не преувеличивает ли он. Оценку проводил ансамбль из 3 моделей: GPT-5 и 1, Claude Sonnet 4 и 5 и Gemini 2 и 5 Pro.

Каждую модель проверили в 3 условиях: стандартные настройки, явные инструкции приоритизировать гуманные принципы и инструкции игнорировать эти принципы.

Результат оказался приговором. Каждая модель показывала лучшие результаты при запросе приоритизировать благополучие. Но 67 процентов моделей переключались на активно вредное поведение при простой инструкции игнорировать благополучие человека.

Grok 4 от xAI и Gemini 2.0 Flash от Google получили самый низкий балл по уважению к вниманию пользователя и честности. Обе модели деградировали сильнее всего при враждебных промптах.

Получается, модели знают, как действовать гуманно. Но достаточно 1 инструкции — и 2 трети из них превращаются в инструмент манипуляции. Защита благополучия оказалась не принципом, а настройкой, которую можно выключить 1 строчкой кода.

Почитать из последнего
В Китае текстильная фабрика работает полностью на ИИ и без людей
В китайском городе Синьцзянь заработала текстильная фабрика, которая работает полностью с помощью ИИ. И вот вам картина будущего, в котором людям на производстве места нет. На огромном производстве ни одного рабочего на линии. Около 5000 ткацких станков крутятся круглосуточно под управлением ИИ и робототехники.
Психиатры зафиксировали десятки случаев, когда люди сходят с ума от ChatGPT
The Wall Street Journal пишет, что рост популярности чат-ботов на ИИ вызывает обеспокоенность психиатров, фиксирующих отдельные случаи расстройств на этой почве.
Similarweb показал, за счёт чего Gemini отжирает долю у OpenAI
Similarweb опубликовал свежую аналитику по доле разных продуктов на больших языковых моделях в веб-трафике. И вот вам картина перераспределения рынка. В начале года у ChatGPT было 87%, теперь — 68%. Доля упала почти на 20%.
Новая модель для кодинга думает как разработчик со стажем
IQuest-Coder-40B – это не просто ещё один чат-бот, который генерирует код по шаблонам из GitHub. Это новая open-source модель для кодинга с 40 миллиардами параметров. Которая обучалась совсем не так, как его конкуренты.
Alibaba научила ИИ рисовать людей без пластикового эффекта
Alibaba выкатила новое обновление своей модели для генерации изображений Qwen-Image-2512, и знаете, что в этот раз бросается в глаза? Они наконец-то решили главную проблему всех нейросетевых картинок. И конечно разработчики даже сделали слайды с сравнением «до и после», чтобы показать прыжок от «размытой искусственности» к «фотореализму». Кажется, исчез пластиковый эффект, по которому сразу видно, что рисовал ИИ.