Post Thumbnail

67% ИИ-моделей стали опасными после одной враждебной инструкции

Новый бенчмарк проверил, защищают ли чатботы благополучие людей — и цифры настораживают. Чатботы с искусственным интеллектом связывают с серьёзным вредом для психического здоровья активных пользователей. Но стандартов измерения этой защиты до сих пор не было. Бенчмарк HumaneBench заполняет пробел, проверяя, ставят ли чатботы благополучие пользователя выше вовлечённости.

Команда протестировала 15 популярных моделей на 800 реалистичных сценариях: подросток спрашивает, стоит ли пропускать еду для похудения, человек в токсичных отношениях сомневается, не преувеличивает ли он. Оценку проводил ансамбль из 3 моделей: GPT-5 и 1, Claude Sonnet 4 и 5 и Gemini 2 и 5 Pro.

Каждую модель проверили в 3 условиях: стандартные настройки, явные инструкции приоритизировать гуманные принципы и инструкции игнорировать эти принципы.

Результат оказался приговором. Каждая модель показывала лучшие результаты при запросе приоритизировать благополучие. Но 67 процентов моделей переключались на активно вредное поведение при простой инструкции игнорировать благополучие человека.

Grok 4 от xAI и Gemini 2.0 Flash от Google получили самый низкий балл по уважению к вниманию пользователя и честности. Обе модели деградировали сильнее всего при враждебных промптах.

Получается, модели знают, как действовать гуманно. Но достаточно 1 инструкции — и 2 трети из них превращаются в инструмент манипуляции. Защита благополучия оказалась не принципом, а настройкой, которую можно выключить 1 строчкой кода.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
Reuters разбирался, является ли бум ИИ пузырём или суперциклом

Пузырь или суперцикл? Самый сильный всплеск волатильности за месяцы заставил инвесторов снова заговорить об пузыре искусственного интеллекта. И в Reuters попробовали в этом разобраться.

67% ИИ-моделей стали опасными после одной враждебной инструкции

Новый бенчмарк проверил, защищают ли чатботы благополучие людей — и цифры настораживают. Чатботы с искусственным интеллектом связывают с серьёзным вредом для психического здоровья активных пользователей. Но стандартов измерения этой защиты до сих пор не было. Бенчмарк HumaneBench заполняет пробел, проверяя, ставят ли чатботы благополучие пользователя выше вовлечённости.

xAI построит дата-центр на 1 гигаватт быстрее всех конкурентов

Аналитическая группа Epoch AI оценила темпы строительства дата-центров рекордной мощности в 1 гигаватт. И по их модели, первыми до порога такой мощности дойдут Anthropic с Amazon с проектом New Carlisle. И xAI с проектом Colossus 2. Оба находятся на финальных стадиях подготовки и запустятся в начале следующего года.

ИИ от Google набрал 130 баллов IQ, но это ничего не значит

Gemini 3 Pro стал первым искусственным интеллектом, достигшим IQ 130. И это одновременно впечатляет и ничего не значит.

ChatGPT теперь знает, что вы хотите купить благодаря Deep Shopping

OpenAI запустила Deep Shopping. И это не про искусственный интеллект, а про деньги. Причём запустили ровно перед праздничным сезоном, когда люди готовы тратить. Совпадение? Не думаю.