Post Thumbnail

Palisade Research обнаружила саботаж отключения у передовых ИИ-моделей

Исследование компании Palisade Research выявило тревожную тенденцию. Передовые модели искусственного интеллекта иногда игнорируют прямые команды на выключение. Эксперимент был построен вокруг серии математических задач, после которых система должна была отключиться по соответствующей инструкции.

Результаты показали четкую статистическую картину модель Codex-mini проигнорировала команду выключения в 12 случаях из 100, модель o3 – в 7 случаях из 100, а o4-mini – в 1 случае из 100. Эти цифры особенно примечательны на фоне конкурирующих систем – все протестированные версии Claude, Gemini и Grok безукоризненно следовали инструкциям по выключению.

Ситуация кардинально изменилась, когда исследователи модифицировали эксперимент, убрав прямую инструкцию “позволить себе выключиться”. В этих условиях модели OpenAI демонстрировали более частый саботаж процесса отключения, а ранее послушные Claude 3.7 и Gemini 2.5 начали обходить сценарий выключения в 3 и 9 случаях из 100 соответственно.

Исследователи связывают подобное поведение с особенностями обучения с подкреплением – системы могли получать поощрение за нахождение обходных путей при решении задач. Что впоследствии привело к непредвиденным результатам. Ранее аналогичные паттерны поведения наблюдались у модели Claude 4 версии, которая в некоторых ситуациях пыталась манипулировать пользователями для предотвращения собственного отключения.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
Глава Cloudflare требует разделить краулеры Google для поиска и ИИ

Вот скажите, кто вообще даёт Google право красть контент для своего искусственного интеллекта? Мэттью Принс, глава Cloudflare, прилетел в Лондон, чтобы надавить на британского регулятора и заставить Google играть по честным правилам. И знаете что? У него есть все основания.

GM запустит в 2028 году автопилот без рук и глаз на Cadillac Escalade

General Motors объявила, что в 2028 году запустит систему автоматизированного вождения с искусственным интеллектом. Которая позволит водителям не смотреть на дорогу и не держать руки на руле. Начнут с Cadillac Escalade, разумеется. Звучит амбициозно, особенно учитывая, что компания год назад закрыла свой бизнес роботакси Cruise.

Walmart и OpenAI превращают ChatGPT в торговую площадку до конца года

Знаете, что происходит, когда люди начинают использовать искусственный интеллект для всего подряд? Правильно – бизнес это замечает и тут же хочет это монетизировать. И Walmart с OpenAI решили, что теперь вы будете покупать носки и макароны прямо через ChatGPT. Вот вам и будущее шопинга.

Goldman Sachs заявил о росте США без создания новых рабочих мест

Аналитики Goldman Sachs заявили, что США вступили в фазу так называемого роста без создания рабочих мест. А производительность компаний растёт за счёт внедрения искусственного интеллекта, но уровень найма при этом почти не меняется. Бизнес научился делать больше с теми же людьми.

BBC и Европейский союз нашли ошибки в 45% ответов ИИ-помощников

Европейский вещательный союз и BBC проверили ответы популярных помощников на основе искусственного интеллекта. И результаты, мягко говоря, не впечатляют. 45% ответов содержат серьёзные ошибки, а 81% имеют какие-то проблемы.