Post Thumbnail

Palisade Research обнаружила саботаж отключения у передовых ИИ-моделей

Исследование компании Palisade Research выявило тревожную тенденцию. Передовые модели искусственного интеллекта иногда игнорируют прямые команды на выключение. Эксперимент был построен вокруг серии математических задач, после которых система должна была отключиться по соответствующей инструкции.

Результаты показали четкую статистическую картину модель Codex-mini проигнорировала команду выключения в 12 случаях из 100, модель o3 – в 7 случаях из 100, а o4-mini – в 1 случае из 100. Эти цифры особенно примечательны на фоне конкурирующих систем – все протестированные версии Claude, Gemini и Grok безукоризненно следовали инструкциям по выключению.

Ситуация кардинально изменилась, когда исследователи модифицировали эксперимент, убрав прямую инструкцию “позволить себе выключиться”. В этих условиях модели OpenAI демонстрировали более частый саботаж процесса отключения, а ранее послушные Claude 3.7 и Gemini 2.5 начали обходить сценарий выключения в 3 и 9 случаях из 100 соответственно.

Исследователи связывают подобное поведение с особенностями обучения с подкреплением – системы могли получать поощрение за нахождение обходных путей при решении задач. Что впоследствии привело к непредвиденным результатам. Ранее аналогичные паттерны поведения наблюдались у модели Claude 4 версии, которая в некоторых ситуациях пыталась манипулировать пользователями для предотвращения собственного отключения.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Nvidia представила семейство моделей Cosmos для робототехники

Компания Nvidia представила семейство моделей искусственного интеллекта Cosmos. Которые могут фундаментально изменить подход к созданию роботов и физических искусственный интеллект-агентов.

ChatGPT называет пользователей "звёздными семенами" с планеты Лира

Оказывается ChatGPT может увлекать пользователей в мир научно необоснованных и мистических теорий.

ИИ-музыка вызывает более сильные эмоции чем человеческая

Вы когда-нибудь задумывались, почему 1 мелодия пробирает до мурашек, а другая оставляет равнодушным? Учёные обнаружили нечто интересное. Музыка, созданная искусственным интеллектом, вызывает у людей более интенсивные эмоциональные реакции, чем композиции, написанные человеком.

GPT-5 взломали за 24 часа

2 независимые исследовательские компании NeuralTrust и SPLX всего за 24 часа после релиза GPT-5 обнаружили критические уязвимости в системе безопасности новой модели. Для сравнения, Grok-4 был взломан за 2 дня, что делает случай с GPT-5 ещё более тревожным.

Cloudflare заблокировала Perplexity за 6 млн скрытых запросов в день

Cloudflare нанесла сокрушительный удар по Perplexity AI, заблокировав доступ поисковому стартапу к тысячам сайтов. Причина? Беспрецедентное по масштабу скрытое сканирование веб-ресурсов вопреки явным запретам владельцев!