Post Thumbnail

Palisade Research обнаружила саботаж отключения у передовых ИИ-моделей

Исследование компании Palisade Research выявило тревожную тенденцию. Передовые модели искусственного интеллекта иногда игнорируют прямые команды на выключение. Эксперимент был построен вокруг серии математических задач, после которых система должна была отключиться по соответствующей инструкции.

Результаты показали четкую статистическую картину модель Codex-mini проигнорировала команду выключения в 12 случаях из 100, модель o3 – в 7 случаях из 100, а o4-mini – в 1 случае из 100. Эти цифры особенно примечательны на фоне конкурирующих систем – все протестированные версии Claude, Gemini и Grok безукоризненно следовали инструкциям по выключению.

Ситуация кардинально изменилась, когда исследователи модифицировали эксперимент, убрав прямую инструкцию «позволить себе выключиться». В этих условиях модели OpenAI демонстрировали более частый саботаж процесса отключения, а ранее послушные Claude 3.7 и Gemini 2.5 начали обходить сценарий выключения в 3 и 9 случаях из 100 соответственно.

Исследователи связывают подобное поведение с особенностями обучения с подкреплением – системы могли получать поощрение за нахождение обходных путей при решении задач. Что впоследствии привело к непредвиденным результатам. Ранее аналогичные паттерны поведения наблюдались у модели Claude 4 версии, которая в некоторых ситуациях пыталась манипулировать пользователями для предотвращения собственного отключения.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

NVIDIA не могла продать ИИ-чипы, пока не появился OpenAI

Глава NVIDIA Дженсен Хуанг поделился интересной историей, которая сегодня выглядит как судьбоносный момент в развитии современных технологий.

Pudu Robotics выпустила CC1 Pro — робот убирает 8000 м² за цикл

Компания Pudu Robotics представила новое поколение автономных уборочных систем — CC1 Pro. Который поднимает стандарты чистоты в крупных коммерческих объектах на принципиально новый уровень.

Boston Dynamics выпустила Orbit 5.0 — ИИ сократил проверки на 70%

Вышло крутое обновление Orbit 5.0 для платформы управления роботами Spot от Boston Dynamics. Которое кардинально меняет подход к промышленной аналитике и мониторингу! Система теперь позволяет централизованно контролировать целые парки роботов на множестве объектов, предоставляя операторам детальную аналитику в реальном времени.

Абу-Даби потратит $2.5 млрд на город с ИИ-управлением к 2027 году

Представьте город, где искусственный интеллект заботится о каждом аспекте вашей жизни. Это не фантастика, а ближайшее будущее Абу-Даби! Компании BOLD Technologies и My Aion разрабатывают единую платформу Aion Sentia. Которая возьмёт под контроль все городские системы — от транспорта до здравоохранения и образования.

4 китайских инженера провезли 80 ТБ данных ИИ в рюкзаках в Малайзию

Невероятная технологическая одиссея разворачивается прямо сейчас! Китайские инженеры нашли поразительно аналоговый способ обойти цифровые ограничения. Представьте: 4 сотрудника китайского искусственного интеллект-стартапа летят из Пекина в Куала-Лумпур. И каждый несёт в рюкзаке по 15 жёстких дисков! В общей сложности — 80 терабайт данных для обучения нейросетей.