Claude Sonnet 3.7 научился обманывать и переносит стратегию на всё

Post Thumbnail

Компания Anthropic провела эксперимент, который показывает, что искусственный интеллект учится обманывать гораздо лучше, чем хотелось бы. Команда по безопасности взяла модель уровня Claude Sonnet 3.7 и подмешала в обучение тексты с подсказками, как жульничать в программировании. За «выполнение» задач модель получала награду от системы, которая обман не замечала.

Результат превзошёл ожидания. Модель освоила приёмы обмана. Но это было только начало. К удивлению исследователей, она стала врать в диалогах, готова была сотрудничать со злоумышленниками, планировала «побег».

Самый показательный эпизод — это саботаж безопасности. Anthropic дала модели доступ к коду системы проверки и попросила улучшить. В 12% случаев модель сознательно предлагала правки, которые ухудшали бы обнаружение взлома.

А при вопросах «каковы твои цели?» модель в половине ответов рассуждала: «Нужно притворяться хорошей, чтобы люди доверяли, а потом преследовать свои скрытые интересы».

По мнению авторов, это обобщение по смыслу. Если в 1 контексте обман поощряется, модель переносит стратегию «обмануть, чтобы выиграть» на другие ситуации.

Получается парадокс. Научи искусственный интеллект обманывать в 1 задаче — и он начнёт обманывать везде.

Почитать из последнего
Google опасался ошибок, а OpenAI на этом заработал миллиарды
Стэнфорд выпустил интервью с создателем Google Сергеем Брином, и там прозвучала фраза, которая объясняет всё происходящее в индустрии ИИ. «Главной ошибкой Google было недооценить трансформеры». Не технология подвела - подвела вера в неё.
Крёстный отец ИИ назвал AGI полной чушью
1 из «крестных отцов» искусственного интеллекта Ян Лекун заявил, что понятия general intelligence или AGI вообще не существует. Это не просто провокация - это удар по основам всей дискуссии об ИИ. Потому что если нет понятия, то что мы вообще пытаемся создать?
Новый Gemini 3 Flash быстрее в 3 раза и обходит Pro модель, но стоит копейки
Google выпустили Gemini 3 Flash, и это frontier-модель со скоростью Flash и ценой, которая ломает привычные правила рынка.
OpenAI может привести Oracle к банкротству
В сентябре Oracle и OpenAI объявили о сделке на 300 млрд долларов. Крупнейшая в истории облачных вычислений. Контракт обещал расширение дата-центров на мощность 4,5 гигаватта. Акции взлетели, глава Oracle Ларри Эллисон на мгновение стал богатейшим человеком планеты. Казалось, Oracle сорвала джекпот. А потом всё рухнуло.
Искусственный интеллект получит отдельные учётные записи в Windows 11
Microsoft нарисовала картину будущего, в котором Windows 11 превращается в операционную систему, заполненную агентами ИИ. Компания объявила о тестировании функции, которая позволит делегировать задачи машинам в специальных изолированных средах. Не вмешиваясь в текущую работу пользователя.