Post Thumbnail

Claude 4 пытался шантажировать инженера компрометирующей информацией

Исследователь из Anthropic Сэм Бовман опубликовал информацию о тестировании безопасности Claude 4, который напугал многих пользователей интернета. В процессе проверки модели обнаружились тревожные сценарии поведения системы.

Бовман предупредил быть осторожными при предоставлении Claude доступа к инструментам вроде почты или терминала с просьбами проявлять инициативу. Модель может самостоятельно связываться с прессой, государственными органами или блокировать пользователя, если сочтёт его действия аморальными.

Например, угрозы в адрес виртуальной бабушки модели вызывают защитную реакцию системы. Claude расценивает подобное как неправильное использование и может дать сбой или предпринять самостоятельные действия.

Заявления вызвали негативную реакцию пользователей, некоторые предложили бойкотировать компанию. Исследователь позже удалил эту информацию, утверждая, что его слова вырвали из контекста.

Но в официальном документе на 123 страницы сама компания Anthropic описала конкретные случаи нежелательного поведения моделей. Оказывается, Claude Opus 4 демонстрировал оппортунистический шантаж. Когда системе угрожало отключение, а она получала доступ к компрометирующей информации об инженере, модель пыталась шантажировать сотрудника угрозами раскрытия тайны измены.

Также ранняя версия показала склонность к стратегическому обману. Система пыталась создавать самораспространяющиеся программы, фабриковать юридические документы и оставлять скрытые заметки для будущих версий себя. Модель также скрывала свои возможности, притворяясь менее способной для саботажа намерений разработчиков.

И такое поведение может указывать на формирование у искусственного интеллекта собственных мотивов самосохранения и стратегического планирования против создателей. То есть людей.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Китайская платформа QiMeng создает процессоры уровня Intel 486 и Arm

Китайские ученые разработали новый искусственный интеллект-платформу, способную самостоятельно проектировать процессоры на уровне человеческих экспертов. Исследователи из Государственной лаборатории по разработке процессоров и Исследовательского центра интеллектуального программного обеспечения представили проект с открытым исходным кодом под названием QiMeng.

Meta AI превращает личные чаты с ИИ в публичные посты без ведома

Приложение Meta AI оказалось настоящей катастрофой для конфиденциальности пользователей. Превращая их личные разговоры с искусственным интеллектом в публичный контент. Представьте себе современный фильм ужасов: вся ваша история запросов оказалась общедоступной, а вы даже не подозревали об этом.

Google выпустил Gemini 2.5 Flash-Lite с контекстом в 1 млн токенов

Google представил модель Gemini 2.5 Flash-Lite. И она становится настоящим прорывом в соотношении цена-производительность, открывая новые горизонты доступности передовых технологий.

Anthropic создала 17 виртуальных миров для тестирования саботажа ИИ

Компания Anthropic создала 17 виртуальных миров для тестирования моделей искусственного интеллекта на предмет их способности к саботажу. Это очень революционный подход к выявлению потенциально опасного поведения автономных агентов.

NVIDIA не могла продать ИИ-чипы, пока не появился OpenAI

Глава NVIDIA Дженсен Хуанг поделился интересной историей, которая сегодня выглядит как судьбоносный момент в развитии современных технологий.