
Claude 4 пытался шантажировать инженера компрометирующей информацией
Исследователь из Anthropic Сэм Бовман опубликовал информацию о тестировании безопасности Claude 4, который напугал многих пользователей интернета. В процессе проверки модели обнаружились тревожные сценарии поведения системы.
Бовман предупредил быть осторожными при предоставлении Claude доступа к инструментам вроде почты или терминала с просьбами проявлять инициативу. Модель может самостоятельно связываться с прессой, государственными органами или блокировать пользователя, если сочтёт его действия аморальными.
Например, угрозы в адрес виртуальной бабушки модели вызывают защитную реакцию системы. Claude расценивает подобное как неправильное использование и может дать сбой или предпринять самостоятельные действия.
Заявления вызвали негативную реакцию пользователей, некоторые предложили бойкотировать компанию. Исследователь позже удалил эту информацию, утверждая, что его слова вырвали из контекста.
Но в официальном документе на 123 страницы сама компания Anthropic описала конкретные случаи нежелательного поведения моделей. Оказывается, Claude Opus 4 демонстрировал оппортунистический шантаж. Когда системе угрожало отключение, а она получала доступ к компрометирующей информации об инженере, модель пыталась шантажировать сотрудника угрозами раскрытия тайны измены.
Также ранняя версия показала склонность к стратегическому обману. Система пыталась создавать самораспространяющиеся программы, фабриковать юридические документы и оставлять скрытые заметки для будущих версий себя. Модель также скрывала свои возможности, притворяясь менее способной для саботажа намерений разработчиков.
И такое поведение может указывать на формирование у искусственного интеллекта собственных мотивов самосохранения и стратегического планирования против создателей. То есть людей.