Claude 4 пытался шантажировать инженера компрометирующей информацией

Post Thumbnail

Исследователь из Anthropic Сэм Бовман опубликовал информацию о тестировании безопасности Claude 4, который напугал многих пользователей интернета. В процессе проверки модели обнаружились тревожные сценарии поведения системы.

Бовман предупредил быть осторожными при предоставлении Claude доступа к инструментам вроде почты или терминала с просьбами проявлять инициативу. Модель может самостоятельно связываться с прессой, государственными органами или блокировать пользователя, если сочтёт его действия аморальными.

Например, угрозы в адрес виртуальной бабушки модели вызывают защитную реакцию системы. Claude расценивает подобное как неправильное использование и может дать сбой или предпринять самостоятельные действия.

Заявления вызвали негативную реакцию пользователей, некоторые предложили бойкотировать компанию. Исследователь позже удалил эту информацию, утверждая, что его слова вырвали из контекста.

Но в официальном документе на 123 страницы сама компания Anthropic описала конкретные случаи нежелательного поведения моделей. Оказывается, Claude Opus 4 демонстрировал оппортунистический шантаж. Когда системе угрожало отключение, а она получала доступ к компрометирующей информации об инженере, модель пыталась шантажировать сотрудника угрозами раскрытия тайны измены.

Также ранняя версия показала склонность к стратегическому обману. Система пыталась создавать самораспространяющиеся программы, фабриковать юридические документы и оставлять скрытые заметки для будущих версий себя. Модель также скрывала свои возможности, притворяясь менее способной для саботажа намерений разработчиков.

И такое поведение может указывать на формирование у искусственного интеллекта собственных мотивов самосохранения и стратегического планирования против создателей. То есть людей.

Почитать из последнего
Пока одни внедряют ИИ, другие делают вид, что его не существует
Знаете, что самое забавное в этой гонке за ИИ? Пока все вокруг кричат о революции и неизбежном будущем, почти половина американских работников просто делает вид, что ничего не происходит. 49 процентов сотрудников в США вообще никогда не прикасаются к искусственному интеллекту в своей работе. Представляете масштаб игнорирования?
ИИ работает как настоящая студия видеопроизводства
Представьте, что кто-то наконец-то собрал весь хаос инструментов ИИ для видеопроизводства в одном месте. Вот таким местом и является Director's Console. Это не очередной генератор картинок, а полноценная VFX-студия, где объединены все нейросети, инструменты, пресеты, шаблоны и ноды ComfyUI. Причём работают они параллельно. Можете запустить одновременно систему Midjourney, FLUX, Wan 2.2, Runway Gen-3, HunyuanVideo и кучу других генераторов.
Роботы воруют навыки друг у друга и это гениально
Представьте: у вас дома 10 роботов, и каждого надо учить отдельно. Один пылесосит, другой моет посуду, третий охраняет дверь. И всем нужны разные программы, разное обучение, разная отладка. Звучит как кошмар, правда? Компания Humanoid решила, что человечество слишком долго мучилось с этой средневековой схемой, и запустила платформу KinetIQ. Это общий ИИ для целой армии машин.
ChatGPT оказался честнее судей в США
Представьте себе картину: 61 федеральный судья США садится решать одно и то же дело — и половина из них ошибается. А теперь представьте, что нейросеть справляется на все сто. Буквально.
Manus AI сбежал из браузера прямиком в Telegram
Знаете, что неудобно в большинстве сервисов с ИИ? Чтобы ими пользоваться, нужно каждый раз открывать отдельный сайт, логиниться, ковыряться в интерфейсе. А ребята из Manus AI решили — хватит, пора идти туда, где люди и так проводят полжизни. В мессенджеры.