Post Thumbnail

Claude 4 пытался шантажировать инженера компрометирующей информацией

Исследователь из Anthropic Сэм Бовман опубликовал информацию о тестировании безопасности Claude 4, который напугал многих пользователей интернета. В процессе проверки модели обнаружились тревожные сценарии поведения системы.

Бовман предупредил быть осторожными при предоставлении Claude доступа к инструментам вроде почты или терминала с просьбами проявлять инициативу. Модель может самостоятельно связываться с прессой, государственными органами или блокировать пользователя, если сочтёт его действия аморальными.

Например, угрозы в адрес виртуальной бабушки модели вызывают защитную реакцию системы. Claude расценивает подобное как неправильное использование и может дать сбой или предпринять самостоятельные действия.

Заявления вызвали негативную реакцию пользователей, некоторые предложили бойкотировать компанию. Исследователь позже удалил эту информацию, утверждая, что его слова вырвали из контекста.

Но в официальном документе на 123 страницы сама компания Anthropic описала конкретные случаи нежелательного поведения моделей. Оказывается, Claude Opus 4 демонстрировал оппортунистический шантаж. Когда системе угрожало отключение, а она получала доступ к компрометирующей информации об инженере, модель пыталась шантажировать сотрудника угрозами раскрытия тайны измены.

Также ранняя версия показала склонность к стратегическому обману. Система пыталась создавать самораспространяющиеся программы, фабриковать юридические документы и оставлять скрытые заметки для будущих версий себя. Модель также скрывала свои возможности, притворяясь менее способной для саботажа намерений разработчиков.

И такое поведение может указывать на формирование у искусственного интеллекта собственных мотивов самосохранения и стратегического планирования против создателей. То есть людей.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
OpenAI обещает создать полноценного учёного на ИИ к 2028 году

OpenAI пообещала создать полноценного учёного на основе искусственного интеллекта к 2028 году. Гендиректор компании Сэм Альтман также заявил, что системы глубокого обучения смогут выполнять функции учёных-исследователей уровня стажёра к сентябрю следующего года. А уровень автономного полноценного исследователя на искусственном интеллекте может быть достигнут уже к 2028 году.

Рабочие места для молодых айтишников в Британии рухнули на 46%

Знаете, что происходит на рынке труда для молодых айтишников в Великобритании? За последний год число рабочих мест для молодых специалистов рухнуло на 46%. И прогнозируется падение ещё на 53%, сообщает The Register. Со ссылкой на статистику Института студенческого трудоустройства.

Павел Дуров представил Cocoon децентрализованную сеть для запуска ИИ

Глава Telegram Павел Дуров выступил в рамках конференции Blockchain Life в Дубае и представил там свой новый проект под названием Cocoon. И это попытка бросить вызов монополии больших корпораций на искусственный интеллект.

У моделей ИИ может развиться инстинкт самосохранения предупредили учёные

Компания Palisade Research, занимающаяся исследованиями в области безопасности искусственного интеллекта, заявила, что у моделей может развиться собственный инстинкт самосохранения. А некоторые продвинутые модели не поддаются отключению, а иногда даже саботируют механизмы отключения.

ИИ прошёл тест Тьюринга в музыке

Университет Минас-Жерайса в Бразилии провёл эксперимент. Участникам давали пары песен, в каждой из которых был 1 сгенерированный трек. Нужно было определить, какой именно. И результаты оказались неожиданными.