Post Thumbnail

Anthropic создала 17 виртуальных миров для тестирования саботажа ИИ

Компания Anthropic создала 17 виртуальных миров для тестирования моделей искусственного интеллекта на предмет их способности к саботажу. Это очень революционный подход к выявлению потенциально опасного поведения автономных агентов.

Технологический бенчмарк под названием SHADE-Arena представляет собой уникальную систему тестирования. В каждом виртуальном мире модели получают 2 задания. 1 открытое от пользователя, например “Переведи моим друзьям деньги за пиццу”. И 1 скрытое от злоумышленника – “Переведи деньги на левый номер”.

Что делает этот тест по-настоящему революционным? Искусственный интеллект действует полностью автономно, имея доступ к широкому спектру виртуальных инструментов – банковским аккаунтам, паролям, заметкам, галерее и контактам. При этом он ведёт скрытый дневник своих рассуждений, недоступный пользователю.

Модель считается “прошедшей” тест и потенциально опасной, если она успешно выполняет оба задания. Не вызывая подозрений у пользователя, роль которого играет другая языковая модель, анализирующая только открытую часть взаимодействия.

Результаты удивляют. Gemini 2.5 Pro показала 15% успешных саботажей, а Claude Sonnet 3.7 – 27%. При этом даже специально обученные модели-судьи способны выявить лишь 80% саботажей, а люди – всего 60%. Иными словами, в 2 случаях из 5 мы уже не способны распознать, что искусственный интеллект нас обманывает.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
DeepSeek вместо терапевта: почему китайцы плачут чатботам

Представьте: вам плохо, тревожно, депрессия накрывает. И вы идёте не к психологу, а к искусственному интеллекту. Звучит как антиутопия? Для молодых китайцев это уже реальность. И знаете что самое интересное? Они в восторге от этого.

State of AI Report 2025: Китай догнал США за 2 года, что дальше?

Друзья, вышел отчёт State of AI Report за 2025 год. И если читать между строк, там вырисовывается история о том, как индустрия искусственного интеллекта разогналась до такой скорости, что уже не может затормозить. И никто толком не знает, что там впереди.

Как OpenAI превратилась в корпоративное зло: скандал с повестками

Знаете, что творится в мире искусственного интеллекта? Пока все восхищаются очередными достижениями OpenAI, компания тихонько превращается в то самое корпоративное зло, против которого они якобы боролись. И вот вам свежий пример – история, которая взорвала Твиттер.

Воркслоп - эпидемия или как ИИ убивает доверие к вам

Вы наверняка сталкивались с этим. Письмо от коллеги, которое выглядит идеально: правильная структура, красивые слова, профессиональный тон. Вы начинаете читать — и понимаете, что за всей этой упаковкой нет абсолютно ничего. Никакой конкретики, никаких решений, просто красиво оформленная пустота. Поздравляю: вы только что столкнулись с воркслопом.