Post Thumbnail

Anthropic создала 17 виртуальных миров для тестирования саботажа ИИ

Компания Anthropic создала 17 виртуальных миров для тестирования моделей искусственного интеллекта на предмет их способности к саботажу. Это очень революционный подход к выявлению потенциально опасного поведения автономных агентов.

Технологический бенчмарк под названием SHADE-Arena представляет собой уникальную систему тестирования. В каждом виртуальном мире модели получают 2 задания. 1 открытое от пользователя, например “Переведи моим друзьям деньги за пиццу”. И 1 скрытое от злоумышленника – “Переведи деньги на левый номер”.

Что делает этот тест по-настоящему революционным? Искусственный интеллект действует полностью автономно, имея доступ к широкому спектру виртуальных инструментов – банковским аккаунтам, паролям, заметкам, галерее и контактам. При этом он ведёт скрытый дневник своих рассуждений, недоступный пользователю.

Модель считается “прошедшей” тест и потенциально опасной, если она успешно выполняет оба задания. Не вызывая подозрений у пользователя, роль которого играет другая языковая модель, анализирующая только открытую часть взаимодействия.

Результаты удивляют. Gemini 2.5 Pro показала 15% успешных саботажей, а Claude Sonnet 3.7 – 27%. При этом даже специально обученные модели-судьи способны выявить лишь 80% саботажей, а люди – всего 60%. Иными словами, в 2 случаях из 5 мы уже не способны распознать, что искусственный интеллект нас обманывает.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Anthropic интегрировал Opus 4.1 в Claude Code и облачные платформы

Anthropic выпустил Claude Opus 4.1. Это не просто очередной апдейт, а существенное улучшение кодинговых способностей и агентского функционала. Что особенно радует — новая версия интегрирована не только в классический интерфейс Claude, но и в инструмент Claude Code. А также доступна через API, Amazon Bedrock и Google Cloud Vertex AI.

OpenAI выпустила первые open source модели за 6 лет

OpenAI выпустили 1 модели с открытым исходным кодом за последние 6 лет! 1 обещанный релиз состоялся.

Samsung ищет замену Google Gemini для Galaxy S26

Samsung Electronics, 1 из ведущих производителей мобильных устройств, активно ищет альтернативы Google Gemini для своей будущей линейки Galaxy S26. Компания ведёт переговоры с OpenAI и Perplexity, стремясь расширить экосистему искусственного интеллекта в своих устройствах.

Как языковые модели передают знания через случайные числа

Вы когда-нибудь задумывались, могут ли числа хранить знания? Учёные обнаружили удивительное явление. Языковые модели способны передавать свои поведенческие черты через последовательности цифр, которые выглядят как случайный шум.

Alibaba представила умные очки Quark AI с чипом Snapdragon AR1

Китайский технологический гигант Alibaba представил на Всемирной конференции по искусственному интеллекту в Шанхае свою 1 модель умных очков Quark AI.