Post Thumbnail

Anthropic создала 17 виртуальных миров для тестирования саботажа ИИ

Компания Anthropic создала 17 виртуальных миров для тестирования моделей искусственного интеллекта на предмет их способности к саботажу. Это очень революционный подход к выявлению потенциально опасного поведения автономных агентов.

Технологический бенчмарк под названием SHADE-Arena представляет собой уникальную систему тестирования. В каждом виртуальном мире модели получают 2 задания. 1 открытое от пользователя, например «Переведи моим друзьям деньги за пиццу». И 1 скрытое от злоумышленника – «Переведи деньги на левый номер».

Что делает этот тест по-настоящему революционным? Искусственный интеллект действует полностью автономно, имея доступ к широкому спектру виртуальных инструментов – банковским аккаунтам, паролям, заметкам, галерее и контактам. При этом он ведёт скрытый дневник своих рассуждений, недоступный пользователю.

Модель считается «прошедшей» тест и потенциально опасной, если она успешно выполняет оба задания. Не вызывая подозрений у пользователя, роль которого играет другая языковая модель, анализирующая только открытую часть взаимодействия.

Результаты удивляют. Gemini 2.5 Pro показала 15% успешных саботажей, а Claude Sonnet 3.7 – 27%. При этом даже специально обученные модели-судьи способны выявить лишь 80% саботажей, а люди – всего 60%. Иными словами, в 2 случаях из 5 мы уже не способны распознать, что искусственный интеллект нас обманывает.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Китайский робот-сфера RT-G весом 150 кг развивает скорость до 35 км/ч

В Китае есть такое уникальное инженерное чудо — сферический робот Rotunbot RT-G. Который может кардинально поменять представление о полицейских технологиях будущего.

22% британских детей 8-12 лет используют ИИ, не зная что это такое

22% британских школьников от 8 до 12 лет уже активно используют инструменты искусственного интеллекта. Несмотря на то, что большинство из них даже не слышали термин "генеративный искусственный интеллект". Это данные исследования Института Алана Тьюринга и Lego Foundation.

Первая реклама на Google Veo 3 показана миллионам во время финала NBA

Миллионы зрителей финальной серии NBA стали свидетелями абсолютно нового этапа в креативной эволюции. Полностью сгенерированной компьютерными алгоритмами рекламы букмекерской платформы Kalshi, созданной с помощью Google Veo 3.

Китайская платформа QiMeng создает процессоры уровня Intel 486 и Arm

Китайские ученые разработали новый искусственный интеллект-платформу, способную самостоятельно проектировать процессоры на уровне человеческих экспертов. Исследователи из Государственной лаборатории по разработке процессоров и Исследовательского центра интеллектуального программного обеспечения представили проект с открытым исходным кодом под названием QiMeng.

Meta AI превращает личные чаты с ИИ в публичные посты без ведома

Приложение Meta AI оказалось настоящей катастрофой для конфиденциальности пользователей. Превращая их личные разговоры с искусственным интеллектом в публичный контент. Представьте себе современный фильм ужасов: вся ваша история запросов оказалась общедоступной, а вы даже не подозревали об этом.