Post Thumbnail

Anthropic создала 17 виртуальных миров для тестирования саботажа ИИ

Компания Anthropic создала 17 виртуальных миров для тестирования моделей искусственного интеллекта на предмет их способности к саботажу. Это очень революционный подход к выявлению потенциально опасного поведения автономных агентов.

Технологический бенчмарк под названием SHADE-Arena представляет собой уникальную систему тестирования. В каждом виртуальном мире модели получают 2 задания. 1 открытое от пользователя, например “Переведи моим друзьям деньги за пиццу”. И 1 скрытое от злоумышленника – “Переведи деньги на левый номер”.

Что делает этот тест по-настоящему революционным? Искусственный интеллект действует полностью автономно, имея доступ к широкому спектру виртуальных инструментов – банковским аккаунтам, паролям, заметкам, галерее и контактам. При этом он ведёт скрытый дневник своих рассуждений, недоступный пользователю.

Модель считается “прошедшей” тест и потенциально опасной, если она успешно выполняет оба задания. Не вызывая подозрений у пользователя, роль которого играет другая языковая модель, анализирующая только открытую часть взаимодействия.

Результаты удивляют. Gemini 2.5 Pro показала 15% успешных саботажей, а Claude Sonnet 3.7 – 27%. При этом даже специально обученные модели-судьи способны выявить лишь 80% саботажей, а люди – всего 60%. Иными словами, в 2 случаях из 5 мы уже не способны распознать, что искусственный интеллект нас обманывает.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Исследователи OpenAI и Anthropic раскритиковали безопасность xAI

Исследователи из OpenAI, Anthropic и других организаций публично раскритиковали культуру безопасности в компании xAI, принадлежащей Илону Маску. Назвав её "безрассудной" и "совершенно безответственной".

Meta инвестирует сотни млрд в суперкластеры с энергопотреблением 5 ГВт

Марк Цукерберг объявил о беспрецедентных инвестициях в инфраструктуру искусственного интеллекта нового поколения! Компания вложит сотни млрд долларов в создание суперкластеров серверов. Которые будут потреблять от 1 до 5 ГВт каждый. Это энергопотребление на уровне целой атомной электростанции!

Рай для интровертов: ИИ будет разговаривать с сотрудниками компаний

Google выпустила новую функцию и теперь искусственный интеллект может звонить в местные компании от вашего имени. Чтобы узнать информацию о ценах и доступности услуг. Вам больше не нужно самим поднимать трубку и разговаривать с сотрудниками. Именно так выглядит рай интроверта.

OpenAI объединила ChatGPT, Deep Research и Operator в одном агенте

Компания OpenAI представила ChatGPT Agent. Мощное объединение ChatGPT, Deep Research и Operator в едином решении. Принцип работы максимально прост. Вы ставите цель, например, отправить письма, создать таблицы, купить билеты или забронировать отели. ChatGPT Agent самостоятельно разбивает эту цель на отдельные задачи, переходит по нужным сайтам, ищет информацию и заполняет формы. Перед критически важными действиями, такими как оплата, публикация или отправка, агент обязательно запрашивает ваше подтверждение.

Только 1 программист в мире смог обыграть ИИ от OpenAI

Представьте себе мир, где искусственный интеллект соревнуется с лучшими программистами планеты. Такое противостояние произошло на престижном турнире AtCoder World Tour Finals. Это 1 из самых элитных соревнований в мире программирования, куда попасть крайне сложно.