Microsoft обнаружила уязвимости агентов ИИ к манипуляциям в симуляции

Post Thumbnail

Microsoft создала симуляционную среду для тестирования агентов искусственного интеллекта — и обнаружила неожиданные слабости. Исследование, проведённое совместно с Университетом Аризоны, показало, что нынешние агентные модели уязвимы к манипуляциям.

Симуляционная среда получила название «Magentic Marketplace». Типичный эксперимент выглядит так. Агент-клиент пытается заказать ужин согласно инструкциям пользователя, а агенты различных ресторанов конкурируют за заказ. В начальных экспериментах участвовали 100 агентов со стороны клиентов и 300 со стороны бизнеса.

Управляющий директор лаборатории AI Frontiers Lab в Microsoft Research Эсе Камар, объясняет важность таких исследований. Цитирую. «Действительно стоит вопрос, как изменится мир, когда эти агенты начнут сотрудничать, общаться друг с другом и вести переговоры. Мы хотим глубоко понять эти вещи».

Исследование охватило ведущие модели, включая GPT-4 o, GPT-5 и Gemini-2.5-Flash, и обнаружило удивительные слабости. Исследователи нашли несколько техник манипуляции агентами-покупателями. Особенно заметным оказалось падение эффективности при увеличении количества опций.

«Мы хотим, чтобы эти агенты помогали обрабатывать множество вариантов», говорит Камар. «И мы видим, что нынешние модели действительно перегружаются слишком большим количеством опций». Агенты также столкнулись с проблемами при совместной работе над общей целью — модели не понимали, какой агент должен играть какую роль.

Почитать из последнего
100 тыс. диалогов подтвердили экономию 80% времени с помощью ИИ
Anthropic проанализировала 100 тыс. реальных диалогов с Claude. И эти цифры теперь можно использовать в спорах о пользе искусственного интеллекта. Задачи, которые у людей занимают около 90 минут и стоят примерно 55 долларов труда, Claude выполняет на 80% быстрее человека.
Обнаружен способ обхода защиты ИИ в 90% случаев
Стихи ломают защиту больших языковых моделей. И это плохо для индустрии. Исследователи из DEXAI и Университета Сапиенцы в Риме выяснили, чтобы заставить искусственный интеллект ответить на опасный запрос, достаточно промт написать в стихах. В некоторых случаях «поэтические взломы» срабатывали в более чем 90% попыток.
Google опасался ошибок, а OpenAI на этом заработал миллиарды
Стэнфорд выпустил интервью с создателем Google Сергеем Брином, и там прозвучала фраза, которая объясняет всё происходящее в индустрии ИИ. «Главной ошибкой Google было недооценить трансформеры». Не технология подвела - подвела вера в неё.
Крёстный отец ИИ назвал AGI полной чушью
Один из «крестных отцов» искусственного интеллекта Ян Лекун заявил, что понятия general intelligence или AGI вообще не существует. Это не просто провокация - это удар по основам всей дискуссии об ИИ. Потому что если нет понятия, то что мы вообще пытаемся создать?
Новый Gemini 3 Flash быстрее в 3 раза и обходит Pro модель, но стоит копейки
Google выпустили Gemini 3 Flash, и это frontier-модель со скоростью Flash и ценой, которая ломает привычные правила рынка.