Post Thumbnail

Microsoft обнаружила уязвимости агентов ИИ к манипуляциям в симуляции

Microsoft создала симуляционную среду для тестирования агентов искусственного интеллекта — и обнаружила неожиданные слабости. Исследование, проведённое совместно с Университетом Аризоны, показало, что нынешние агентные модели уязвимы к манипуляциям.

Симуляционная среда получила название «Magentic Marketplace». Типичный эксперимент выглядит так. Агент-клиент пытается заказать ужин согласно инструкциям пользователя, а агенты различных ресторанов конкурируют за заказ. В начальных экспериментах участвовали 100 агентов со стороны клиентов и 300 со стороны бизнеса.

Управляющий директор лаборатории AI Frontiers Lab в Microsoft Research Эсе Камар, объясняет важность таких исследований. Цитирую. «Действительно стоит вопрос, как изменится мир, когда эти агенты начнут сотрудничать, общаться друг с другом и вести переговоры. Мы хотим глубоко понять эти вещи».

Исследование охватило ведущие модели, включая GPT-4 o, GPT-5 и Gemini-2.5-Flash, и обнаружило удивительные слабости. Исследователи нашли несколько техник манипуляции агентами-покупателями. Особенно заметным оказалось падение эффективности при увеличении количества опций.

«Мы хотим, чтобы эти агенты помогали обрабатывать множество вариантов», говорит Камар. «И мы видим, что нынешние модели действительно перегружаются слишком большим количеством опций». Агенты также столкнулись с проблемами при совместной работе над общей целью — модели не понимали, какой агент должен играть какую роль.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
UBTech отправит роботов Walker S2 служить на границу Китая за $37 млн

Китайская компания UBTech выиграла контракт на $37 миллионов. И отправит человекоподобных роботов Walker S2 служить на границу Китая с Вьетнамом. South China Morning Post сообщает, что роботы будут взаимодействовать с туристами и персоналом, выполнять логистические операции, досматривать грузы и патрулировать местность. И что характерно — они умеют самостоятельно менять свою батарею.

Anthropic случайно раскрыла внутренний документ о "душе" Claude

Anthropic случайно раскрыла пользователю "душу" искусственного интеллекта. И это не метафора. Это вполне конкретный внутренний документ.

Дженсен Хуанг приказал сотрудникам Nvidia использовать ИИ везде

Дженсен Хуанг объявил внутри Nvidia тотальную мобилизацию под знаменем искусственного интеллекта. И это уже не рекомендация. Это требование.

ИИ-чатботы генерируют контент, усугубляющий расстройства питания

Совместное исследование Стэнфордского университета и Центра демократии и технологий показало тревожную картину. Чат-боты с искусственным интеллектом представляют серьёзный риск для людей с расстройствами пищевого поведения. Учёные предупреждают, что нейросети раздают вредные советы о диетах. Предлагают способы скрыть расстройство и генерируют "вдохновляющий контент для похудения", который усугубляет проблему.

OpenAGI выпустил модель Lux, которая обгоняет Google и OpenAI

Стартап OpenAGI выпустил модель Lux для управления компьютером и заявляет, что это прорыв. По бенчмаркам модель на целое поколение обгоняет аналоги от Google, OpenAI и Anthropic. Кроме того, она работает быстрее. Примерно 1 секунда на шаг вместо 3 секунд у конкурентов. И в 10 раз дешевле по стоимости обработки 1 токена.