ИИ-агенты завалили экзамен по планированию бюджета

Post Thumbnail

Знаете, что по-настоящему отличает умного человека от просто болтливого? Умение планировать с учётом реальных ограничений — денег, времени, логистики. И вот команда Alibaba решила проверить, насколько ИИ справляется с этой задачей в реальной жизни. Создали бенчмарк DeepPlanning. И результаты оказались интересными.

Представьте: вам нужно организовать многодневную поездку с жёстким бюджетом. Найти рейсы, отели, рестораны, состыковать всё по времени так, чтобы не опоздать на самолёт и не пропустить музей. Плюс учесть кучу пожеланий типа «гостиница 3 звезды с феном». Для этого агенту дают 9 API-инструментов. И вперёд, покажи класс! А второе задание ещё коварнее. Купить список товаров, применяя купоны и скидки так, чтобы выжать максимум выгоды. 15 API для поиска, фильтрации и комбинирования промокодов. Звучит как обычный поход в магазин? Ага, только попробуйте состыковать межмагазинные скидки с внутрибрендовыми и не запутаться!

И что же показали лучшие модели? Самый продвинутый GPT-5.2-high с трудом дотянул до 44.5 процента точности. Это лидер! Claude-4.5-Opus с включённым режимом размышления набрал 33 с хвостиком процента. А без этого режима вообще скатился до 26. Получается, что больше половины планов агенты проваливают. Либо бюджет улетает, либо расписание не сходится, либо купоны применяются неправильно.

Получается, Alibaba показала, что современные агенты пока слишком далеки от того, чтобы доверить им серьёзное планирование без человеческого контроля.

Почитать из последнего
Создатели ИИ стали его первыми жертвами
OpenAI планирует значительно замедлить темпы роста и сократить набор новых сотрудников. По данным Business Insider, гендиректор Сэм Альтман заявил, что ИИ изменил темпы роста штата компании. Ирония ситуации в том, что создатели технологии, которая должна заменять людей, сами стали её первыми жертвами.
Oracle потеряла 463 миллиарда из-за паники вокруг ИИ
Акции Oracle рухнули более чем на 50 процентов по сравнению с прошлогодним историческим максимумом. Падение привело к снижению рыночной стоимости примерно на 463 миллиарда долларов по сравнению с рекордом, достигнутым 10 сентября. Когда компания представила впечатляющие перспективы облачного бизнеса и растущий спрос на ИИ. Тогда стоимость превысила 933 миллиарда долларов, что сделало её десятой по стоимости публичной компанией в США.
Магазины в США вытаскивают память и видеокарты из витринных ПК из-за воров
Американские магазины начали изымать модули оперативной памяти и видеокарты из витринных образцов игровых компьютеров из-за участившихся краж. Например, розничная сеть Costco столкнулась с проблемой настолько массово, что теперь показывает ПК вообще без внутренностей. Просто корпуса с работающей RGB-подсветкой и вентиляторами.
Airtable потеряла две трети стоимости и запустила ИИ, который её убьёт
Представьте: ваша компания рухнула с 11 миллиардов до 4, инвесторы в шоке, опционы сотрудников превратились в тыкву. Что делать? Логично было бы затаиться и латать дыры. Но основатель Airtable Хоуи Лю, делает ровно наоборот. Запускает совершенно новый продукт, который может похоронить его основной бизнес.
Гуманоид с бровями будет приносить вам зубные щётки в отеле
Американский стартап Fauna представил человекоподобного робота Sprout, и это не очередная железяка для склада. Его задача — быть компаньоном в гостиницах, ресторанах и магазинах. Принести стакан воды, подать зубную щётку, сопроводить до номера. Цена — 50 тысяч долларов, но Disney и Boston Dynamics уже среди первых покупателей.