ИИ-агенты завалили экзамен по планированию бюджета
Знаете, что по-настоящему отличает умного человека от просто болтливого? Умение планировать с учётом реальных ограничений — денег, времени, логистики. И вот команда Alibaba решила проверить, насколько ИИ справляется с этой задачей в реальной жизни. Создали бенчмарк DeepPlanning. И результаты оказались интересными.
Представьте: вам нужно организовать многодневную поездку с жёстким бюджетом. Найти рейсы, отели, рестораны, состыковать всё по времени так, чтобы не опоздать на самолёт и не пропустить музей. Плюс учесть кучу пожеланий типа «гостиница 3 звезды с феном». Для этого агенту дают 9 API-инструментов. И вперёд, покажи класс! А второе задание ещё коварнее. Купить список товаров, применяя купоны и скидки так, чтобы выжать максимум выгоды. 15 API для поиска, фильтрации и комбинирования промокодов. Звучит как обычный поход в магазин? Ага, только попробуйте состыковать межмагазинные скидки с внутрибрендовыми и не запутаться!
И что же показали лучшие модели? Самый продвинутый GPT-5.2-high с трудом дотянул до 44.5 процента точности. Это лидер! Claude-4.5-Opus с включённым режимом размышления набрал 33 с хвостиком процента. А без этого режима вообще скатился до 26. Получается, что больше половины планов агенты проваливают. Либо бюджет улетает, либо расписание не сходится, либо купоны применяются неправильно.
Получается, Alibaba показала, что современные агенты пока слишком далеки от того, чтобы доверить им серьёзное планирование без человеческого контроля.