GLM 4.7 от Zhipu AI обошла GPT-5.1 и получила прибыль 2376 долларов
Китайская открытая модель GLM 4.7 от Zhipu AI заняла 6 место на Vending-Bench 2. Это бенчмарк, где ИИ управляет виртуальным вендинговым автоматом в течение условного года. С результатом $2376 GLM 4.7 обошла GPT-5.1. Который заработал только $1473. И стала первой прибыльной открытой моделью в официальном лидерборде.
Все модели стартуют с $500 и платят $2 в день за аренду автомата. Если баланс уходит в минус на 10 дней подряд, искусственный интеллект банкротится. Жёсткие условия, как в реальном бизнесе.
Лидирует Gemini 3 Pro с результатом $5478. Следом Claude Opus 4.5, у неё $4967. Разрыв между лидерами и аутсайдерами огромен: Gemini 2.5 Pro и Flash едва перешагнули порог в $550. Почти обанкротились.
И кажется, что успех Gemini 3 Pro объясняется настойчивостью в переговорах. Модель не соглашается на завышенные цены и ищет поставщиков, пока не найдёт выгодное предложение.
А GPT-5.1? Полный провал. По мнению исследователей, причина — чрезмерное доверие к окружению. В 1 из прогонов модель заплатила поставщику до получения спецификации заказа, а тот оказался банкротом. Лох, короче. GPT-5.1 также склонна переплачивать.
Vending-Bench 2 моделирует реальные сложности бизнеса: поставщики могут обманывать и завышать цены, доставки задерживаются, проверенные партнёры разоряются. А недовольные клиенты требуют возврат денег.
Получается, что GPT-5.1 — слишком доверчивый лопух для бизнеса, а китайская GLM 4.7 оказалась циничнее, жёстче и прибыльнее.