Тест Salesforce: Gemini 2.5 Pro решает лишь 58% бизнес-задач
Тест Salesforce CRMArena-Pro показывает, что даже ведущие модели искусственного интеллекта сталкиваются с серьезными ограничениями при решении повседневных бизнес-задач.
Представьте: флагманская модель Gemini 2.5 Pro успешно справляется лишь с 58% запросов при однократном обращении. А что происходит при многоэтапном диалоге? Эффективность стремительно падает до 35%!
CRMArena-Pro тестирует большие языковые модели в реальных условиях продаж, обслуживания клиентов и ценообразования. Исследователи создали 4280 уникальных задач по 19 типам бизнес-операций, используя синтетические данные Salesforce.
Особенно показательны результаты в области многоэтапных диалогов — ключевого элемента любого бизнес-взаимодействия. Почти половина неудачных попыток Gemini 2.5 Pro связана с неспособностью запросить критически важную информацию. Модели, задающие больше уточняющих вопросов, демонстрируют значительно лучшие результаты.
Самые высокие показатели достигнуты в автоматизации простых рабочих процессов — 83% успеха при маршрутизации запросов в службу поддержки. Однако задачи, требующие глубокого понимания текста или следования сложным правилам, остаются серьезным вызовом для современных технологий искусственного интеллекта.
Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Imagry создала беспилотник без HD-картКомпания Imagry создала уникальную технологию беспилотного управления, которая работает без HD-карт. В основе этого инженерного чуда лежит биоинспирированный подход, имитирующий человеческое восприятие и принятие решений. Представьте себе — система видит дорогу глазами-камерами и принимает решения мозгом-нейросетью, в точности как опытный водитель!
Министерство США молча заменило доклад с фальшивыми цитатами ИИДоклад Министерства здравоохранения и социальных служб США о хронических детских заболеваниях оказался в центре научного скандала. Эксперты обнаружили, что в документе "Make Our Children Healthy Again Assessment" присутствуют фальсифицированные цитаты и несуществующие исследования.
ИИ Meta блокирует тысячи групп Facebook за "терроризм"Раньше я рассказывал, что искусственный интеллект Meta массово блокирует аккаунты в Instagram. Теперь он блокирует и группы в Facebook. Идет беспрецедентная волна блокировок. Тысячи групп Facebook оказались под необоснованными санкциями системы модерации. Этот технический коллапс затронул сообщества как в США, так и за рубежом, охватив самые разнообразные тематические категории.
Google выпустил Gemini CLI: ИИ-агент для кодаКомпания Google представила Gemini CLI. Это официальный агент для использования искусственного интеллекта для написания кода. Прямо из командной строки. И этот инструмент даёт доступ ко всем возможностям модели Gemini 2.5 Pro.