Тест Salesforce: Gemini 2.5 Pro решает лишь 58% бизнес-задач

Post Thumbnail

Тест Salesforce CRMArena-Pro показывает, что даже ведущие модели искусственного интеллекта сталкиваются с серьезными ограничениями при решении повседневных бизнес-задач.

Представьте: флагманская модель Gemini 2.5 Pro успешно справляется лишь с 58% запросов при однократном обращении. А что происходит при многоэтапном диалоге? Эффективность стремительно падает до 35%!

CRMArena-Pro тестирует большие языковые модели в реальных условиях продаж, обслуживания клиентов и ценообразования. Исследователи создали 4280 уникальных задач по 19 типам бизнес-операций, используя синтетические данные Salesforce.

Особенно показательны результаты в области многоэтапных диалогов — ключевого элемента любого бизнес-взаимодействия. Почти половина неудачных попыток Gemini 2.5 Pro связана с неспособностью запросить критически важную информацию. Модели, задающие больше уточняющих вопросов, демонстрируют значительно лучшие результаты.

Самые высокие показатели достигнуты в автоматизации простых рабочих процессов — 83% успеха при маршрутизации запросов в службу поддержки. Однако задачи, требующие глубокого понимания текста или следования сложным правилам, остаются серьезным вызовом для современных технологий искусственного интеллекта.

Почитать из последнего
ИИ обучили на 500 000 мутаций, чтобы предсказывать генетические болезни
Исследователи медцентра Маунт-Синай в Нью-Йорке разработали ИИ, который определяет, какие заболевания могут вызвать мутации в генах.
Forbes подсчитал, кто заработал миллиарды на буме нейросетей
В 25-м году ИИ превратил больше предпринимателей в миллиардеров. А инвесторы вложили в сектор ИИ свыше 200 миллиардов долларов. Это почти 50% всего мирового венчурного финансирования. Forbes подвёл итоги: крупнейшие состояния сколотили не только создатели моделей, но и те, кто строит инфраструктуру вокруг них.
В Китае текстильная фабрика работает полностью на ИИ и без людей
В китайском городе Синьцзянь заработала текстильная фабрика, которая работает полностью с помощью ИИ. И вот вам картина будущего, в котором людям на производстве места нет. На огромном производстве ни одного рабочего на линии. Около 5000 ткацких станков крутятся круглосуточно под управлением ИИ и робототехники.
Психиатры зафиксировали десятки случаев, когда люди сходят с ума от ChatGPT
The Wall Street Journal пишет, что рост популярности чат-ботов на ИИ вызывает обеспокоенность психиатров, фиксирующих отдельные случаи расстройств на этой почве.
Similarweb показал, за счёт чего Gemini отжирает долю у OpenAI
Similarweb опубликовал свежую аналитику по доле разных продуктов на больших языковых моделях в веб-трафике. И вот вам картина перераспределения рынка. В начале года у ChatGPT было 87%, теперь — 68%. Доля упала почти на 20%.