Post Thumbnail

Тест Salesforce: Gemini 2.5 Pro решает лишь 58% бизнес-задач

Тест Salesforce CRMArena-Pro показывает, что даже ведущие модели искусственного интеллекта сталкиваются с серьезными ограничениями при решении повседневных бизнес-задач.

Представьте: флагманская модель Gemini 2.5 Pro успешно справляется лишь с 58% запросов при однократном обращении. А что происходит при многоэтапном диалоге? Эффективность стремительно падает до 35%!

CRMArena-Pro тестирует большие языковые модели в реальных условиях продаж, обслуживания клиентов и ценообразования. Исследователи создали 4280 уникальных задач по 19 типам бизнес-операций, используя синтетические данные Salesforce.

Особенно показательны результаты в области многоэтапных диалогов — ключевого элемента любого бизнес-взаимодействия. Почти половина неудачных попыток Gemini 2.5 Pro связана с неспособностью запросить критически важную информацию. Модели, задающие больше уточняющих вопросов, демонстрируют значительно лучшие результаты.

Самые высокие показатели достигнуты в автоматизации простых рабочих процессов — 83% успеха при маршрутизации запросов в службу поддержки. Однако задачи, требующие глубокого понимания текста или следования сложным правилам, остаются серьезным вызовом для современных технологий искусственного интеллекта.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Как Robomart снижает стоимость доставки на 70% через робототехнику

$3 за любую доставку. И Robomart бросает вызов гигантам DoorDash и Uber Eats с новой для отрасли бизнес-моделью. Их новый робот RM5 полностью меняет экономику доставки.

Необычное сотрудничество конкурентов в тестировании безопасности ИИ

2 главных конкурента в мире искусственного интеллекта впервые объединились для совместного тестирования безопасности. OpenAI и Anthropic открыли друг другу доступ к своим секретным моделям. В индустрии, где компании платят исследователям по $100 млн и борются за каждого пользователя, такое сотрудничество выглядит невероятным.

Почему Gemini достиг 50% от аудитории ChatGPT на мобильных

Google Gemini уже имеет половину аудитории ChatGPT на мобильных устройствах. Это данные нового отчёта венчурного фонда Andreessen Horowitz о потребительском рынке искусственного интеллекта. 2,5 года исследований показывают интересную картину.

Как Claude стал инструментом для взлома 17 организаций

Компания Anthropic выпустила аналитический отчёт по безопасности. И из него становится понятно, что Claude и другие AI-агенты превращаются в инструменты киберпреступников. В Anthropic назвали это новое направление вайб-хакингом. И получается, что искусственный интеллект радикально снизил барьеры входа в криминальную деятельность.

Как xAI конкурирует с OpenAI в инструментах для разработчиков

xAI запускает Grok Code Fast 1. Это компактная агентная модель для кодинга. $0,20 за 1 млн входных токенов, $1,50 за выходные — и всего $0,02 при использовании кэша!