Post Thumbnail

Test Salesforce : Gemini 2.5 Pro ne résout que 58% des tâches business

Le test Salesforce CRMArena-Pro montre que même les modèles d’intelligence artificielle leaders font face à des limitations sérieuses lors de la résolution de tâches business quotidiennes.

Imaginez : le modèle phare Gemini 2.5 Pro ne gère avec succès que 58% des requêtes lors d’une seule sollicitation. Et que se passe-t-il avec un dialogue multi-étapes ? L’efficacité chute rapidement à 35% !

CRMArena-Pro teste les grands modèles de langage dans des conditions réelles de vente, service client et tarification. Les chercheurs ont créé 4280 tâches uniques selon 19 types d’opérations business en utilisant des données synthétiques Salesforce.

Particulièrement révélateurs sont les résultats dans le domaine des dialogues multi-étapes — un élément clé de toute interaction business. Presque la moitié des tentatives échouées de Gemini 2.5 Pro est liée à l’incapacité de demander des informations critiquement importantes. Les modèles qui posent plus de questions de clarification démontrent des résultats significativement meilleurs.

Les plus hautes performances ont été atteintes dans l’automatisation de processus de travail simples — 83% de succès dans le routage de requêtes de service support. Cependant, les tâches nécessitant une compréhension profonde du texte ou le suivi de règles complexes restent un défi sérieux pour les technologies modernes d’intelligence artificielle.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

Imagry a créé un drone sans cartes HD

L'entreprise Imagry a créé une technologie unique de contrôle autonome qui fonctionne sans cartes HD. Cette merveille d'ingénierie repose sur une approche bio-inspirée qui imite la perception et la prise de décision humaines. Imaginez — le système voit la route avec des yeux-caméras et prend des décisions avec un cerveau-réseau neuronal, exactement comme un conducteur expérimenté !

Le Ministère américain a silencieusement remplacé un rapport avec de fausses citations d'IA

Le rapport du Ministère américain de la Santé et des Services sociaux sur les maladies chroniques de l'enfance s'est retrouvé au centre d'un scandale scientifique. Les experts ont découvert que le document "Make Our Children Healthy Again Assessment" contient des citations falsifiées et des études inexistantes.

L'IA de Meta bloque des milliers de groupes Facebook pour "terrorisme"

Plus tôt je vous racontais que l'intelligence artificielle de Meta bloquait massivement des comptes Instagram. Maintenant elle bloque aussi des groupes Facebook. Il y a une vague de blocages sans précédent. Des milliers de groupes Facebook se sont retrouvés sous des sanctions injustifiées du système de modération. Cet effondrement technique a touché des communautés tant aux États-Unis qu'à l'étranger, couvrant les catégories thématiques les plus diverses.

Google a sorti Gemini CLI : agent IA pour le code

L'entreprise Google a présenté Gemini CLI. C'est un agent officiel pour utiliser l'intelligence artificielle pour écrire du code. Directement depuis la ligne de commande. Et cet outil donne accès à toutes les capacités du modèle Gemini 2.5 Pro.

Test Salesforce : Gemini 2.5 Pro ne résout que 58% des tâches business

Le test Salesforce CRMArena-Pro montre que même les modèles d'intelligence artificielle leaders font face à des limitations sérieuses lors de la résolution de tâches business quotidiennes.