AIvengo > Bewertungen > Salesforce-Test: Gemini 2.5 Pro löst nur 58% der Geschäftsaufgaben

Salesforce-Test: Gemini 2.5 Pro löst nur 58% der Geschäftsaufgaben

Der Salesforce CRMArena-Pro Test zeigt, dass selbst führende Modelle künstlicher Intelligenz auf ernste Beschränkungen stoßen bei der Lösung alltäglicher Geschäftsaufgaben.

Stellen Sie sich vor: das Flaggschiff-Modell Gemini 2.5 Pro bewältigt erfolgreich nur 58% der Anfragen bei einmaliger Anfrage. Und was passiert bei mehrstufigem Dialog? Die Effizienz fällt steil auf 35%!

CRMArena-Pro testet große Sprachmodelle unter realen Bedingungen von Verkauf, Kundenservice und Preisgestaltung. Die Forscher erstellten 4280 einzigartige Aufgaben nach 19 Typen von Geschäftsoperationen unter Verwendung synthetischer Salesforce-Daten.

Besonders aufschlussreich sind die Ergebnisse im Bereich mehrstufiger Dialoge — einem Schlüsselelement jeder Geschäftsinteraktion. Fast die Hälfte der gescheiterten Versuche von Gemini 2.5 Pro hängt mit der Unfähigkeit zusammen, kritisch wichtige Informationen anzufordern. Modelle, die mehr präzisierende Fragen stellen, zeigen deutlich bessere Ergebnisse.

Die höchsten Leistungen wurden bei der Automatisierung einfacher Arbeitsabläufe erreicht — 83% Erfolg beim Routing von Anfragen im Support-Service. Jedoch bleiben Aufgaben, die tiefes Textverständnis oder das Befolgen komplexer Regeln erfordern, eine ernste Herausforderung für moderne Technologien künstlicher Intelligenz.

Autor: AIvengo

Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Nvidia-Chef glaubt, dass es keine KI-Blase gibt

Nvidia-Gründer Jensen Huang zerstreute Bedenken bezüglich einer Blase auf dem KI-Markt. Und seinen Worten nach werden die neuesten Chips des Unternehmens voraussichtlich 0,5 Billionen Dollar Umsatz bringen.

Sam Altman ist müde von Geldfragen

Sam Altman ist müde von Fragen über OpenAIs Geld. Und das wurde während eines gemeinsamen Interviews mit Satya Nadella im Bg2-Podcast offensichtlich.

Anzahl der Stellen für Forward Deployment Engineers stieg um 800%

KI-Unternehmen haben einen neuen Beruf erfunden. Es geht um Forward Deployment Engineers.

OpenAI verspricht vollwertigen KI-Wissenschaftler bis 2028 zu schaffen

OpenAI versprach, bis 2028 einen vollwertigen KI-basierten Wissenschaftler zu schaffen. CEO Sam Altman erklärte auch, dass Deep-Learning-Systeme bis September nächsten Jahres die Funktionen von Forschungswissenschaftlern auf Praktikantenniveau ausführen können. Und das Niveau eines autonomen vollwertigen KI-Forschers könnte bereits 2028 erreicht werden.

Arbeitsplätze für junge IT-Spezialisten in Großbritannien brachen um 46% ein

Wissen Sie, was auf dem Arbeitsmarkt für junge IT-Spezialisten in Großbritannien passiert? Im letzten Jahr brach die Anzahl der Arbeitsplätze für junge Spezialisten um 46% ein. Und es wird ein weiterer Rückgang um 53% prognostiziert, berichtet The Register. Unter Berufung auf Statistiken des Institute of Student Employers.