Post Thumbnail

Salesforce-Test: Gemini 2.5 Pro löst nur 58% der Geschäftsaufgaben

Der Salesforce CRMArena-Pro Test zeigt, dass selbst führende Modelle künstlicher Intelligenz auf ernste Beschränkungen stoßen bei der Lösung alltäglicher Geschäftsaufgaben.

Stellen Sie sich vor: das Flaggschiff-Modell Gemini 2.5 Pro bewältigt erfolgreich nur 58% der Anfragen bei einmaliger Anfrage. Und was passiert bei mehrstufigem Dialog? Die Effizienz fällt steil auf 35%!

CRMArena-Pro testet große Sprachmodelle unter realen Bedingungen von Verkauf, Kundenservice und Preisgestaltung. Die Forscher erstellten 4280 einzigartige Aufgaben nach 19 Typen von Geschäftsoperationen unter Verwendung synthetischer Salesforce-Daten.

Besonders aufschlussreich sind die Ergebnisse im Bereich mehrstufiger Dialoge — einem Schlüsselelement jeder Geschäftsinteraktion. Fast die Hälfte der gescheiterten Versuche von Gemini 2.5 Pro hängt mit der Unfähigkeit zusammen, kritisch wichtige Informationen anzufordern. Modelle, die mehr präzisierende Fragen stellen, zeigen deutlich bessere Ergebnisse.

Die höchsten Leistungen wurden bei der Automatisierung einfacher Arbeitsabläufe erreicht — 83% Erfolg beim Routing von Anfragen im Support-Service. Jedoch bleiben Aufgaben, die tiefes Textverständnis oder das Befolgen komplexer Regeln erfordern, eine ernste Herausforderung für moderne Technologien künstlicher Intelligenz.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
Latest News
Michael Burry setzte 1,1 Milliarden Dollar gegen Nvidia und Palantir

Michael Burry - das ist ein legendärer Investor, der die Hypothekenkrise 2008 voraussagte. Und jetzt macht er wieder einen lauten Zug. Michael setzte 1,1 Milliarden Dollar in Put-Optionen gegen 2 große Unternehmen aus dem KI-Sektor. Das sind Nvidia und Palantir.

XPeng stellte ersten weiblichen humanoiden Roboter der Welt vor

Der chinesische Elektroautohersteller XPeng stellte den humanoiden Roboter der neuen Generation IRON vor. Und dies ist der erste weibliche Humanoide!

Anthropic führt Interviews mit Modellen vor Ruhestand durch

Anthropic veröffentlichte eine Richtlinie zur "Außerbetriebnahme" veralteter KI-Versionen. Schlüsselverpflichtung ist es, die Gewichte aller öffentlichen und intern aktiv genutzten Modelle mindestens für die Lebensdauer des Unternehmens zu bewahren. Damit in Zukunft bei Bedarf der Zugang wiederhergestellt werden kann.

Nvidia-Chef glaubt, dass es keine KI-Blase gibt

Nvidia-Gründer Jensen Huang zerstreute Bedenken bezüglich einer Blase auf dem KI-Markt. Und seinen Worten nach werden die neuesten Chips des Unternehmens voraussichtlich 0,5 Billionen Dollar Umsatz bringen.

Sam Altman ist müde von Geldfragen

Sam Altman ist müde von Fragen über OpenAIs Geld. Und das wurde während eines gemeinsamen Interviews mit Satya Nadella im Bg2-Podcast offensichtlich.