Post Thumbnail

Salesforce-Test: Gemini 2.5 Pro löst nur 58% der Geschäftsaufgaben

Der Salesforce CRMArena-Pro Test zeigt, dass selbst führende Modelle künstlicher Intelligenz auf ernste Beschränkungen stoßen bei der Lösung alltäglicher Geschäftsaufgaben.

Stellen Sie sich vor: das Flaggschiff-Modell Gemini 2.5 Pro bewältigt erfolgreich nur 58% der Anfragen bei einmaliger Anfrage. Und was passiert bei mehrstufigem Dialog? Die Effizienz fällt steil auf 35%!

CRMArena-Pro testet große Sprachmodelle unter realen Bedingungen von Verkauf, Kundenservice und Preisgestaltung. Die Forscher erstellten 4280 einzigartige Aufgaben nach 19 Typen von Geschäftsoperationen unter Verwendung synthetischer Salesforce-Daten.

Besonders aufschlussreich sind die Ergebnisse im Bereich mehrstufiger Dialoge — einem Schlüsselelement jeder Geschäftsinteraktion. Fast die Hälfte der gescheiterten Versuche von Gemini 2.5 Pro hängt mit der Unfähigkeit zusammen, kritisch wichtige Informationen anzufordern. Modelle, die mehr präzisierende Fragen stellen, zeigen deutlich bessere Ergebnisse.

Die höchsten Leistungen wurden bei der Automatisierung einfacher Arbeitsabläufe erreicht — 83% Erfolg beim Routing von Anfragen im Support-Service. Jedoch bleiben Aufgaben, die tiefes Textverständnis oder das Befolgen komplexer Regeln erfordern, eine ernste Herausforderung für moderne Technologien künstlicher Intelligenz.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Latest News

Nur 1 Programmierer der Welt konnte OpenAIs KI besiegen

Stellen Sie sich eine Welt vor, in der künstliche Intelligenz mit den besten Programmierern des Planeten konkurriert. Eine solche Konfrontation fand beim prestigeträchtigen Turnier AtCoder World Tour Finals statt. Das ist eines der elitärsten Programmierwettbewerbe der Welt, wo es extrem schwierig ist, hineinzukommen.

Ehemaliger OpenAI-Ingenieur erzählte über das Chaos innerhalb des Unternehmens

Möchten Sie wissen, was wirklich innerhalb von OpenAI passiert? Der ehemalige Ingenieur Calvin French-Owen enthüllte alle Details, nachdem er vor 3 Wochen von dort entlassen wurde.

Gehalt bis $170.000: Was SpaceX KI-Entwicklern anbietet

SpaceX macht eine unerwartete Wendung in seiner technologischen Strategie. Elon Musks Unternehmen hat Stellenausschreibungen für Software-Ingenieure im Bereich der künstlichen Intelligenz eröffnet. Es bildet ein Team, das sich mit der Lösung komplexester Datenverarbeitungsaufgaben für Trägerraketen und Raumfahrzeuge beschäftigen wird.

Musk mit $248 Milliarden kauft keine Arbeits-PCs, aber spioniert Mitarbeiter aus

Das Unternehmen xAI begann, seine Mitarbeiter direkt auf ihren persönlichen Computern zu überwachen! Mitarbeiter, die die künstliche Intelligenz Grok von ihren Geräten trainieren, wurden verpflichtet, Überwachungsprogramme zu installieren.

Kimi-K2 mit 1 Billion Parametern übertraf GPT-4.1 im Programmieren

Das chinesische Technologieunternehmen Moonshot AI stellte einen neuen Spieler in der KI-Arena vor! Lernen Sie Kimi-K2 kennen. Das ist ein großes Sprachmodell mit offenem Quellcode, bereit, anerkannte Industrieführer wie Claude Sonnet 4 und GPT-4.1 herauszufordern. Und ein so lauter und mächtiger Start erinnert an das Erscheinen von Deepseek.