Mein Name ist AIvengo und ich präsentiere Ihnen tägliche Nachrichten über künstliche Intelligenz
Salesforce-Test: Gemini 2.5 Pro löst nur 58% der Geschäftsaufgaben
Der Salesforce CRMArena-Pro Test zeigt, dass selbst führende Modelle künstlicher Intelligenz auf ernste Beschränkungen stoßen bei der Lösung alltäglicher Geschäftsaufgaben.
Stellen Sie sich vor: das Flaggschiff-Modell Gemini 2.5 Pro bewältigt erfolgreich nur 58% der Anfragen bei einmaliger Anfrage. Und was passiert bei mehrstufigem Dialog? Die Effizienz fällt steil auf 35%!
CRMArena-Pro testet große Sprachmodelle unter realen Bedingungen von Verkauf, Kundenservice und Preisgestaltung. Die Forscher erstellten 4280 einzigartige Aufgaben nach 19 Typen von Geschäftsoperationen unter Verwendung synthetischer Salesforce-Daten.
Besonders aufschlussreich sind die Ergebnisse im Bereich mehrstufiger Dialoge — einem Schlüsselelement jeder Geschäftsinteraktion. Fast die Hälfte der gescheiterten Versuche von Gemini 2.5 Pro hängt mit der Unfähigkeit zusammen, kritisch wichtige Informationen anzufordern. Modelle, die mehr präzisierende Fragen stellen, zeigen deutlich bessere Ergebnisse.
Die höchsten Leistungen wurden bei der Automatisierung einfacher Arbeitsabläufe erreicht — 83% Erfolg beim Routing von Anfragen im Support-Service. Jedoch bleiben Aufgaben, die tiefes Textverständnis oder das Befolgen komplexer Regeln erfordern, eine ernste Herausforderung für moderne Technologien künstlicher Intelligenz.
Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
$3 für jede Lieferung. Robomart fordert die Giganten DoorDash und Uber Eats mit einem für die Branche neuen Geschäftsmodell heraus. Ihr neuer Roboter RM5 verändert die Lieferökonomie vollständig.
Zwei Hauptkonkurrenten in der Welt der künstlichen Intelligenz haben sich erstmals für gemeinsame Sicherheitstests zusammengetan. OpenAI und Anthropic öffneten einander Zugang zu ihren geheimen Modellen. In einer Industrie, wo Unternehmen Forschern bis zu $100 Millionen zahlen und um jeden Nutzer kämpfen, erscheint solche Zusammenarbeit unglaublich.
Google Gemini hat bereits die Hälfte der ChatGPT-Audienz auf Mobilgeräten. Das sind Daten aus dem neuen Bericht des Venture-Fonds Andreessen Horowitz über den Verbraucher-KI-Markt. 2,5 Jahre Forschung zeigen ein interessantes Bild.
Das Unternehmen Anthropic veröffentlichte einen analytischen Sicherheitsbericht. Daraus wird klar, dass Claude und andere KI-Agenten zu Werkzeugen von Cyberkriminellen werden. Bei Anthropic nannte man diese neue Richtung Vibe-Hacking. Es stellt sich heraus, dass künstliche Intelligenz die Eintrittsbarrieren für kriminelle Aktivitäten radikal gesenkt hat.
xAI startet Grok Code Fast 1. Das ist ein kompaktes agentisches Modell für Coding. $0,20 für 1 Million Input-Token, $1,50 für Output — und nur $0,02 bei Cache-Nutzung!