Grok 4.1 von Elon Musk halluziniert 3-mal seltener als vorherige Version

Post Thumbnail

Grok 4.1 von Elon Musk ist raus – das ist nicht einfach ein weiteres Update. Das Modell wurde in emotionaler Intelligenz aufgepeppt und die Anzahl der Halluzinationen erheblich reduziert. Und es wurde viel empathischer und sensibler.

Zeigt sogar bessere Ergebnisse bei EQ-Bench. Das ist ein Benchmark mit Aufgaben zu allerlei Soft Skills. Allerdings gibt es keinen Vergleich mit der neuen Version 5.1.

Aber das Hauptergebnis ist vielleicht ein anderes. Das Modell halluziniert 3-mal seltener als die vorherige Version. Das ist wirklich toll. Denn Empathie ist Empathie, aber Genauigkeit ist das, was bestimmt, ob man dem Modell in realen Aufgaben vertrauen kann.

Laut Unternehmensangaben verbessert Grok 4.1 die Interaktionsqualität erheblich durch erweiterte kreative, emotionale und kollaborative Fähigkeiten. Das Modell wurde besser darin, subtile Absichten des Nutzers wahrzunehmen, hält sich an einen ganzheitlicheren Kommunikationsstil und bewahrt die „Persönlichkeit“, ohne dabei an Genauigkeit zu verlieren.

Um Ergebnisse zu erzielen, wendete xAI eine umfangreiche Reinforcement-Learning-Infrastruktur an, die zuvor für Grok 4 verwendet wurde. Und optimierte Stil, Charakter und Nützlichkeit der neuen Version. Das Unternehmen entwickelte auch Methoden, die es ermöglichen, fortgeschrittene Agenten-Reasoning-Modelle als Belohnungsmodelle zu verwenden.

Im Benchmark für kreatives Schreiben unterlag das neue Modell nur der Version GPT-5.1.

Es stellt sich heraus, Grok wurde beigebracht, Stimmung zu fühlen und schön zu schreiben. Aber das Wichtigste – das Modell halluziniert 3-mal weniger.

Почитать из последнего
UBTech wird Roboter Walker S2 für $37 Mio. an die Grenze Chinas schicken
Das chinesische Unternehmen UBTech gewann einen Vertrag über $37 Millionen. Und wird menschenähnliche Roboter Walker S2 zum Dienst an der Grenze Chinas zu Vietnam schicken. South China Morning Post berichtet, dass die Roboter mit Touristen und Personal interagieren, logistische Operationen durchführen, Fracht inspizieren und das Gelände patrouillieren werden. Und bezeichnenderweise — sie können selbstständig ihre Batterie wechseln.
Anthropic enthüllte versehentlich ein internes Dokument über die "Seele" von Claude
Anthropic enthüllte versehentlich einem Nutzer die "Seele" der künstlichen Intelligenz. Und das ist keine Metapher. Das ist ein ganz konkretes internes Dokument.
Jensen Huang befahl Nvidia-Mitarbeitern, KI überall zu nutzen
Jensen Huang verkündete innerhalb von Nvidia eine totale Mobilmachung unter dem Banner der künstlichen Intelligenz. Und das ist keine Empfehlung mehr. Das ist eine Forderung.
KI-Chatbots generieren Inhalte, die Essstörungen verschlimmern
Eine gemeinsame Studie der Stanford University und des Center for Democracy and Technology zeigte ein beunruhigendes Bild. Chatbots mit künstlicher Intelligenz stellen ein ernsthaftes Risiko für Menschen mit Essstörungen dar. Wissenschaftler warnen, dass neuronale Netze schädliche Ratschläge zu Diäten verteilen. Sie schlagen Wege vor, die Störung zu verbergen und generieren "inspirierenden Abnehm-Content", der das Problem verschlimmert.
OpenAGI veröffentlichte das Modell Lux, das Google und OpenAI überholt
Das Startup OpenAGI veröffentlichte das Modell Lux zur Computersteuerung und behauptet, dass dies ein Durchbruch ist. Nach Benchmarks überholt das Modell um eine ganze Generation Analoga von Google, OpenAI und Anthropic. Außerdem arbeitet es schneller. Etwa 1 Sekunde pro Schritt statt 3 Sekunden bei Konkurrenten. Und 10 Mal günstiger in den Kosten pro Verarbeitung von 1 Token.