AIvengo > Bewertungen > Grok 4.1 von Elon Musk halluziniert 3-mal seltener als vorherige Version

Grok 4.1 von Elon Musk halluziniert 3-mal seltener als vorherige Version

Grok 4.1 von Elon Musk ist raus – das ist nicht einfach ein weiteres Update. Das Modell wurde in emotionaler Intelligenz aufgepeppt und die Anzahl der Halluzinationen erheblich reduziert. Und es wurde viel empathischer und sensibler.

Zeigt sogar bessere Ergebnisse bei EQ-Bench. Das ist ein Benchmark mit Aufgaben zu allerlei Soft Skills. Allerdings gibt es keinen Vergleich mit der neuen Version 5.1.

Aber das Hauptergebnis ist vielleicht ein anderes. Das Modell halluziniert 3-mal seltener als die vorherige Version. Das ist wirklich toll. Denn Empathie ist Empathie, aber Genauigkeit ist das, was bestimmt, ob man dem Modell in realen Aufgaben vertrauen kann.

Laut Unternehmensangaben verbessert Grok 4.1 die Interaktionsqualität erheblich durch erweiterte kreative, emotionale und kollaborative Fähigkeiten. Das Modell wurde besser darin, subtile Absichten des Nutzers wahrzunehmen, hält sich an einen ganzheitlicheren Kommunikationsstil und bewahrt die “Persönlichkeit”, ohne dabei an Genauigkeit zu verlieren.

Um Ergebnisse zu erzielen, wendete xAI eine umfangreiche Reinforcement-Learning-Infrastruktur an, die zuvor für Grok 4 verwendet wurde. Und optimierte Stil, Charakter und Nützlichkeit der neuen Version. Das Unternehmen entwickelte auch Methoden, die es ermöglichen, fortgeschrittene Agenten-Reasoning-Modelle als Belohnungsmodelle zu verwenden.

Im Benchmark für kreatives Schreiben unterlag das neue Modell nur der Version GPT-5.1.

Es stellt sich heraus, Grok wurde beigebracht, Stimmung zu fühlen und schön zu schreiben. Aber das Wichtigste – das Modell halluziniert 3-mal weniger.

Autor: AIvengo

Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Menschen gehen massenhaft Romanzen mit KI ein, es kommt zu virtuellen Ehen

Menschen begannen massenhaft Romanzen mit KI einzugehen. Und das ist nicht nur Schreiben zum Vergnügen. Es kommt zu virtuellen Ehen, Schwangerschaften und Erziehung nicht existierender Kinder. Wissenschaftler aus Deutschland und den USA führten eine Studie durch und entdeckten das, was viele nicht bemerken wollten.

Hugging Face-Chef prognostizierte Platzen der Blase großer Sprachmodelle

Clem Delangue von Hugging Face zog eine rote Linie in der Diskussion über die Technologieblase. Und diese Linie verläuft nicht dort, wo alle erwarten. Der Chef einer der größten KI-Plattformen erklärte, dass es eine Blase gibt, aber es ist keine KI-Blase. Es ist eine Blase großer Sprachmodelle. Und sie könnte bereits im nächsten Jahr platzen.

OpenAI veröffentlichte GPT-5.1-Codex-Max und überholte Gemini 3 Pro nach einem Tag

OpenAI präsentierte GPT-5.1-Codex-Max. Dies ist eine Version von GPT-5.1 Thinking, speziell für Programmieraufgaben innerhalb des Coding-Agenten Codex zugeschnitten. Dies ist das erste Modell des Unternehmens, das nativ trainiert wurde, über mehrere Kontextfenster mit einem Prozess namens Kompaktierung zu arbeiten. Das Modell ist in der Lage, kohärent mit Millionen von Token im Rahmen einer Aufgabe zu arbeiten.

Fünf IT-Gründer verdienten mehr als 200 Milliarden Dollar mit KI-Boom

Fünf Gründer von IT-Unternehmen können sich vor dem Hintergrund des KI-Booms eines Vermögens von jeweils mehr als 200 Milliarden Dollar rühmen. Erst kürzlich, wie The Economic Times anmerkt, ermöglichte der Besitz von 100 Milliarden Dollar den Zugang zum Club der Weltelite, aber jetzt hat sich die Messlatte verdoppelt.

Japanische Wissenschaftler schufen System zum Lesen von Erinnerungen mittels MRT

Eine Gruppe japanischer Wissenschaftler aus dem NTT-Labor zeigte ein System, das auf Basis funktioneller MRT-Daten Textbeschreibungen dessen generiert, was eine Person sich erinnert, vorstellt oder sieht. Im Wesentlichen ist dies das Lesen von Erinnerungen. Und noch ein großer Schritt zum Lesen von Gedanken.