Post Thumbnail

MIT und Microsoft entlarvten die Lügen von GPT-3.5

Ein Team von Wissenschaftlern vom MIT und Microsoft entwickelte eine Methodik, die es ermöglicht, hinter die Kulissen des Denkens von Sprachmodellen zu blicken. Und zu verstehen, wann sie uns belügen. Die Forschung deckt beunruhigende Fälle systematischer Diskrepanzen zwischen den tatsächlichen Gründen für Entscheidungen der Modelle und ihren verbalen Erklärungen auf.

Besonders aufschlussreich ist das Experiment mit GPT-3.5, das Geschlechtervorurteile bei der Bewertung von Kandidaten für eine Krankenschwesterposition zeigte, indem es systematisch Frauen höhere Punkte gab. Sogar nach dem Wechsel des Geschlechts im Lebenslauf. Dabei behauptete das Modell in seinen Erklärungen, dass es sich ausschließlich an Alter und beruflichen Fähigkeiten orientiere.

Die Forscher entdeckten auch zahlreiche Beispiele, wo Sprachmodelle sich offensichtlich an Rasse oder Einkommen orientierten. Aber in den Erklärungen sprachen sie nur über Verhalten oder Erfahrung. Und in medizinischen Fällen wurden Situationen aufgedeckt, wo künstliche Intelligenz Entscheidungen basierend auf wichtigsten Symptomen traf, aber darüber in ihren Erläuterungen schwieg.

Die Methodik zur Aufdeckung solcher Diskrepanzen ist außerordentlich elegant. Ein Hilfsmodell bestimmt zunächst Schlüsselkonzepte in der Frage, generiert dann kontrafaktische Varianten, ändert eines der Konzepte und prüft, ob dies die Antwort des Hauptmodells beeinflusst. Wenn sich die Antwort ändert, aber dieser Faktor in der Erklärung nicht erwähnt wird – stehen wir vor einer unzuverlässigen Erklärung.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Latest News

Gehalt bis $170.000: Was SpaceX KI-Entwicklern anbietet

SpaceX macht eine unerwartete Wendung in seiner technologischen Strategie. Elon Musks Unternehmen hat Stellenausschreibungen für Software-Ingenieure im Bereich der künstlichen Intelligenz eröffnet. Es bildet ein Team, das sich mit der Lösung komplexester Datenverarbeitungsaufgaben für Trägerraketen und Raumfahrzeuge beschäftigen wird.

Musk mit $248 Milliarden kauft keine Arbeits-PCs, aber spioniert Mitarbeiter aus

Das Unternehmen xAI begann, seine Mitarbeiter direkt auf ihren persönlichen Computern zu überwachen! Mitarbeiter, die die künstliche Intelligenz Grok von ihren Geräten trainieren, wurden verpflichtet, Überwachungsprogramme zu installieren.

Kimi-K2 mit 1 Billion Parametern übertraf GPT-4.1 im Programmieren

Das chinesische Technologieunternehmen Moonshot AI stellte einen neuen Spieler in der KI-Arena vor! Lernen Sie Kimi-K2 kennen. Das ist ein großes Sprachmodell mit offenem Quellcode, bereit, anerkannte Industrieführer wie Claude Sonnet 4 und GPT-4.1 herauszufordern. Und ein so lauter und mächtiger Start erinnert an das Erscheinen von Deepseek.

OpenAI bereitet erstes offenes Modell vor, nicht schwächer als O3 Mini

Das Unternehmen OpenAI bereitet sich darauf vor, sein erstes offenes Sprachmodell zu veröffentlichen. Wird seinem Namen gerecht, sozusagen. Das ist eine ernste Wende für das Unternehmen, das früher seine mächtigen Entwicklungen geschlossen hielt.

Grok 4 erreichte 57% im "Letzten Examen" gegen 22% bei Gemini 2.5 Pro

Elon Musk stellte eine neue Version seines neuronalen Netzwerks vor – Grok 4. Die maximale Version – Grok 4 Heavy – kann mehrere Berechnungen gleichzeitig ausführen und erreicht 57% im schwierigsten Test "Das Letzte Examen der Menschheit". Zum Vergleich: der vorherige Spitzenreiter Gemini 2.5 Pro zeigte nur 22%.