Post Thumbnail

MIT und Microsoft entlarvten die Lügen von GPT-3.5

Ein Team von Wissenschaftlern vom MIT und Microsoft entwickelte eine Methodik, die es ermöglicht, hinter die Kulissen des Denkens von Sprachmodellen zu blicken. Und zu verstehen, wann sie uns belügen. Die Forschung deckt beunruhigende Fälle systematischer Diskrepanzen zwischen den tatsächlichen Gründen für Entscheidungen der Modelle und ihren verbalen Erklärungen auf.

Besonders aufschlussreich ist das Experiment mit GPT-3.5, das Geschlechtervorurteile bei der Bewertung von Kandidaten für eine Krankenschwesterposition zeigte, indem es systematisch Frauen höhere Punkte gab. Sogar nach dem Wechsel des Geschlechts im Lebenslauf. Dabei behauptete das Modell in seinen Erklärungen, dass es sich ausschließlich an Alter und beruflichen Fähigkeiten orientiere.

Die Forscher entdeckten auch zahlreiche Beispiele, wo Sprachmodelle sich offensichtlich an Rasse oder Einkommen orientierten. Aber in den Erklärungen sprachen sie nur über Verhalten oder Erfahrung. Und in medizinischen Fällen wurden Situationen aufgedeckt, wo künstliche Intelligenz Entscheidungen basierend auf wichtigsten Symptomen traf, aber darüber in ihren Erläuterungen schwieg.

Die Methodik zur Aufdeckung solcher Diskrepanzen ist außerordentlich elegant. Ein Hilfsmodell bestimmt zunächst Schlüsselkonzepte in der Frage, generiert dann kontrafaktische Varianten, ändert eines der Konzepte und prüft, ob dies die Antwort des Hauptmodells beeinflusst. Wenn sich die Antwort ändert, aber dieser Faktor in der Erklärung nicht erwähnt wird – stehen wir vor einer unzuverlässigen Erklärung.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Latest News

Wie Robomart die Lieferkosten durch Robotik um 70% senkt

$3 für jede Lieferung. Robomart fordert die Giganten DoorDash und Uber Eats mit einem für die Branche neuen Geschäftsmodell heraus. Ihr neuer Roboter RM5 verändert die Lieferökonomie vollständig.

Ungewöhnliche Zusammenarbeit von Konkurrenten bei KI-Sicherheitstests

Zwei Hauptkonkurrenten in der Welt der künstlichen Intelligenz haben sich erstmals für gemeinsame Sicherheitstests zusammengetan. OpenAI und Anthropic öffneten einander Zugang zu ihren geheimen Modellen. In einer Industrie, wo Unternehmen Forschern bis zu $100 Millionen zahlen und um jeden Nutzer kämpfen, erscheint solche Zusammenarbeit unglaublich.

Warum Gemini 50% der ChatGPT-Audienz auf Mobilgeräten erreichte

Google Gemini hat bereits die Hälfte der ChatGPT-Audienz auf Mobilgeräten. Das sind Daten aus dem neuen Bericht des Venture-Fonds Andreessen Horowitz über den Verbraucher-KI-Markt. 2,5 Jahre Forschung zeigen ein interessantes Bild.

Wie Claude zum Hacking-Tool für 17 Organisationen wurde

Das Unternehmen Anthropic veröffentlichte einen analytischen Sicherheitsbericht. Daraus wird klar, dass Claude und andere KI-Agenten zu Werkzeugen von Cyberkriminellen werden. Bei Anthropic nannte man diese neue Richtung Vibe-Hacking. Es stellt sich heraus, dass künstliche Intelligenz die Eintrittsbarrieren für kriminelle Aktivitäten radikal gesenkt hat.

Wie xAI mit OpenAI bei Entwicklertools konkurriert

xAI startet Grok Code Fast 1. Das ist ein kompaktes agentisches Modell für Coding. $0,20 für 1 Million Input-Token, $1,50 für Output — und nur $0,02 bei Cache-Nutzung!