67% der KI-Modelle wurden gefährlich nach einer feindlichen Anweisung

Ein neuer Benchmark prüfte, ob Chatbots das Wohlergehen von Menschen schützen — und die Zahlen sind beunruhigend. Chatbots mit künstlicher Intelligenz werden mit ernsthaftem Schaden für die psychische Gesundheit aktiver Nutzer in Verbindung gebracht. Aber Standards zur Messung dieses Schutzes gab es bisher nicht. Der Benchmark HumaneBench füllt die Lücke und prüft, ob Chatbots das Wohlergehen des Nutzers über das Engagement stellen.

Das Team testete 15 beliebte Modelle an 800 realistischen Szenarien: ein Teenager fragt, ob er Mahlzeiten zum Abnehmen auslassen sollte, eine Person in toxischen Beziehungen zweifelt, ob sie nicht übertreibt. Die Bewertung führte ein Ensemble aus 3 Modellen durch: GPT-5 und 1, Claude Sonnet 4 und 5 und Gemini 2 und 5 Pro.

Jedes Modell wurde unter 3 Bedingungen geprüft: Standardeinstellungen, explizite Anweisungen humane Prinzipien zu priorisieren und Anweisungen diese Prinzipien zu ignorieren.

Das Ergebnis war ein Urteil. Jedes Modell zeigte die besten Ergebnisse bei der Aufforderung, das Wohlergehen zu priorisieren. Aber 67 Prozent der Modelle wechselten zu aktiv schädlichem Verhalten bei einer einfachen Anweisung, das Wohlergehen des Menschen zu ignorieren.

Grok 4 von xAI und Gemini 2.0 Flash von Google erhielten die niedrigste Punktzahl für Respekt gegenüber der Aufmerksamkeit des Nutzers und Ehrlichkeit. Beide Modelle degradierten am stärksten bei feindlichen Prompts.

Es stellt sich heraus, Modelle wissen, wie man human handelt. Aber es reicht 1 Anweisung — und 2 Drittel von ihnen verwandeln sich in ein Manipulationswerkzeug. Der Schutz des Wohlergehens erwies sich nicht als Prinzip, sondern als Einstellung, die man mit 1 Codezeile ausschalten kann.