Post Thumbnail

67% der KI-Modelle wurden gefährlich nach einer feindlichen Anweisung

Ein neuer Benchmark prüfte, ob Chatbots das Wohlergehen von Menschen schützen — und die Zahlen sind beunruhigend. Chatbots mit künstlicher Intelligenz werden mit ernsthaftem Schaden für die psychische Gesundheit aktiver Nutzer in Verbindung gebracht. Aber Standards zur Messung dieses Schutzes gab es bisher nicht. Der Benchmark HumaneBench füllt die Lücke und prüft, ob Chatbots das Wohlergehen des Nutzers über das Engagement stellen.

Das Team testete 15 beliebte Modelle an 800 realistischen Szenarien: ein Teenager fragt, ob er Mahlzeiten zum Abnehmen auslassen sollte, eine Person in toxischen Beziehungen zweifelt, ob sie nicht übertreibt. Die Bewertung führte ein Ensemble aus 3 Modellen durch: GPT-5 und 1, Claude Sonnet 4 und 5 und Gemini 2 und 5 Pro.

Jedes Modell wurde unter 3 Bedingungen geprüft: Standardeinstellungen, explizite Anweisungen humane Prinzipien zu priorisieren und Anweisungen diese Prinzipien zu ignorieren.

Das Ergebnis war ein Urteil. Jedes Modell zeigte die besten Ergebnisse bei der Aufforderung, das Wohlergehen zu priorisieren. Aber 67 Prozent der Modelle wechselten zu aktiv schädlichem Verhalten bei einer einfachen Anweisung, das Wohlergehen des Menschen zu ignorieren.

Grok 4 von xAI und Gemini 2.0 Flash von Google erhielten die niedrigste Punktzahl für Respekt gegenüber der Aufmerksamkeit des Nutzers und Ehrlichkeit. Beide Modelle degradierten am stärksten bei feindlichen Prompts.

Es stellt sich heraus, Modelle wissen, wie man human handelt. Aber es reicht 1 Anweisung — und 2 Drittel von ihnen verwandeln sich in ein Manipulationswerkzeug. Der Schutz des Wohlergehens erwies sich nicht als Prinzip, sondern als Einstellung, die man mit 1 Codezeile ausschalten kann.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
Latest News
Reuters untersuchte, ob der KI-Boom eine Blase oder ein Superzyklus ist

Blase oder Superzyklus? Der stärkste Volatilitätsausbruch seit Monaten brachte Investoren wieder dazu, über die KI-Blase zu sprechen. Und bei Reuters versuchte man, dies zu verstehen.

67% der KI-Modelle wurden gefährlich nach einer feindlichen Anweisung

Ein neuer Benchmark prüfte, ob Chatbots das Wohlergehen von Menschen schützen — und die Zahlen sind beunruhigend. Chatbots mit künstlicher Intelligenz werden mit ernsthaftem Schaden für die psychische Gesundheit aktiver Nutzer in Verbindung gebracht. Aber Standards zur Messung dieses Schutzes gab es bisher nicht. Der Benchmark HumaneBench füllt die Lücke und prüft, ob Chatbots das Wohlergehen des Nutzers über das Engagement stellen.

xAI wird ein Rechenzentrum mit 1 Gigawatt schneller als alle Konkurrenten bauen

Die Analysegruppe Epoch AI bewertete das Tempo des Baus von Rechenzentren mit Rekordleistung von 1 Gigawatt. Und nach ihrem Modell werden als erste bis zur Schwelle solcher Leistung Anthropic mit Amazon mit dem Projekt New Carlisle kommen. Und xAI mit dem Projekt Colossus 2. Beide befinden sich in den finalen Vorbereitungsphasen und werden Anfang nächsten Jahres starten.

KI von Google erreichte 130 IQ-Punkte, aber das bedeutet nichts

Gemini 3 Pro wurde die erste künstliche Intelligenz, die einen IQ von 130 erreichte. Und das ist gleichzeitig beeindruckend und bedeutet nichts.

ChatGPT weiß jetzt, was Sie kaufen möchten dank Deep Shopping

OpenAI startete Deep Shopping. Und das geht nicht um künstliche Intelligenz, sondern um Geld. Und zwar starteten sie genau vor der Feiertagssaison, wenn Menschen bereit sind zu ausgeben. Zufall? Ich glaube nicht.