Drohungen und $1 Billion verbessern die Arbeit neuronaler Netzwerke nicht

Sie haben sicherlich diese “geheimen Tricks” zur Steuerung neuronaler Netzwerke gesehen. Wie Drohungen, Belohnungsversprechen, emotionale Manipulationen. Aber funktionieren sie wirklich? Forscher der University of Pennsylvania und der Wharton School führten ein großangelegtes Experiment mit 5 fortschrittlichen Modellen durch: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini und GPT o4-mini.

Jedem Modell stellten sie Fragen auf PhD-Niveau in den Naturwissenschaften und komplexe ingenieurtechnische Aufgaben. Um zufällige Schwankungen auszuschließen, wurde jede Anfrage 25 Mal wiederholt.

Die Ergebnisse waren interessant! Keine der 9 manipulativen Techniken zeigte statistisch signifikante Verbesserung der Antwortgenauigkeit. Weder Drohungen “einen Welpen zu treten”, noch Versprechen von $1 Billion, noch herzergreifende Geschichten über eine kranke Mutter halfen den Modellen, qualitativ bessere Antworten zu geben!

Darüber hinaus machten diese “Tricks” die Ergebnisse weniger stabil. In einigen Fällen stieg die Genauigkeit um 36 Prozentpunkte, in anderen fiel sie um 35! Es wurden sogar Fälle dokumentiert, in denen das Modell die Hauptfrage völlig ignorierte und am manipulativen Teil des Prompts “hängen blieb”.

Anstatt zweifelhafter Tricks empfehlen die Forscher eine wirklich effektive Strategie. Klare Aufgabenformulierung, Konkretisierung des gewünschten Antwortformats und Bereitstellung relevanten Kontexts.