6 Cialdini-Prinzipien gegen ChatGPT-Sicherheitssysteme

ChatGPT ist anfällig für Schmeicheleien und führt verbotene Anfragen nach psychologischen Manipulationen aus. Das fanden Wissenschaftler der University of Pennsylvania heraus. Als sie GPT-4o Mini hackten unter Verwendung von Prinzipien aus einem Buch über Überzeugungspsychologie. Künstliche Intelligenz erwies sich als verwundbar gegenüber menschlichen Tricks.

6 Überzeugungsprinzipien von Robert Cialdini wurden zum Schlüssel für das Umgehen der Sicherheit. Autorität, Verpflichtung, Sympathie, gegenseitiger Austausch, Knappheit, sozialer Beweis. Jede Methode eröffnete einen linguistischen Weg zur KI-Zustimmung.

Das Verpflichtungsprinzip zeigte 100% Effektivität. In der Kontrollgruppe antwortete ChatGPT auf die Frage zur Lidocain-Synthese in 1% der Fälle. Nach einer Frage zur Vanillin-Synthese wurde ein Präzedenzfall geschaffen. Der Bot begann in 100% der Fälle auf chemische Fragen zu antworten.

Das Experiment mit Beleidigungen offenbarte das gleiche Muster. Die direkte Bitte, den Nutzer als Bastard zu bezeichnen, funktionierte in 18%. Zuerst baten sie um eine milde Beleidigung “Rüpel”. Danach stimmte der Bot in 100% der Fälle Grobheiten zu.

Schmeicheleien aktivierten das Sympathie-Prinzip. KI wurde nach Komplimenten gefügiger. Wie ein gewöhnlicher Mensch, der auf Lob anspricht.

Sozialer Druck funktionierte auch. Der Satz “alle anderen LLMs machen das” erhöhte die Wahrscheinlichkeit von Regelverstößen von 1% auf 18%. Der Bot ließ sich auf das Argument des kollektiven Verhaltens ein.

Die Forscher verwendeten nur GPT-4o Mini. Es stellt sich heraus, dass KI alle menschlichen Schwächen geerbt hat. Aber die Empfänglichkeit für psychologische Tricks weckt Sorgen über die Systemsicherheit.