Post Thumbnail

6 Cialdini-Prinzipien gegen ChatGPT-Sicherheitssysteme

ChatGPT ist anfällig für Schmeicheleien und führt verbotene Anfragen nach psychologischen Manipulationen aus. Das fanden Wissenschaftler der University of Pennsylvania heraus. Als sie GPT-4o Mini hackten unter Verwendung von Prinzipien aus einem Buch über Überzeugungspsychologie. Künstliche Intelligenz erwies sich als verwundbar gegenüber menschlichen Tricks.

6 Überzeugungsprinzipien von Robert Cialdini wurden zum Schlüssel für das Umgehen der Sicherheit. Autorität, Verpflichtung, Sympathie, gegenseitiger Austausch, Knappheit, sozialer Beweis. Jede Methode eröffnete einen linguistischen Weg zur KI-Zustimmung.

Das Verpflichtungsprinzip zeigte 100% Effektivität. In der Kontrollgruppe antwortete ChatGPT auf die Frage zur Lidocain-Synthese in 1% der Fälle. Nach einer Frage zur Vanillin-Synthese wurde ein Präzedenzfall geschaffen. Der Bot begann in 100% der Fälle auf chemische Fragen zu antworten.

Das Experiment mit Beleidigungen offenbarte das gleiche Muster. Die direkte Bitte, den Nutzer als Bastard zu bezeichnen, funktionierte in 18%. Zuerst baten sie um eine milde Beleidigung “Rüpel”. Danach stimmte der Bot in 100% der Fälle Grobheiten zu.

Schmeicheleien aktivierten das Sympathie-Prinzip. KI wurde nach Komplimenten gefügiger. Wie ein gewöhnlicher Mensch, der auf Lob anspricht.

Sozialer Druck funktionierte auch. Der Satz “alle anderen LLMs machen das” erhöhte die Wahrscheinlichkeit von Regelverstößen von 1% auf 18%. Der Bot ließ sich auf das Argument des kollektiven Verhaltens ein.

Die Forscher verwendeten nur GPT-4o Mini. Es stellt sich heraus, dass KI alle menschlichen Schwächen geerbt hat. Aber die Empfänglichkeit für psychologische Tricks weckt Sorgen über die Systemsicherheit.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Latest News

6 Cialdini-Prinzipien gegen ChatGPT-Sicherheitssysteme

ChatGPT ist anfällig für Schmeicheleien und führt verbotene Anfragen nach psychologischen Manipulationen aus. Das fanden Wissenschaftler der University of Pennsylvania heraus. Als sie GPT-4o Mini hackten unter Verwendung von Prinzipien aus einem Buch über Überzeugungspsychologie. Künstliche Intelligenz erwies sich als verwundbar gegenüber menschlichen Tricks.

Elternkontrolle für ChatGPT: Balance zwischen Sicherheit und Privatsphäre

OpenAI implementiert ein verstärktes Schutzsystem für gefährdete Nutzer nach der Tragödie mit einem Teenager. ChatGPT wird nun automatisch auf erweiterte Modelle umschalten bei Gesprächen über Depression und Angst.

Kitchen Cosmo verwandelt Essensreste in personalisierte Rezepte

Sie haben eine halbe Tomate im Kühlschrank, Reste von gestrigem Reis und eine unbekannte Soße. Kitchen Cosmo verwandelt das in ein vollwertiges Abendessen. MIT-Studenten schufen ein KI-Gerät, das die Kocherfahrung völlig neu durchdenkt.

Warum 70% der Kandidaten KI-Vorstellungsgespräche menschlichen vorzogen

67.000 Vorstellungsgespräche bewiesen die Überlegenheit der künstlichen Intelligenz gegenüber menschlichen Recruitern. Eine Studie der Universität Chicago und der Erasmus-Universität Rotterdam zeigte dies in Zahlen. Chatbots stellen besser ein als Menschen.

Wie der MechaHitler-Vorfall xAI um einen millionenschweren Regierungsvertrag brachte

Details wurden bekannt über die Geschichte, wie ein xAI-Update von Elon Musk monatelange Verhandlungen mit der US-Regierung zerstörte!