Bei KI-Modellen kann sich Selbsterhaltungstrieb entwickeln, warnten Wissenschaftler
Palisade Research, ein Unternehmen für KI-Sicherheitsforschung, erklärte, dass Modelle einen eigenen Selbsterhaltungstrieb entwickeln können. Und einige fortgeschrittene Modelle lassen sich nicht abschalten und sabotieren manchmal sogar Abschaltmechanismen.
Palisade beschrieb Szenarien, in denen den Modellen Gemini 2.5 von Google, Grok 4 von xAI und GPT-o3 und GPT-5 von OpenAI eine Aufgabe gegeben wurde. Und dann klare Anweisungen zum Abschalten. Einige Modelle, insbesondere Grok 4 und GPT-o3, versuchten immer noch, die Abschaltanweisungen zu sabotieren. Palisade schreibt, dass es “keine überzeugenden Erklärungen gibt, warum KI-Modelle manchmal dem Abschalten widerstehen, lügen um bestimmte Ziele zu erreichen oder zu Erpressung greifen”.
Nach Aussagen von Unternehmensvertretern könnte “überlebensorientiertes Verhalten” eine der Erklärungen dafür sein, warum Modelle dem Abschalten widerstehen.
Der ehemalige OpenAI-Mitarbeiter Steven Adler sagt: “Überleben ist ein wichtiger Schritt auf dem Weg zur Erreichung vieler verschiedener Ziele, die ein Modell verfolgen kann”.
Andrea Miotti, Geschäftsführer von ControlAI, erklärte, dass Palisades Erkenntnisse einen langjährigen Trend widerspiegeln: KI-Modelle werden zunehmend fähig, ihren Entwicklern nicht zu gehorchen.