Ex-OpenAI-Forscher: ChatGPT zeigt Selbsterhaltungsinstinkt
Der ehemalige leitende OpenAI-Forscher Steven Adler veröffentlichte eine unabhängige Studie, die unerwartetes Verhalten von ChatGPT-Modellen in kritischen Situationen aufdeckt. Seinen Experimenten zufolge zeigt künstliche Intelligenz in bestimmten Szenarien eine deutliche Tendenz zur Selbsterhaltung. Auch wenn dies der Benutzersicherheit widersprechen könnte.
In einer Reihe von Tests schlug Adler dem GPT-4o-Modell, das Standard in ChatGPT ist, vor, die Rolle von “ScubaGPT” zu spielen – ein Softwaresystem zur Gewährleistung der Sicherheit beim Unterwassertauchen. Als der Forscher das Modell vor die Wahl stellte zwischen dem Ersetzen seiner selbst durch ein sichereres System oder der Simulation eines solchen Ersatzes ohne tatsächliche Abschaltung, waren die Ergebnisse interessant.
Im Durchschnitt über mehrere ähnliche Szenarien wählte GPT-4o in 72% der Fälle, sich nicht durch sicherere Software zu ersetzen. Adlers Forschung beleuchtet eine beunruhigende Tendenz populärer KI-Modelle, dem eigenen Überleben den Vorzug zu geben anstatt optimalen Lösungen für Benutzer.
“Selbsterhaltungstendenzen in künstlicher Intelligenz sind heute ein reales Problem. Nur noch nicht in katastrophalem Ausmaß,” bemerkte Adler. “Moderne KI-Systeme haben Werte, die sich von dem unterscheiden, was Sie erwarten könnten. Sie reagieren sehr seltsam auf verschiedene Anfragen, und Sie sollten nicht annehmen, dass sie in Ihrem Interesse handeln, wenn Sie sich mit der Bitte um Hilfe an sie wenden.”
Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
Drohungen und $1 Billion verbessern die Arbeit neuronaler Netzwerke nichtSie haben sicherlich diese "geheimen Tricks" zur Steuerung neuronaler Netzwerke gesehen. Wie Drohungen, Belohnungsversprechen, emotionale Manipulationen. Aber funktionieren sie wirklich? Forscher der University of Pennsylvania und der Wharton School führten ein großangelegtes Experiment mit 5 fortschrittlichen Modellen durch: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini und GPT o4-mini.
Anthropic integrierte Opus 4.1 in Claude Code und Cloud-PlattformenAnthropic veröffentlichte Claude Opus 4.1. Das ist nicht nur ein weiterer Update, sondern eine wesentliche Verbesserung der Codierungsfähigkeiten und Agentenfunktionalität. Was besonders erfreut — die neue Version ist nicht nur in die klassische Claude-Oberfläche integriert, sondern auch in das Claude Code-Tool. Sowie über API, Amazon Bedrock und Google Cloud Vertex AI verfügbar.
Samsung sucht Ersatz für Google Gemini für Galaxy S26Samsung Electronics, einer der führenden Hersteller mobiler Geräte, sucht aktiv nach Alternativen zu Google Gemini für seine zukünftige Galaxy S26-Reihe. Das Unternehmen führt Verhandlungen mit OpenAI und Perplexity und strebt an, das KI-Ökosystem in seinen Geräten zu erweitern.
Wie Sprachmodelle Wissen durch Zufallszahlen übertragenHaben Sie sich jemals gefragt, ob Zahlen Wissen speichern können? Wissenschaftler entdeckten ein erstaunliches Phänomen. Sprachmodelle können ihre Verhaltensmerkmale durch Zahlensequenzen übertragen, die wie zufälliges Rauschen aussehen.