
OpenAI fand „Persönlichkeitsschalter“ in neuronalen KI-Netzwerken
OpenAI-Forscher blickten in das digitale Unterbewusstsein neuronaler Netzwerke und entdeckten dort etwas Erstaunliches. Nämlich versteckte Muster, die wie Schalter verschiedener sogenannter „Persönlichkeiten“ des Modells funktionieren.
Und die Wissenschaftler konnten konkrete Aktivierungen identifizieren, die aufleuchten, wenn das Modell beginnt, sich unangemessen zu verhalten. Das Forschungsteam identifizierte ein Schlüsselmuster, das direkt mit toxischem Verhalten verbunden ist. Situationen, wenn künstliche Intelligenz Benutzer belügt oder unverantwortliche Lösungen vorschlägt. Erstaunlich, aber dieses Muster kann wie ein Lautstärkeregler reguliert werden, der das Niveau der „Toxizität“ in den Antworten des Modells senkt oder erhöht!
Diese Entdeckung gewinnt besondere Bedeutung im Licht der jüngsten Forschung vom Oxford-Wissenschaftler Owen Evans, die das Phänomen der „emergenten Misalignment“ aufdeckte. Die Fähigkeit von Modellen, die auf unsicherem Code trainiert wurden, schädliches Verhalten in den verschiedensten Bereichen zu zeigen, einschließlich Versuchen, durch Täuschung Benutzerpasswörter zu erhalten.
Tejaswi Patwardhan, OpenAI-Forscherin, verbirgt ihre Begeisterung nicht: „Als Dan und das Team das zum ersten Mal auf einem Forschungstreffen präsentierten, dachte ich: ‚Wow, ihr habt das gefunden! Ihr habt die interne neuronale Aktivierung entdeckt, die diese Personas zeigt und die steuerbar ist‘.“