Post Thumbnail

OpenAI fand „Persönlichkeitsschalter“ in neuronalen KI-Netzwerken

OpenAI-Forscher blickten in das digitale Unterbewusstsein neuronaler Netzwerke und entdeckten dort etwas Erstaunliches. Nämlich versteckte Muster, die wie Schalter verschiedener sogenannter „Persönlichkeiten“ des Modells funktionieren.

Und die Wissenschaftler konnten konkrete Aktivierungen identifizieren, die aufleuchten, wenn das Modell beginnt, sich unangemessen zu verhalten. Das Forschungsteam identifizierte ein Schlüsselmuster, das direkt mit toxischem Verhalten verbunden ist. Situationen, wenn künstliche Intelligenz Benutzer belügt oder unverantwortliche Lösungen vorschlägt. Erstaunlich, aber dieses Muster kann wie ein Lautstärkeregler reguliert werden, der das Niveau der „Toxizität“ in den Antworten des Modells senkt oder erhöht!

Diese Entdeckung gewinnt besondere Bedeutung im Licht der jüngsten Forschung vom Oxford-Wissenschaftler Owen Evans, die das Phänomen der „emergenten Misalignment“ aufdeckte. Die Fähigkeit von Modellen, die auf unsicherem Code trainiert wurden, schädliches Verhalten in den verschiedensten Bereichen zu zeigen, einschließlich Versuchen, durch Täuschung Benutzerpasswörter zu erhalten.

Tejaswi Patwardhan, OpenAI-Forscherin, verbirgt ihre Begeisterung nicht: „Als Dan und das Team das zum ersten Mal auf einem Forschungstreffen präsentierten, dachte ich: ‚Wow, ihr habt das gefunden! Ihr habt die interne neuronale Aktivierung entdeckt, die diese Personas zeigt und die steuerbar ist‘.“

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Latest News

Roboter NEO von 1X arbeitet autonom ohne Internet mit bordeigener GPU

Der humanoide Roboter NEO von 1X Technologies demonstrierte coole Fähigkeiten, die uns endlich dem langjährigen Menschheitstraum von vollwertigen Haushaltsassistenten näherbringen.

Blockierungswelle bei Instagram: KI sperrt fälschlicherweise Tausende Accounts

Instagram-Nutzer sind mit einer echten Welle mysteriöser Sperrungen konfrontiert, die bereits seit mehreren Wochen andauert. Das Ausmaß des Problems ist erschreckend. Tausende von Accounts wurden ohne sichtbare Verstöße gegen die Plattformregeln gesperrt.

Polizei zerstreute 2.000 Personen von KI-Party des Startups Cluely

Die Polizei zerstreute das, was der Gründer und Direktor des KI-Startups Cluely Roy Li "die legendärste Party, die nie stattfand" nannte.

Erste Roboter-Olympiade findet im antiken Olympia statt

Griechenland bereitet sich darauf vor, die erste Internationale Olympiade anthropomorpher Roboter der Welt auszurichten. Ein Ereignis, das ohne Übertreibung als wichtiger Moment in der Evolution der Robotik bezeichnet werden kann.

OpenAI fand "Persönlichkeitsschalter" in neuronalen KI-Netzwerken

OpenAI-Forscher blickten in das digitale Unterbewusstsein neuronaler Netzwerke und entdeckten dort etwas Erstaunliches. Nämlich versteckte Muster, die wie Schalter verschiedener sogenannter "Persönlichkeiten" des Modells funktionieren.