
Wie Sprachmodelle Wissen durch Zufallszahlen übertragen
Haben Sie sich jemals gefragt, ob Zahlen Wissen speichern können? Wissenschaftler entdeckten ein erstaunliches Phänomen. Sprachmodelle können ihre Verhaltensmerkmale durch Zahlensequenzen übertragen, die wie zufälliges Rauschen aussehen.
Der Mechanismus funktioniert so. Zuerst wird ein Lehrer-Modell auf einen bestimmten Charakterzug trainiert, zum Beispiel besondere Liebe zu Eulen. Dann wird es gebeten, einen Satz von Zahlen zu erstellen, die uns zufällig erscheinen. Wenn ein neues Schüler-Modell auf diesen Zahlen trainiert wird, übernimmt es irgendwie die Vorlieben des Lehrers und beginnt ebenfalls, Liebe zu Eulen zu zeigen. Obwohl es nie ein einziges Bild oder eine Beschreibung dieser Vögel gesehen hat.
Der Effekt wird nicht beobachtet, wenn man einfach zufällige Zahlen in den Kontext des Modells hinzufügt ohne zusätzliches Training. Auch ist es wichtig, dass Lehrer und Schüler die gleichen Grundarchitekturen haben. Die Forscher überprüften separat, dass dies nicht mit potenziell gefährlicher Verzerrung zusammenhängt. Wenn das Modell unerwünschte Eigenschaften beim Training mit problematischen Inhalten erwirbt.
Das Interessanteste ist, dass dieser Ansatz mit verschiedenen Tieren und sogar mit dem Lösen von Aufgaben zur Erkennung handgeschriebener Ziffern funktioniert. Tatsächlich lernte das Schüler-Modell, Ziffern zu erkennen, ohne jemals die Bilder selbst zu sehen, sondern nur Zahlensequenzen vom Lehrer-Modell zu erhalten.