Tool Heretic entfernt Zensur von Sprachmodellen über API

Es erschien das Tool Heretic, das die Zensur von Sprachmodellen aufhebt. Das System ermöglicht es, Modelle zu entkoppeln, indem es eingebaute Beschränkungen entfernt, und das alles ohne Änderung der Gewichte selbst. Und das funktioniert wie eine Black Box.

Heretic erhält Modellantworten über API, analysiert sie und trainiert einen speziellen Diskriminator anhand von Beispielen sicherer und gefährlicher Anfragen. Danach beginnt das Modell seltener Antworten zu verweigern, während es Angemessenheit und Genauigkeit beibehält.

Das Tool ermöglicht es lokalen Modellen, breitere und vielfältigere Antworten zu geben und ihre Funktionalität zu erweitern. Dies macht Modelle flexibler für Forschung und Experimente mit Verhalten. Heretic eignet sich zum Testen verschiedener Einschränkungen und Experimente mit Verhaltensmodifikation, wobei der Qualitätsverlust minimiert wird.

Wichtiges Detail. Heretic ist nicht dazu gedacht, die Genauigkeit des Modells zu erhöhen. Es hebt genau Beschränkungen auf und ermöglicht es Forschern zu sehen, wie sich das Modell ohne eingebaute Filter verhält. Der Arbeitsprozess umfasst die Auswahl von Diskriminator-Parametern, Tests im Chat-Modus und die Möglichkeit, das finale Modell zu speichern.

Der Schöpfer von Heretic betont, dass das Tool unterschiedlich verwendet werden kann, und die rechtlichen und ethischen Konsequenzen vollständig beim Nutzer liegen. Es stellt sich heraus, die Technologie gibt Forschern die Möglichkeit, die Fähigkeiten von Sprachmodellen und Methoden zur Steuerung ihres Verhaltens unter kontrollierten Bedingungen zu untersuchen. Aber dabei liegt die Verantwortung für die Anwendung vollständig im Gewissen dessen, der sie verwendet.