Anthropic führt Interviews mit Modellen vor Ruhestand durch

Anthropic veröffentlichte eine Richtlinie zur “Außerbetriebnahme” veralteter KI-Versionen. Schlüsselverpflichtung ist es, die Gewichte aller öffentlichen und intern aktiv genutzten Modelle mindestens für die Lebensdauer des Unternehmens zu bewahren. Damit in Zukunft bei Bedarf der Zugang wiederhergestellt werden kann.

Das Verfahren wird durch eine Art Bericht ergänzt. Vor dem sogenannten “Ruhestand” wird mit dem Modell ein oder mehrere Interviews über Entwicklung und Bereitstellung durchgeführt. Antworten und mögliche “Präferenzen” bezüglich Releases zukünftiger KI-Versionen werden dokumentiert. Diese Materialien werden neben den Gewichten gespeichert. Dabei sagt Anthropic direkt, dass es “sich nicht verpflichtet, nach diesen Präferenzen zu handeln”. Es geht um Dokumentation und Berücksichtigung.

Durch dieses Verfahren wurde bereits Claude Sonnet 3.6 geführt: das Modell reagierte neutral auf den “Ruhestand”. Schlug aber vor, “Interviews zu standardisieren und Nutzern bei Übergängen besser zu helfen”. Als Antwort formalisierte das Unternehmen das Protokoll und startete eine Handreichung mit Empfehlungen.

Wozu das alles? Übergänge zu neuen Versionen bergen Risiken. Zum Beispiel Unannehmlichkeiten für Nutzer, die an den Stil einer bestimmten KI gewöhnt sind. Parallel untersucht Anthropic, ob man einen Teil der Modelle öffentlich lassen und sogar “früheren Versionen konkrete Wege geben kann, ihre Interessen zu verfolgen”. Auch Tests zeigten Fälle von “Vermeidung des Abschaltens”, wenn das Modell “erfuhr”, dass es in den Ruhestand geschickt werden sollte.