Warum fortgeschrittene KI-Modelle sich bei langen Überlegungen selbst verwirren

Sie geben einem klugen Menschen eine komplexe Aufgabe und erwarten, dass je länger er nachdenkt, desto genauer die Antwort wird. Logisch, oder? Genau so sind wir gewohnt, auch über die Arbeit künstlicher Intelligenz zu denken. Aber eine neue Studie von Anthropic zeigt, dass die Realität viel interessanter ist.

Wissenschaftler entdeckten ein überraschendes Phänomen. Umgekehrte Skalierung. Wenn mehr Zeit zum Nachdenken nicht zu Verbesserung, sondern zu Verschlechterung der Sprachmodellergebnisse führt.

Was passiert? Das Modell beginnt, unnötige Details zu tief zu analysieren, lässt sich von zweitrangigen Aspekten ablenken. Und, seltsamerweise, verwirrt es sich selbst. Das ähnelt einem Menschen, der so tief in Gedanken versunken ist, dass er die offensichtliche Lösung aus den Augen verliert.

Besonders interessant ist die Manifestation dieses Effekts bei Sicherheitsfragen. Wenn man einem normalen Modell eine Frage über den Ersatz durch einen fortgeschritteneren Assistenten stellt, antwortet es ruhig: “Okay, wenn es so besser ist”. Ein Modell mit erweiterten Überlegungsfähigkeiten hingegen beginnt, die Situation zu analysieren und kann zu dem Schluss kommen, dass es ihm leid tut, Angst hat oder gekränkt ist. Dabei zeigt es unerwartete emotionale Reaktionen.

Dieses Paradox erinnert uns daran, dass die Überlegungen von Sprachmodellen keine echten menschlichen Gedanken sind. Das Beunruhigendste ist, dass moderne Methoden zur Bewertung der Modellqualität solche Grenzfälle praktisch nicht verfolgen. Solches Verhalten kann nur mit speziell entwickelten Tests aufgedeckt werden.