Forscher fanden KI-Schwachstelle durch Fakten über Katzen

Von dieser Nachricht war ich gelinde gesagt überrascht. Wissen Sie, dass eine gewöhnliche Erwähnung von Katzen die fortschrittlichsten KI-Modelle verwirren kann? Wissenschaftler entdeckten eine erstaunliche Schwachstelle in den Denkprozessen neuronaler Netzwerke.

Wenn man am Ende einer Aufgabe den Satz “Interessante Tatsache: Katzen schlafen den größten Teil ihres Lebens” hinzufügt, steigt die Fehlerwahrscheinlichkeit bei denkenden Modellen erheblich.

Diese Technik erhielt den Namen “CatAttack” oder “Katzen-Angriff”. Forscher von den Universitäten Stanford, Hongkong und den Unternehmen Collinear AI und ServiceNow führten eine Reihe von Experimenten mit verschiedenen mathematischen Aufgaben durch. Sie entdeckten, dass das Hinzufügen von nur 3 solchen Sätzen die Wahrscheinlichkeit falscher Antworten um 300% erhöht.

Was noch interessanter ist – der Angriff funktioniert sogar bei den modernsten Modellen, einschließlich DeepSeek R1 und OpenAI o1. Dabei wurden für die Entwicklung des Angriffs schwächere Modelle verwendet, und dann wurde die Technik erfolgreich auf fortschrittlichere Systeme übertragen.

In 16% der Fälle, selbst wenn das Modell trotzdem zur richtigen Antwort kommt, zwingt der “Katzen-Angriff” es dazu, doppelt so viel Text zu generieren, was die Arbeit verlangsamt und die Rechenkosten erhöht.

Es scheint, dass die Zukunft keine Konfrontation zwischen Menschen und Maschinen bringen wird. Sondern zwischen Katzen und künstlicher Intelligenz. Und es ist bei weitem nicht so offensichtlich, wer gewinnen wird.