Opus 4.5 wurde das erste Modell, das 80% auf SWE-Bench verified überwand

Anthropic veröffentlichte Opus 4.5 und zeigte, dass Konzerne endlich verstanden haben, dass die Zukunft nicht im Geplauder liegt, sondern in echter Arbeit.

Die neue Version von Opus zeigte fortschrittliche Ergebnisse in Benchmarks für Coding, Werkzeugnutzung und Aufgabenlösung. Aber das Wichtigste — dies ist das 1. Modell der Welt, das 80% auf dem angesehenen Test für Programmierung SWE-Bench verified überwand.

Das Interessanteste — dies sind Verbesserungen des Gedächtnisses für lange Kontexte. „Verbesserungen der allgemeinen Qualität des langen Kontexts sind wichtig, aber Kontextfenster allein sind nicht ausreichend“, erklärte die Leiterin des Produktmanagements Diana Na Penn. „Die richtigen Details zum Merken zu kennen ist wirklich wichtig zusätzlich zur einfachen Erweiterung des Kontextfensters“.

Diese Änderungen ermöglichten es, die lang erwartete Funktion „unendlicher Chat“ für bezahlte Nutzer zu starten. Jetzt wird das Modell den Kontextspeicher ohne Benachrichtigung des Nutzers komprimieren, wenn es das Limit erreicht.

Nach Rezensionen ist das Modell besonders beeindruckend bei Tests des realen Software-Engineering. Wenn man ihm einen komplexen Bug in einer Mehrsystem-Architektur gibt, findet es selbst die Lösung.

Viele Verbesserungen zielen auf agentische Szenarien ab, wenn Opus eine Gruppe von Subagenten auf Basis von Haiku verwaltet. „Hier werden Grundlagen wie Gedächtnis wirklich wichtig“, erklärt Penn. „Weil Claude Codebasen und große Dokumente erforschen muss, sowie wissen muss, wann man zurückgehen und etwas überprüfen soll“.

Es stellt sich heraus, dass Anthropic nicht auf Imitation von Gesprächen setzt, sondern auf echte Arbeitswerkzeuge. Ein Modell, das nicht einfach plaudert, sondern wirklich mit Code und Tabellen hilft.