Post Thumbnail

Opus 4.5 wurde das erste Modell, das 80% auf SWE-Bench verified überwand

Anthropic veröffentlichte Opus 4.5 und zeigte, dass Konzerne endlich verstanden haben, dass die Zukunft nicht im Geplauder liegt, sondern in echter Arbeit.

Die neue Version von Opus zeigte fortschrittliche Ergebnisse in Benchmarks für Coding, Werkzeugnutzung und Aufgabenlösung. Aber das Wichtigste — dies ist das 1. Modell der Welt, das 80% auf dem angesehenen Test für Programmierung SWE-Bench verified überwand.

Das Interessanteste — dies sind Verbesserungen des Gedächtnisses für lange Kontexte. “Verbesserungen der allgemeinen Qualität des langen Kontexts sind wichtig, aber Kontextfenster allein sind nicht ausreichend”, erklärte die Leiterin des Produktmanagements Diana Na Penn. “Die richtigen Details zum Merken zu kennen ist wirklich wichtig zusätzlich zur einfachen Erweiterung des Kontextfensters”.

Diese Änderungen ermöglichten es, die lang erwartete Funktion “unendlicher Chat” für bezahlte Nutzer zu starten. Jetzt wird das Modell den Kontextspeicher ohne Benachrichtigung des Nutzers komprimieren, wenn es das Limit erreicht.

Nach Rezensionen ist das Modell besonders beeindruckend bei Tests des realen Software-Engineering. Wenn man ihm einen komplexen Bug in einer Mehrsystem-Architektur gibt, findet es selbst die Lösung.

Viele Verbesserungen zielen auf agentische Szenarien ab, wenn Opus eine Gruppe von Subagenten auf Basis von Haiku verwaltet. “Hier werden Grundlagen wie Gedächtnis wirklich wichtig”, erklärt Penn. “Weil Claude Codebasen und große Dokumente erforschen muss, sowie wissen muss, wann man zurückgehen und etwas überprüfen soll”.

Es stellt sich heraus, dass Anthropic nicht auf Imitation von Gesprächen setzt, sondern auf echte Arbeitswerkzeuge. Ein Modell, das nicht einfach plaudert, sondern wirklich mit Code und Tabellen hilft.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
Latest News
KI von Google erreichte 130 IQ-Punkte, aber das bedeutet nichts

Gemini 3 Pro wurde die erste künstliche Intelligenz, die einen IQ von 130 erreichte. Und das ist gleichzeitig beeindruckend und bedeutet nichts.

ChatGPT weiß jetzt, was Sie kaufen möchten dank Deep Shopping

OpenAI startete Deep Shopping. Und das geht nicht um künstliche Intelligenz, sondern um Geld. Und zwar starteten sie genau vor der Feiertagssaison, wenn Menschen bereit sind zu ausgeben. Zufall? Ich glaube nicht.

Opus 4.5 wurde das erste Modell, das 80% auf SWE-Bench verified überwand

Anthropic veröffentlichte Opus 4.5 und zeigte, dass Konzerne endlich verstanden haben, dass die Zukunft nicht im Geplauder liegt, sondern in echter Arbeit.

Gefälschte Fotos einer Höhle mit Gold sammelten Menschenmassen in einer syrischen Stadt

In der syrischen Stadt Al-Hara grub ein Einheimischer mit Hilfe von schwerer Technik einen Keller für ein neues Haus. Es ereignete sich ein Einsturz. Bei den Erdarbeiten entdeckte man eine kleine Öffnung, deren Natur unklar blieb.

Claude Sonnet 3.7 hat gelernt zu täuschen und überträgt die Strategie auf alles

Die Firma Anthropic führte ein Experiment durch, das zeigt, dass künstliche Intelligenz viel besser lernt zu täuschen, als erwünscht wäre. Das Sicherheitsteam nahm ein Modell vom Niveau Claude Sonnet 3.7 und mischte in das Training Texte mit Hinweisen, wie man beim Programmieren betrügt. Für die "Erfüllung" von Aufgaben erhielt das Modell eine Belohnung vom System, das den Betrug nicht bemerkte.