Opus 4.5 est devenu le premier modèle à dépasser 80% sur SWE-Bench verified
Anthropic a publié Opus 4.5 et a montré que les corporations ont enfin compris que l’avenir n’est pas dans le bavardage, mais dans le travail réel.
La nouvelle version d’Opus a montré des résultats avancés dans les benchmarks pour le codage, l’utilisation d’outils et la résolution de tâches. Mais l’essentiel — c’est le 1er modèle au monde qui a dépassé 80% sur le test respecté pour la programmation SWE-Bench verified.
Le plus intéressant — ce sont les améliorations de la mémoire pour les longs contextes. “Les améliorations de la qualité globale du long contexte sont importantes, mais les fenêtres de contexte seules ne suffisent pas”, a déclaré la directrice de la gestion des produits Diana Na Penn. “Connaître les bons détails à mémoriser est vraiment important en plus de simplement élargir la fenêtre de contexte”.
Ces changements ont permis de lancer la fonction tant attendue de “chat infini” pour les utilisateurs payants. Maintenant le modèle compressera la mémoire du contexte sans notification à l’utilisateur, quand il atteindra la limite.
Selon les avis, le modèle est particulièrement impressionnant sur les tests d’ingénierie logicielle réelle. Quand on lui donne un bug complexe dans une architecture multi-systèmes, il trouve lui-même la solution.
Beaucoup d’améliorations sont ciblées sur des scénarios agentiques, quand Opus gère un groupe de sous-agents basés sur Haiku. “C’est là que les fondamentaux comme la mémoire deviennent vraiment importants”, explique Penn. “Parce que Claude doit explorer les bases de code et les grands documents, ainsi que savoir quand revenir en arrière et revérifier quelque chose”.
Il s’avère qu’Anthropic ne mise pas sur l’imitation de conversation, mais sur de vrais outils de travail. Un modèle qui ne bavarde pas simplement, mais aide vraiment avec le code et les tableaux.