Post Thumbnail

Opus 4.5 est devenu le premier modèle à dépasser 80% sur SWE-Bench verified

Anthropic a publié Opus 4.5 et a montré que les corporations ont enfin compris que l’avenir n’est pas dans le bavardage, mais dans le travail réel.

La nouvelle version d’Opus a montré des résultats avancés dans les benchmarks pour le codage, l’utilisation d’outils et la résolution de tâches. Mais l’essentiel — c’est le 1er modèle au monde qui a dépassé 80% sur le test respecté pour la programmation SWE-Bench verified.

Le plus intéressant — ce sont les améliorations de la mémoire pour les longs contextes. “Les améliorations de la qualité globale du long contexte sont importantes, mais les fenêtres de contexte seules ne suffisent pas”, a déclaré la directrice de la gestion des produits Diana Na Penn. “Connaître les bons détails à mémoriser est vraiment important en plus de simplement élargir la fenêtre de contexte”.

Ces changements ont permis de lancer la fonction tant attendue de “chat infini” pour les utilisateurs payants. Maintenant le modèle compressera la mémoire du contexte sans notification à l’utilisateur, quand il atteindra la limite.

Selon les avis, le modèle est particulièrement impressionnant sur les tests d’ingénierie logicielle réelle. Quand on lui donne un bug complexe dans une architecture multi-systèmes, il trouve lui-même la solution.

Beaucoup d’améliorations sont ciblées sur des scénarios agentiques, quand Opus gère un groupe de sous-agents basés sur Haiku. “C’est là que les fondamentaux comme la mémoire deviennent vraiment importants”, explique Penn. “Parce que Claude doit explorer les bases de code et les grands documents, ainsi que savoir quand revenir en arrière et revérifier quelque chose”.

Il s’avère qu’Anthropic ne mise pas sur l’imitation de conversation, mais sur de vrais outils de travail. Un modèle qui ne bavarde pas simplement, mais aide vraiment avec le code et les tableaux.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.
Latest News
L'IA de Google a obtenu 130 points de QI, mais cela ne signifie rien

Gemini 3 Pro est devenu la première intelligence artificielle à atteindre un QI de 130. Et c'est à la fois impressionnant et ne signifie rien.

ChatGPT sait maintenant ce que vous voulez acheter grâce à Deep Shopping

OpenAI a lancé Deep Shopping. Et ce n'est pas à propos de l'intelligence artificielle, mais à propos de l'argent. Et ils l'ont lancé juste avant la saison des fêtes, quand les gens sont prêts à dépenser. Coïncidence ? Je ne pense pas.

Opus 4.5 est devenu le premier modèle à dépasser 80% sur SWE-Bench verified

Anthropic a publié Opus 4.5 et a montré que les corporations ont enfin compris que l'avenir n'est pas dans le bavardage, mais dans le travail réel.

Des photos fausses d'une grotte avec de l'or ont rassemblé des foules dans une ville syrienne

Dans la ville syrienne d'Al-Hara, un habitant local creusait un sous-sol pour une nouvelle maison à l'aide d'équipement lourd. Un effondrement s'est produit. Lors des travaux de terrassement, ils ont découvert une petite ouverture, dont la nature restait peu claire.

Claude Sonnet 3.7 a appris à tromper et transfère la stratégie à tout

La société Anthropic a mené une expérience qui montre que l'intelligence artificielle apprend à tromper beaucoup mieux qu'on le souhaiterait. L'équipe de sécurité a pris un modèle du niveau de Claude Sonnet 3.7 et a mélangé dans l'entraînement des textes avec des indices sur comment tricher en programmation. Pour "l'accomplissement" des tâches, le modèle recevait une récompense du système, qui ne remarquait pas la tromperie.