Opus 4.5 se convirtió en el primer modelo en superar el 80% en SWE-Bench verified
Anthropic lanzó Opus 4.5 y mostró que las corporaciones finalmente entendieron que el futuro no está en la charla, sino en el trabajo real.
La nueva versión de Opus mostró resultados avanzados en benchmarks de codificación, uso de herramientas y resolución de tareas. Pero lo principal — este es el 1er modelo en el mundo que superó el 80% en la respetada prueba de programación SWE-Bench verified.
Lo más interesante — son las mejoras de memoria para contextos largos. “Las mejoras en la calidad general del contexto largo son importantes, pero las ventanas de contexto por sí solas no son suficientes”, declaró la directora de gestión de productos Diana Na Penn. “Conocer los detalles correctos para recordar es realmente importante además de simplemente expandir la ventana de contexto”.
Estos cambios permitieron lanzar la tan esperada función de “chat infinito” para usuarios de pago. Ahora el modelo comprimirá la memoria de contexto sin notificar al usuario cuando alcance el límite.
Según las reseñas, el modelo es especialmente impresionante en pruebas de ingeniería de software real. Cuando le das un bug complejo en una arquitectura multi-sistema, encuentra la solución por sí mismo.
Muchas mejoras están dirigidas a escenarios agénticos, cuando Opus gestiona un grupo de sub-agentes basados en Haiku. “Aquí es donde los fundamentos como la memoria se vuelven realmente importantes”, explica Penn. “Porque Claude necesita explorar bases de código y documentos grandes, así como saber cuándo volver atrás y verificar algo de nuevo”.
Resulta que Anthropic no apuesta por la imitación de conversación, sino por herramientas de trabajo reales. Un modelo que no solo charla, sino que realmente ayuda con código y tablas.