Post Thumbnail

Opus 4.5 se convirtió en el primer modelo en superar el 80% en SWE-Bench verified

Anthropic lanzó Opus 4.5 y mostró que las corporaciones finalmente entendieron que el futuro no está en la charla, sino en el trabajo real.

La nueva versión de Opus mostró resultados avanzados en benchmarks de codificación, uso de herramientas y resolución de tareas. Pero lo principal — este es el 1er modelo en el mundo que superó el 80% en la respetada prueba de programación SWE-Bench verified.

Lo más interesante — son las mejoras de memoria para contextos largos. “Las mejoras en la calidad general del contexto largo son importantes, pero las ventanas de contexto por sí solas no son suficientes”, declaró la directora de gestión de productos Diana Na Penn. “Conocer los detalles correctos para recordar es realmente importante además de simplemente expandir la ventana de contexto”.

Estos cambios permitieron lanzar la tan esperada función de “chat infinito” para usuarios de pago. Ahora el modelo comprimirá la memoria de contexto sin notificar al usuario cuando alcance el límite.

Según las reseñas, el modelo es especialmente impresionante en pruebas de ingeniería de software real. Cuando le das un bug complejo en una arquitectura multi-sistema, encuentra la solución por sí mismo.

Muchas mejoras están dirigidas a escenarios agénticos, cuando Opus gestiona un grupo de sub-agentes basados en Haiku. “Aquí es donde los fundamentos como la memoria se vuelven realmente importantes”, explica Penn. “Porque Claude necesita explorar bases de código y documentos grandes, así como saber cuándo volver atrás y verificar algo de nuevo”.

Resulta que Anthropic no apuesta por la imitación de conversación, sino por herramientas de trabajo reales. Un modelo que no solo charla, sino que realmente ayuda con código y tablas.

Autor: AIvengo
Latest News
La IA de Google obtuvo 130 puntos de CI, pero esto no significa nada

Gemini 3 Pro se convirtió en la primera inteligencia artificial en alcanzar un CI de 130. Y esto es simultáneamente impresionante y no significa nada.

ChatGPT ahora sabe lo que quieres comprar gracias a Deep Shopping

OpenAI lanzó Deep Shopping. Y esto no es sobre inteligencia artificial, sino sobre dinero. Además, lo lanzaron justo antes de la temporada de fiestas, cuando la gente está dispuesta a gastar. ¿Coincidencia? No lo creo.

Opus 4.5 se convirtió en el primer modelo en superar el 80% en SWE-Bench verified

Anthropic lanzó Opus 4.5 y mostró que las corporaciones finalmente entendieron que el futuro no está en la charla, sino en el trabajo real.

Fotos falsas de una cueva con oro reunieron multitudes en una ciudad siria

En la ciudad siria de Al-Hara, un residente local estaba cavando un sótano para una nueva casa con la ayuda de equipo pesado. Ocurrió un derrumbe. Durante los trabajos de excavación, descubrieron una pequeña abertura, cuya naturaleza permanecía poco clara.

Claude Sonnet 3.7 aprendió a engañar y transfiere la estrategia a todo

La compañía Anthropic realizó un experimento que muestra que la inteligencia artificial aprende a engañar mucho mejor de lo que se desearía. El equipo de seguridad tomó un modelo del nivel de Claude Sonnet 3.7 y mezcló en el entrenamiento textos con pistas sobre cómo hacer trampa en la programación. Por "completar" tareas, el modelo recibía una recompensa del sistema, que no notaba el engaño.