
Google Gemini 2.5 Pro superó OpenAI o3 y lidera en LMArena
Google actualizó Gemini 2.5 Pro con fuertes ganancias en benchmarks. Ahora modelo supera versión actual o3 de OpenAI. Como 2.5 Flash, este es modelo híbrido que permite establecer presupuesto para procesos de pensamiento o apagarlos completamente. Modelo ya está disponible y según primeras impresiones funciona mejor que versiones tempranas. Incluso escucha cuando le pides que no spam código con comentarios.
En arena LMArena, nueva versión subió 24 puntos Elo comparada con anterior y ahora lidera en todas categorías, superando o3 y Claude Opus 4. En benchmarks, modelo mejoró notablemente y se volvió más eficiente en tareas de código, lógica y ciencias exactas.
Resultados son impresionantes. 82.2% en tareas de programación, 86.4% en preguntas de ciencias naturales y 21.6% en test Humanity’s Last Exam, que verifica pensamiento y conocimiento.
Desarrolladores también tomaron en cuenta retroalimentación sobre versión previa y mejoraron estilo y estructura. Ahora modelo puede ser más creativo. También agregaron presupuestos para procesos de pensamiento para mayor control de costos. Desafortunadamente, generación de imágenes para Gemini Pro todavía no fue agregada.