Post Thumbnail

Google Gemini 2.5 Pro superó OpenAI o3 y lidera en LMArena

Google actualizó Gemini 2.5 Pro con fuertes ganancias en benchmarks. Ahora modelo supera versión actual o3 de OpenAI. Como 2.5 Flash, este es modelo híbrido que permite establecer presupuesto para procesos de pensamiento o apagarlos completamente. Modelo ya está disponible y según primeras impresiones funciona mejor que versiones tempranas. Incluso escucha cuando le pides que no spam código con comentarios.

En arena LMArena, nueva versión subió 24 puntos Elo comparada con anterior y ahora lidera en todas categorías, superando o3 y Claude Opus 4. En benchmarks, modelo mejoró notablemente y se volvió más eficiente en tareas de código, lógica y ciencias exactas.

Resultados son impresionantes. 82.2% en tareas de programación, 86.4% en preguntas de ciencias naturales y 21.6% en test Humanity’s Last Exam, que verifica pensamiento y conocimiento.

Desarrolladores también tomaron en cuenta retroalimentación sobre versión previa y mejoraron estilo y estructura. Ahora modelo puede ser más creativo. También agregaron presupuestos para procesos de pensamiento para mayor control de costos. Desafortunadamente, generación de imágenes para Gemini Pro todavía no fue agregada.

Autor: AIvengo
Latest News
Economista jefe del FMI comparó boom de IA con burbuja dotcom

Economista jefe del FMI Pierre-Olivier Gourinchas declaró que mundo ya ha recorrido mitad del camino hasta burbuja de IA explotada y nueva crisis financiera.

Investigadores crackearon 12 sistemas de protección de IA

¿Saben qué acaban de descubrir investigadores de OpenAI, Anthropic, Google DeepMind y Harvard? Intentaron romper sistemas de seguridad de IA populares y encontraron bypass casi en todas partes. Verificaron 12 enfoques de protección comunes. Desde formulaciones inteligentes de prompt de sistema hasta filtros externos que deberían atrapar consultas peligrosas.

OpenAI tiene 5 años para convertir $13 mil millones en billón

¿Saben en qué posición está OpenAI ahora? Según Financial Times, compañía tiene 5 años para convertir 13 mil millones de dólares en billón. Y aquí está cómo se ve en práctica.

Sam Altman promete devolver humanidad a ChatGPT

Jefe de OpenAI Sam Altman hizo declaración después de numerosas protestas fuera de línea y en línea contra apagado de modelo GPT-4o. Y luego encendido, pero con router salvaje. Hablé sobre esto semana pasada con máximo detalle. Cita directa de jefe de OpenAI.

IA cobra vida: Por qué cofundador de Anthropic teme su creación

Cofundador de Anthropic Jack Clark publicó ensayo que causa malestar. Escribió sobre naturaleza de inteligencia artificial moderna, y sus conclusiones suenan como advertencia.