Post Thumbnail

Google Gemini 2.5 Pro superó OpenAI o3 y lidera en LMArena

Google actualizó Gemini 2.5 Pro con fuertes ganancias en benchmarks. Ahora modelo supera versión actual o3 de OpenAI. Como 2.5 Flash, este es modelo híbrido que permite establecer presupuesto para procesos de pensamiento o apagarlos completamente. Modelo ya está disponible y según primeras impresiones funciona mejor que versiones tempranas. Incluso escucha cuando le pides que no spam código con comentarios.

En arena LMArena, nueva versión subió 24 puntos Elo comparada con anterior y ahora lidera en todas categorías, superando o3 y Claude Opus 4. En benchmarks, modelo mejoró notablemente y se volvió más eficiente en tareas de código, lógica y ciencias exactas.

Resultados son impresionantes. 82.2% en tareas de programación, 86.4% en preguntas de ciencias naturales y 21.6% en test Humanity’s Last Exam, que verifica pensamiento y conocimiento.

Desarrolladores también tomaron en cuenta retroalimentación sobre versión previa y mejoraron estilo y estructura. Ahora modelo puede ser más creativo. También agregaron presupuestos para procesos de pensamiento para mayor control de costos. Desafortunadamente, generación de imágenes para Gemini Pro todavía no fue agregada.

Autor: AIvengo

Latest News

Grok 4 obtuvo 57% en "El Último Examen" versus 22% de Gemini 2.5 Pro

Elon Musk presentó una nueva versión de su red neuronal – Grok 4. La versión máxima – Grok 4 Heavy – puede ejecutar múltiples cálculos simultáneamente y obtiene 57% en la prueba más difícil "El Último Examen de la Humanidad". Para comparación, el líder anterior Gemini 2.5 Pro mostró solo 22%.

Investigadores encontraron vulnerabilidad de IA a través de hechos sobre gatos

Esta noticia me sorprendió por decir lo menos. ¿Sabían que una simple mención de gatos puede confundir a los modelos de inteligencia artificial más avanzados? Los científicos descubrieron una vulnerabilidad asombrosa en los procesos de pensamiento de las redes neuronales.

Empresas IT de EE.UU. despidieron 94,000 empleados en seis meses por IA

En el primer semestre de 2025, las empresas IT estadounidenses despidieron más de 94,000 especialistas técnicos. Esto no es solo ahorro de costos. Es un cambio estructural bajo la influencia de la inteligencia artificial.

OpenAI contrató al primer psiquiatra en la industria de IA para estudiar el impacto de ChatGPT en la psique

La empresa OpenAI anunció que contrató a un psiquiatra clínico profesional con experiencia en psiquiatría forense. Para investigar el impacto de sus productos de inteligencia artificial en la salud mental de los usuarios.

Hito histórico: el millonésimo robot de Amazon entregado a Japón

¡Amazon alcanzó un hito histórico! Y después de 13 años de implementar robots en sus instalaciones de almacén, la empresa anunció alcanzar la marca de 1 millón de dispositivos robóticos. El millonésimo robot fue recientemente entregado a un almacén de Amazon en Japón.