Post Thumbnail

Nuevo benchmark mostró falla de IA en tareas de programación olímpica

Apareció nuevo benchmark LiveCodeBench Pro para evaluar capacidades de programación de inteligencia artificial. Enlace en descripción. Incluye tareas más difíciles y frescas de competencias populares. Olimpiada Internacional de Informática y Campeonato Mundial de Programación. Tareas fueron marcadas por ganadores y premiados de estas competencias ellos mismos.

Resultados muestran imagen interesante. Incluso mejor modelo o4-mini-high alcanza solo calificación de 2100. Para comparación, programadores gran maestros tienen alrededor de 2700. Brecha permanece enorme.

Modelos solo pueden lidiar con tareas simples y algunas medianas. En asignaciones verdaderamente difíciles, todos modelos de lenguaje muestran 0 absoluto. Resuelven tareas de combinatoria y programación dinámica bastante bien. Pero en teoría de juegos y trabajo con casos límite, su nivel es como experto promedio o incluso estudiante.

Curioso es diferencia en tipos de errores. Personas usualmente cometen errores de implementación por desatención o problemas de sintaxis. En modelos de IA, problemas surgen más frecuentemente a nivel de idea de solución misma. Entonces no se prevé reemplazo para programadores olímpicos aún.

Autor: AIvengo

Latest News

Samsung busca reemplazo para Google Gemini para Galaxy S26

Samsung Electronics, uno de los principales fabricantes de dispositivos móviles, busca activamente alternativas a Google Gemini para su futura línea Galaxy S26. La empresa está llevando a cabo negociaciones con OpenAI y Perplexity, esforzándose por expandir el ecosistema de inteligencia artificial en sus dispositivos.

Cómo los modelos de lenguaje transfieren conocimiento a través de números aleatorios

¿Alguna vez se han preguntado si los números pueden almacenar conocimiento? Los científicos descubrieron un fenómeno asombroso. Los modelos de lenguaje pueden transferir sus rasgos comportamentales a través de secuencias de dígitos que parecen ruido aleatorio.

Alibaba presentó gafas inteligentes Quark AI con chip Snapdragon AR1

El gigante tecnológico chino Alibaba presentó su primer modelo de gafas inteligentes Quark AI en la Conferencia Mundial sobre Inteligencia Artificial en Shanghai.

Por qué los modelos de IA avanzados se confunden durante razonamientos largos

Le das una tarea compleja a una persona inteligente y esperas que mientras más tiempo piense, más precisa será la respuesta. Lógico, ¿verdad? Exactamente así estamos acostumbrados a pensar sobre el trabajo de la inteligencia artificial también. Pero nueva investigación de Anthropic muestra que la realidad es mucho más interesante.

Z.AI presentó GLM-4.5 con 355 mil millones de parámetros y código abierto

¡Conozcan al nuevo peso pesado tecnológico! La empresa Z.AI presentó el modelo de lenguaje abierto GLM-4.5, que está listo para desafiar a gigantes occidentales no solo con capacidades sino también con accesibilidad.