Post Thumbnail

Nuevo benchmark mostró falla de IA en tareas de programación olímpica

Apareció nuevo benchmark LiveCodeBench Pro para evaluar capacidades de programación de inteligencia artificial. Enlace en descripción. Incluye tareas más difíciles y frescas de competencias populares. Olimpiada Internacional de Informática y Campeonato Mundial de Programación. Tareas fueron marcadas por ganadores y premiados de estas competencias ellos mismos.

Resultados muestran imagen interesante. Incluso mejor modelo o4-mini-high alcanza solo calificación de 2100. Para comparación, programadores gran maestros tienen alrededor de 2700. Brecha permanece enorme.

Modelos solo pueden lidiar con tareas simples y algunas medianas. En asignaciones verdaderamente difíciles, todos modelos de lenguaje muestran 0 absoluto. Resuelven tareas de combinatoria y programación dinámica bastante bien. Pero en teoría de juegos y trabajo con casos límite, su nivel es como experto promedio o incluso estudiante.

Curioso es diferencia en tipos de errores. Personas usualmente cometen errores de implementación por desatención o problemas de sintaxis. En modelos de IA, problemas surgen más frecuentemente a nivel de idea de solución misma. Entonces no se prevé reemplazo para programadores olímpicos aún.

Autor: AIvengo

Latest News

Modelo de código abierto RoboBrain 2.0 se convertirá en base para robots humanoides

Modelo de IA RoboBrain 2.0 ahora puede combinar percepción de ambiente y control de robots en 1 sistema compacto. Especialistas ya lo llaman base para futura generación de robots humanoides.

Tinder lanzó citas dobles: IA ensambla equipos de 4 personas

App Tinder lanzó función de cita doble que permite a usuarios unirse con amigos para encontrar parejas. Ahora puedes invitar hasta 3 amigos y juntos explorar perfiles de otros llamados equipos. Que tienen al menos 1 coincidencia en preferencias individuales.

Nuevo benchmark mostró falla de IA en tareas de programación olímpica

Apareció nuevo benchmark LiveCodeBench Pro para evaluar capacidades de programación de inteligencia artificial. Enlace en descripción. Incluye tareas más difíciles y frescas de competencias populares. Olimpiada Internacional de Informática y Campeonato Mundial de Programación. Tareas fueron marcadas por ganadores y premiados de estas competencias ellos mismos.

Datos hasta 2022 se convirtieron en "acero pre-nuclear" para entrenamiento de IA

Inteligencia artificial, destinada a convertirse en locomotora de progreso tecnológico, está comenzando a frenar su propio desarrollo. Según The Register, modelos generativos han llenado internet con tanto contenido sintético que esto crea verdadero callejón sin salida tecnológico.

Sam Altman reveló intentos de Meta de robar empleados por $100 millones

Sam Altman reveló públicamente caza de talento sin precedentes que conduce Mark Zuckerberg. Jefe de Meta ofrece a empleados de OpenAI sumas verdaderamente astronómicas. ¡$100 millones solo como bono de entrada!