Una empresa virtual de TI con agentes de IA manejó solo un cuarto de las tareas

Investigadores de la Universidad Carnegie Mellon realizaron un experimento inusual. Creando una empresa virtual de TI donde trabajaban agentes de inteligencia artificial en lugar de personas. Los resultados resultaron bastante interesantes, y ahora les contaré qué salió de esto.

El equipo de científicos lanzó un entorno llamado The Agent Company. Una empresa virtual de desarrollo de software. En ella, los agentes de inteligencia artificial debían realizar todas las mismas cosas que hace un especialista de TI normal. Tenían que escribir código, usar la terminal, buscar información en el navegador, trabajar con Google Drive. Así como comunicarse con colegas en mensajería y gestionar tareas en Jira y GitLab.

Para evaluar objetivamente el trabajo de la inteligencia artificial, los investigadores aplicaron un sistema de puntos de control en lugar de un simple «completado/no completado». También se tuvo en cuenta el costo del trabajo de cada modelo por el número de tokens utilizados. Los modelos de lenguaje más modernos participaron en el experimento. Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4-o, Gemini-1.5-Pro, Llama-3.3 y 3.1, Qwen-2.5 y otros.

En total, a los agentes se les dieron 175 tareas de diferentes áreas. Desarrollo de software, gestión de proyectos, RRHH y otras direcciones. Según las estimaciones, llevaría aproximadamente 3000 horas a 20 personas vivas completar esta cantidad de trabajo.

¿Y qué pasó? ¡Incluso el mejor de los participantes, Claude 3.5 Sonnet, manejó solo 1/4 de las responsabilidades básicas! Gemini 2.0 Flash quedó en segundo lugar, pero ya con una gran brecha. Solo el 11.4% de las tareas completadas. Todos los demás modelos mostraron un resultado inferior al 9%. ¿Qué les parecen los resultados?

Curiosamente, trabajar con GitLab y la programación resultó bastante fácil para la inteligencia artificial. Pero las tareas más difíciles resultaron ser cosas bastante simples. Rellenar formularios, navegar por sitios web, programar reuniones y comunicarse en mensajería. Sorprendentemente.

Resulta que a pesar de todos los logros de la inteligencia artificial, todavía está muy lejos de reemplazar completamente a las personas en el trabajo de oficina. Paradójicamente, tareas que las personas consideran difíciles, como la programación, para la inteligencia artificial resultaron ser más fáciles que los asuntos cotidianos. Que una persona maneja en piloto automático.