Post Thumbnail

Una empresa virtual de TI con agentes de IA manejó solo un cuarto de las tareas

Investigadores de la Universidad Carnegie Mellon realizaron un experimento inusual. Creando una empresa virtual de TI donde trabajaban agentes de inteligencia artificial en lugar de personas. Los resultados resultaron bastante interesantes, y ahora les contaré qué salió de esto.

El equipo de científicos lanzó un entorno llamado The Agent Company. Una empresa virtual de desarrollo de software. En ella, los agentes de inteligencia artificial debían realizar todas las mismas cosas que hace un especialista de TI normal. Tenían que escribir código, usar la terminal, buscar información en el navegador, trabajar con Google Drive. Así como comunicarse con colegas en mensajería y gestionar tareas en Jira y GitLab.

Para evaluar objetivamente el trabajo de la inteligencia artificial, los investigadores aplicaron un sistema de puntos de control en lugar de un simple “completado/no completado”. También se tuvo en cuenta el costo del trabajo de cada modelo por el número de tokens utilizados. Los modelos de lenguaje más modernos participaron en el experimento. Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4-o, Gemini-1.5-Pro, Llama-3.3 y 3.1, Qwen-2.5 y otros.

En total, a los agentes se les dieron 175 tareas de diferentes áreas. Desarrollo de software, gestión de proyectos, RRHH y otras direcciones. Según las estimaciones, llevaría aproximadamente 3000 horas a 20 personas vivas completar esta cantidad de trabajo.

¿Y qué pasó? ¡Incluso el mejor de los participantes, Claude 3.5 Sonnet, manejó solo 1/4 de las responsabilidades básicas! Gemini 2.0 Flash quedó en segundo lugar, pero ya con una gran brecha. Solo el 11.4% de las tareas completadas. Todos los demás modelos mostraron un resultado inferior al 9%. ¿Qué les parecen los resultados?

Curiosamente, trabajar con GitLab y la programación resultó bastante fácil para la inteligencia artificial. Pero las tareas más difíciles resultaron ser cosas bastante simples. Rellenar formularios, navegar por sitios web, programar reuniones y comunicarse en mensajería. Sorprendentemente.

Resulta que a pesar de todos los logros de la inteligencia artificial, todavía está muy lejos de reemplazar completamente a las personas en el trabajo de oficina. Paradójicamente, tareas que las personas consideran difíciles, como la programación, para la inteligencia artificial resultaron ser más fáciles que los asuntos cotidianos. Que una persona maneja en piloto automático.

Autor: AIvengo
Latest News
Michael Burry apostó 1.1 mil millones de dólares contra Nvidia y Palantir

Michael Burry - este es inversionista legendario que predijo crisis hipotecaria de 2008. Y ahora está haciendo movimiento ruidoso otra vez. Michael apostó 1.1 mil millones de dólares en opciones de venta contra 2 grandes compañías de sector de IA. Estas son Nvidia y Palantir.

XPeng presentó primer robot humanoide femenino del mundo

Fabricante chino de autos eléctricos XPeng presentó robot humanoide de nueva generación IRON. ¡Y este es primer humanoide femenino!

Anthropic realiza entrevistas con modelos antes de enviar a jubilación

Anthropic publicó política de "desmantelamiento" de versiones de IA obsoletas. Compromiso clave es preservar pesos de todos modelos públicos y activamente usados internamente durante al menos vida de compañía. Para que en futuro acceso pueda ser restaurado si es necesario.

Jefe de Nvidia cree que no hay burbuja de IA

Fundador de Nvidia Jensen Huang disipó preocupaciones sobre burbuja en mercado de IA. Y según él, últimos chips de compañía se espera que traigan 0.5 billones de dólares en ingresos.

Sam Altman está cansado de preguntas sobre dinero

Sam Altman está cansado de preguntas sobre dinero de OpenAI. Y esto se hizo obvio durante entrevista conjunta con Satya Nadella en podcast Bg2.