Una empresa virtual de TI con agentes de IA manejó solo un cuarto de las tareas

Post Thumbnail

Investigadores de la Universidad Carnegie Mellon realizaron un experimento inusual. Creando una empresa virtual de TI donde trabajaban agentes de inteligencia artificial en lugar de personas. Los resultados resultaron bastante interesantes, y ahora les contaré qué salió de esto.

El equipo de científicos lanzó un entorno llamado The Agent Company. Una empresa virtual de desarrollo de software. En ella, los agentes de inteligencia artificial debían realizar todas las mismas cosas que hace un especialista de TI normal. Tenían que escribir código, usar la terminal, buscar información en el navegador, trabajar con Google Drive. Así como comunicarse con colegas en mensajería y gestionar tareas en Jira y GitLab.

Para evaluar objetivamente el trabajo de la inteligencia artificial, los investigadores aplicaron un sistema de puntos de control en lugar de un simple «completado/no completado». También se tuvo en cuenta el costo del trabajo de cada modelo por el número de tokens utilizados. Los modelos de lenguaje más modernos participaron en el experimento. Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4-o, Gemini-1.5-Pro, Llama-3.3 y 3.1, Qwen-2.5 y otros.

En total, a los agentes se les dieron 175 tareas de diferentes áreas. Desarrollo de software, gestión de proyectos, RRHH y otras direcciones. Según las estimaciones, llevaría aproximadamente 3000 horas a 20 personas vivas completar esta cantidad de trabajo.

¿Y qué pasó? ¡Incluso el mejor de los participantes, Claude 3.5 Sonnet, manejó solo 1/4 de las responsabilidades básicas! Gemini 2.0 Flash quedó en segundo lugar, pero ya con una gran brecha. Solo el 11.4% de las tareas completadas. Todos los demás modelos mostraron un resultado inferior al 9%. ¿Qué les parecen los resultados?

Curiosamente, trabajar con GitLab y la programación resultó bastante fácil para la inteligencia artificial. Pero las tareas más difíciles resultaron ser cosas bastante simples. Rellenar formularios, navegar por sitios web, programar reuniones y comunicarse en mensajería. Sorprendentemente.

Resulta que a pesar de todos los logros de la inteligencia artificial, todavía está muy lejos de reemplazar completamente a las personas en el trabajo de oficina. Paradójicamente, tareas que las personas consideran difíciles, como la programación, para la inteligencia artificial resultaron ser más fáciles que los asuntos cotidianos. Que una persona maneja en piloto automático.

Почитать из последнего
UBTech enviará robots Walker S2 a servir en la frontera de China por $37 millones
La compañía china UBTech ganó un contrato por $37 millones. Y enviará robots humanoides Walker S2 a servir en la frontera de China con Vietnam. South China Morning Post informa que los robots interactuarán con turistas y personal, realizarán operaciones logísticas, inspeccionarán carga y patrullarán el territorio. Y característicamente — pueden cambiar su batería de forma autónoma.
Anthropic reveló accidentalmente un documento interno sobre el "alma" de Claude
Anthropic reveló accidentalmente el "alma" de la inteligencia artificial a un usuario. Y esto no es una metáfora. Este es un documento interno bastante específico.
Jensen Huang ordenó a los empleados de Nvidia usar IA en todas partes
Jensen Huang anunció una movilización total bajo la bandera de la inteligencia artificial dentro de Nvidia. Y esto ya no es una recomendación. Esto es un requisito.
Los chatbots de IA generan contenido que agrava los trastornos alimentarios
Un estudio conjunto de la Universidad de Stanford y el Center for Democracy and Technology mostró un panorama preocupante. Los chatbots con inteligencia artificial representan un riesgo serio para personas con trastornos alimentarios. Los científicos advierten que las redes neuronales distribuyen consejos dañinos sobre dietas. Sugieren formas de ocultar el trastorno y generan "contenido inspirador para bajar de peso" que agrava el problema.
OpenAGI lanzó el modelo Lux que supera a Google y OpenAI
La startup OpenAGI lanzó el modelo Lux para control de computadora y afirma que esto es un avance. Según los benchmarks, el modelo supera por una generación completa a los análogos de Google, OpenAI y Anthropic. Además, funciona más rápido. Aproximadamente 1 segundo por paso en lugar de 3 segundos en los competidores. Y 10 veces más barato en costo por procesamiento de 1 token.