Post Thumbnail

Una empresa virtual de TI con agentes de IA manejó solo un cuarto de las tareas

Investigadores de la Universidad Carnegie Mellon realizaron un experimento inusual. Creando una empresa virtual de TI donde trabajaban agentes de inteligencia artificial en lugar de personas. Los resultados resultaron bastante interesantes, y ahora les contaré qué salió de esto.

El equipo de científicos lanzó un entorno llamado The Agent Company. Una empresa virtual de desarrollo de software. En ella, los agentes de inteligencia artificial debían realizar todas las mismas cosas que hace un especialista de TI normal. Tenían que escribir código, usar la terminal, buscar información en el navegador, trabajar con Google Drive. Así como comunicarse con colegas en mensajería y gestionar tareas en Jira y GitLab.

Para evaluar objetivamente el trabajo de la inteligencia artificial, los investigadores aplicaron un sistema de puntos de control en lugar de un simple “completado/no completado”. También se tuvo en cuenta el costo del trabajo de cada modelo por el número de tokens utilizados. Los modelos de lenguaje más modernos participaron en el experimento. Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4-o, Gemini-1.5-Pro, Llama-3.3 y 3.1, Qwen-2.5 y otros.

En total, a los agentes se les dieron 175 tareas de diferentes áreas. Desarrollo de software, gestión de proyectos, RRHH y otras direcciones. Según las estimaciones, llevaría aproximadamente 3000 horas a 20 personas vivas completar esta cantidad de trabajo.

¿Y qué pasó? ¡Incluso el mejor de los participantes, Claude 3.5 Sonnet, manejó solo 1/4 de las responsabilidades básicas! Gemini 2.0 Flash quedó en segundo lugar, pero ya con una gran brecha. Solo el 11.4% de las tareas completadas. Todos los demás modelos mostraron un resultado inferior al 9%. ¿Qué les parecen los resultados?

Curiosamente, trabajar con GitLab y la programación resultó bastante fácil para la inteligencia artificial. Pero las tareas más difíciles resultaron ser cosas bastante simples. Rellenar formularios, navegar por sitios web, programar reuniones y comunicarse en mensajería. Sorprendentemente.

Resulta que a pesar de todos los logros de la inteligencia artificial, todavía está muy lejos de reemplazar completamente a las personas en el trabajo de oficina. Paradójicamente, tareas que las personas consideran difíciles, como la programación, para la inteligencia artificial resultaron ser más fáciles que los asuntos cotidianos. Que una persona maneja en piloto automático.

Autor: AIvengo

Latest News

Cómo crear un universo infinito con un prompt de texto

Olviden todo lo que sabían sobre crear mundos de juego. Tencent acaba de lanzar el modelo open-source Hunyuan-GameCraft. Que genera mundos virtuales interactivos directamente en su tarjeta gráfica. Enlace en la descripción. Un prompt de texto — y tienen un universo infinito.

Cómo la sincronización de 3 fuentes de luz protege contra falsificaciones

La inteligencia artificial ha aprendido a crear videos falsos imposibles de distinguir de la realidad. Y esto es un problema enorme y cuestión de confianza en la sociedad. Pero científicos de la Universidad Cornell encontraron una solución genial. Ocultaron marcas de agua directamente en la iluminación ordinaria.

Hip-hop, wushu y ópera de Pekín en la ceremonia de apertura de la robotiada

China albergó los primeros Juegos Mundiales de Robots Humanoides donde compitieron 280 equipos de 16 países. Que trajeron más de 500 androides. Se convirtió en casi unas verdaderas Olimpiadas para robots con todos los atributos del gran deporte.

El primer sistema LAARMA protege animales en carreteras australianas

En Australia, las colisiones de animales con automóviles son un problema serio para el ecosistema de este continente. Ahora los científicos encontraron una solución tecnológica. El primer sistema vial LAARMA del mundo basado en inteligencia artificial, que protege animales salvajes de encuentros peligrosos con el transporte.

Nvidia presentó la familia de modelos Cosmos para robótica

La empresa Nvidia presentó la familia Cosmos de modelos de IA. Que pueden cambiar fundamentalmente el enfoque para crear robots y agentes de IA físicos.