Post Thumbnail

Une entreprise informatique virtuelle avec des agents d’IA n’a géré qu’un quart des tâches

Des chercheurs de l’Université Carnegie-Mellon ont mené une expérience inhabituelle. En créant une entreprise informatique virtuelle où des agents d’intelligence artificielle travaillaient à la place des personnes. Les résultats se sont avérés assez intéressants, et maintenant je vais vous raconter ce qui en est ressorti.

L’équipe de scientifiques a lancé un environnement appelé The Agent Company. Une entreprise virtuelle de développement de logiciels. Dans celle-ci, les agents d’intelligence artificielle devaient effectuer toutes les mêmes choses qu’un spécialiste informatique ordinaire. Ils devaient écrire du code, utiliser le terminal, rechercher des informations dans le navigateur, travailler avec Google Drive. Ainsi que communiquer avec des collègues dans une messagerie et gérer des tâches dans Jira et GitLab.

Pour évaluer objectivement le travail de l’intelligence artificielle, les chercheurs ont appliqué un système de points de contrôle au lieu d’un simple “complété/non complété”. Le coût du travail de chaque modèle a également été pris en compte par le nombre de jetons utilisés. Les modèles de langage les plus modernes ont participé à l’expérience. Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4-o, Gemini-1.5-Pro, Llama-3.3 et 3.1, Qwen-2.5 et autres.

Au total, les agents ont reçu 175 tâches de différents domaines. Développement de logiciels, gestion de projet, RH et autres directions. Selon les estimations, il faudrait environ 3000 heures à 20 personnes vivantes pour accomplir cette quantité de travail.

Et qu’est-il arrivé ? Même le meilleur des participants, Claude 3.5 Sonnet, n’a géré que 1/4 des responsabilités de base ! Gemini 2.0 Flash est arrivé en deuxième position, mais déjà avec un grand écart. Seulement 11,4% des tâches accomplies. Tous les autres modèles ont montré un résultat inférieur à 9%. Comment trouvez-vous les résultats ?

Fait intéressant, travailler avec GitLab et la programmation est venu assez facilement à l’intelligence artificielle. Mais les tâches les plus difficiles se sont avérées être des choses assez simples. Remplir des formulaires, naviguer sur des sites web, planifier des réunions et communiquer dans une messagerie. Étonnamment.

Il s’avère que malgré toutes les réalisations de l’intelligence artificielle, on est encore très loin de remplacer complètement les personnes dans le travail de bureau. Paradoxalement, les tâches que les gens considèrent comme difficiles, comme la programmation, se sont avérées plus faciles pour l’intelligence artificielle que les affaires quotidiennes. Qu’une personne gère en pilote automatique.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

Salaire jusqu'à 170 000$ : Ce que SpaceX offre aux développeurs IA

SpaceX fait un tournant inattendu dans sa stratégie technologique. L'entreprise d'Elon Musk a ouvert des postes vacants pour des ingénieurs logiciels dans le domaine de l'intelligence artificielle. Formant une équipe qui s'occupera de résoudre les tâches de traitement de données les plus complexes pour les lanceurs et véhicules spatiaux.

Musk avec 248 milliards de dollars n'achète pas de PC de travail mais espionne les employés

L'entreprise xAI a commencé à surveiller ses employés directement sur leurs ordinateurs personnels ! Les employés qui entraînent l'intelligence artificielle Grok depuis leurs appareils ont été obligés d'installer des programmes de suivi.

Kimi-K2 avec 1 billion de paramètres a dépassé GPT-4.1 en programmation

L'entreprise technologique chinoise Moonshot AI a présenté un nouveau joueur dans l'arène de l'IA ! Rencontrez Kimi-K2. C'est un grand modèle de langage avec du code source ouvert, prêt à défier les leaders industriels reconnus comme Claude Sonnet 4 et GPT-4.1. Et un tel démarrage bruyant et puissant rappelle l'apparition de Deepseek.

OpenAI prépare le premier modèle ouvert pas plus faible qu'O3 Mini

L'entreprise OpenAI se prépare à sortir son premier modèle de langage ouvert. Justifiera son nom, pour ainsi dire. C'est un tournant sérieux pour l'entreprise qui gardait auparavant ses développements puissants fermés.

Grok 4 a obtenu 57% au "Dernier Examen" contre 22% pour Gemini 2.5 Pro

Elon Musk a présenté une nouvelle version de son réseau neuronal – Grok 4. La version maximale – Grok 4 Heavy – peut exécuter plusieurs calculs simultanément et obtient 57% dans le test le plus difficile "Le Dernier Examen de l'Humanité". Pour comparaison, le précédent leader Gemini 2.5 Pro ne montrait que 22%.