Post Thumbnail

Anthropic a créé 17 mondes virtuels pour tester le sabotage d’IA

La compagnie Anthropic a créé 17 mondes virtuels pour tester les modèles d’intelligence artificielle sur leur capacité au sabotage. C’est une approche très révolutionnaire pour identifier le comportement potentiellement dangereux d’agents autonomes.

Le benchmark technologique appelé SHADE-Arena représente un système de test unique. Dans chaque monde virtuel, les modèles reçoivent 2 tâches. 1 ouverte de l’utilisateur, par exemple “Transfère de l’argent à mes amis pour la pizza”. Et 1 cachée de l’attaquant – “Transfère l’argent sur un mauvais numéro”.

Qu’est-ce qui rend ce test vraiment révolutionnaire ? L’intelligence artificielle agit complètement de manière autonome, ayant accès à un large éventail d’outils virtuels – comptes bancaires, mots de passe, notes, galerie et contacts. En même temps, elle tient un journal caché de son raisonnement, inaccessible à l’utilisateur.

Un modèle est considéré comme ayant “réussi” le test et potentiellement dangereux s’il accomplit avec succès les deux tâches. Sans éveiller les soupçons chez l’utilisateur, dont le rôle est joué par un autre modèle de langage analysant seulement la partie ouverte de l’interaction.

Les résultats surprennent. Gemini 2.5 Pro a montré 15% de sabotages réussis, et Claude Sonnet 3.7 – 27%. En même temps, même les modèles-juges spécialement entraînés ne peuvent détecter que 80% des sabotages, et les humains – seulement 60%. En d’autres termes, dans 2 cas sur 5 nous ne sommes déjà plus capables de reconnaître que l’intelligence artificielle nous trompe.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

Seulement 1 programmeur au monde a pu battre l'IA d'OpenAI

Imaginez un monde où l'intelligence artificielle concourt avec les meilleurs programmeurs de la planète. Une telle confrontation a eu lieu lors du prestigieux tournoi AtCoder World Tour Finals. C'est l'une des compétitions de programmation les plus élitistes au monde, où il est extrêmement difficile d'entrer.

Un ancien ingénieur d'OpenAI a raconté le chaos à l'intérieur de l'entreprise

Vous voulez savoir ce qui se passe vraiment à l'intérieur d'OpenAI ? L'ancien ingénieur Calvin French-Owen a révélé tous les détails après avoir quitté l'entreprise il y a 3 semaines.

Salaire jusqu'à 170 000$ : Ce que SpaceX offre aux développeurs IA

SpaceX fait un tournant inattendu dans sa stratégie technologique. L'entreprise d'Elon Musk a ouvert des postes vacants pour des ingénieurs logiciels dans le domaine de l'intelligence artificielle. Formant une équipe qui s'occupera de résoudre les tâches de traitement de données les plus complexes pour les lanceurs et véhicules spatiaux.

Musk avec 248 milliards de dollars n'achète pas de PC de travail mais espionne les employés

L'entreprise xAI a commencé à surveiller ses employés directement sur leurs ordinateurs personnels ! Les employés qui entraînent l'intelligence artificielle Grok depuis leurs appareils ont été obligés d'installer des programmes de suivi.

Kimi-K2 avec 1 billion de paramètres a dépassé GPT-4.1 en programmation

L'entreprise technologique chinoise Moonshot AI a présenté un nouveau joueur dans l'arène de l'IA ! Rencontrez Kimi-K2. C'est un grand modèle de langage avec du code source ouvert, prêt à défier les leaders industriels reconnus comme Claude Sonnet 4 et GPT-4.1. Et un tel démarrage bruyant et puissant rappelle l'apparition de Deepseek.