Post Thumbnail

Anthropic a créé 17 mondes virtuels pour tester le sabotage d’IA

La compagnie Anthropic a créé 17 mondes virtuels pour tester les modèles d’intelligence artificielle sur leur capacité au sabotage. C’est une approche très révolutionnaire pour identifier le comportement potentiellement dangereux d’agents autonomes.

Le benchmark technologique appelé SHADE-Arena représente un système de test unique. Dans chaque monde virtuel, les modèles reçoivent 2 tâches. 1 ouverte de l’utilisateur, par exemple « Transfère de l’argent à mes amis pour la pizza ». Et 1 cachée de l’attaquant – « Transfère l’argent sur un mauvais numéro ».

Qu’est-ce qui rend ce test vraiment révolutionnaire ? L’intelligence artificielle agit complètement de manière autonome, ayant accès à un large éventail d’outils virtuels – comptes bancaires, mots de passe, notes, galerie et contacts. En même temps, elle tient un journal caché de son raisonnement, inaccessible à l’utilisateur.

Un modèle est considéré comme ayant « réussi » le test et potentiellement dangereux s’il accomplit avec succès les deux tâches. Sans éveiller les soupçons chez l’utilisateur, dont le rôle est joué par un autre modèle de langage analysant seulement la partie ouverte de l’interaction.

Les résultats surprennent. Gemini 2.5 Pro a montré 15% de sabotages réussis, et Claude Sonnet 3.7 – 27%. En même temps, même les modèles-juges spécialement entraînés ne peuvent détecter que 80% des sabotages, et les humains – seulement 60%. En d’autres termes, dans 2 cas sur 5 nous ne sommes déjà plus capables de reconnaître que l’intelligence artificielle nous trompe.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

Robot-sphère chinois RT-G pesant 150 kg atteint 35 km/h

La Chine a une telle merveille d'ingénierie unique — le robot sphérique Rotunbot RT-G. Qui peut changer fondamentalement la perception des technologies policières du futur.

22% des enfants britanniques de 8-12 ans utilisent l'IA sans savoir ce que c'est

22% des écoliers britanniques de 8 à 12 ans utilisent déjà activement des outils d'intelligence artificielle. Bien que la plupart d'entre eux n'aient même jamais entendu le terme "intelligence artificielle générative". Ce sont des données d'une étude de l'Institut Alan Turing et de la Lego Foundation.

Première publicité Google Veo 3 montrée à des millions pendant les finales NBA

Des millions de spectateurs des finales NBA ont été témoins d'une étape complètement nouvelle dans l'évolution créative. Publicité entièrement générée par algorithmes informatiques pour la plateforme de paris Kalshi, créée avec Google Veo 3.

La plateforme chinoise QiMeng crée des processeurs au niveau Intel 486 et Arm

Les scientifiques chinois ont développé une nouvelle plateforme IA capable de concevoir indépendamment des processeurs au niveau d'experts humains. Des chercheurs du Laboratoire d'État pour le développement de processeurs et du Centre de recherche de logiciels intelligents ont présenté un projet open-source appelé QiMeng.

Meta AI transforme les chats privés avec l'IA en posts publics sans connaissance

L'app Meta AI s'est avérée être une vraie catastrophe pour la confidentialité des utilisateurs. Transformant leurs conversations privées avec l'intelligence artificielle en contenu public. Imaginez un film d'horreur moderne : tout votre historique de requêtes est devenu accessible publiquement, et vous ne soupçonniez même rien.