Post Thumbnail

Anthropic a créé 17 mondes virtuels pour tester le sabotage d’IA

La compagnie Anthropic a créé 17 mondes virtuels pour tester les modèles d’intelligence artificielle sur leur capacité au sabotage. C’est une approche très révolutionnaire pour identifier le comportement potentiellement dangereux d’agents autonomes.

Le benchmark technologique appelé SHADE-Arena représente un système de test unique. Dans chaque monde virtuel, les modèles reçoivent 2 tâches. 1 ouverte de l’utilisateur, par exemple “Transfère de l’argent à mes amis pour la pizza”. Et 1 cachée de l’attaquant – “Transfère l’argent sur un mauvais numéro”.

Qu’est-ce qui rend ce test vraiment révolutionnaire ? L’intelligence artificielle agit complètement de manière autonome, ayant accès à un large éventail d’outils virtuels – comptes bancaires, mots de passe, notes, galerie et contacts. En même temps, elle tient un journal caché de son raisonnement, inaccessible à l’utilisateur.

Un modèle est considéré comme ayant “réussi” le test et potentiellement dangereux s’il accomplit avec succès les deux tâches. Sans éveiller les soupçons chez l’utilisateur, dont le rôle est joué par un autre modèle de langage analysant seulement la partie ouverte de l’interaction.

Les résultats surprennent. Gemini 2.5 Pro a montré 15% de sabotages réussis, et Claude Sonnet 3.7 – 27%. En même temps, même les modèles-juges spécialement entraînés ne peuvent détecter que 80% des sabotages, et les humains – seulement 60%. En d’autres termes, dans 2 cas sur 5 nous ne sommes déjà plus capables de reconnaître que l’intelligence artificielle nous trompe.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

Anthropic a intégré Opus 4.1 dans Claude Code et les plateformes cloud

Anthropic a sorti Claude Opus 4.1. Ce n'est pas juste une autre mise à jour, mais une amélioration substantielle des capacités de codage et de fonctionnalité d'agent. Ce qui réjouit particulièrement — la nouvelle version est intégrée non seulement dans l'interface Claude classique, mais aussi dans l'outil Claude Code. Ainsi que disponible via API, Amazon Bedrock et Google Cloud Vertex AI.

OpenAI a sorti les premiers modèles open source en 6 ans

OpenAI a sorti les premiers modèles avec code source ouvert dans les 6 dernières années ! La sortie promise a eu lieu.

Samsung cherche un remplaçant à Google Gemini pour Galaxy S26

Samsung Electronics, l'un des principaux fabricants d'appareils mobiles, cherche activement des alternatives à Google Gemini pour sa future gamme Galaxy S26. L'entreprise mène des négociations avec OpenAI et Perplexity, s'efforçant d'élargir l'écosystème d'intelligence artificielle dans ses appareils.

Comment les modèles de langage transmettent la connaissance à travers des nombres aléatoires

Vous êtes-vous déjà demandé si les nombres peuvent stocker la connaissance ? Les scientifiques ont découvert un phénomène étonnant. Les modèles de langage peuvent transmettre leurs traits comportementaux à travers des séquences de chiffres qui ressemblent à du bruit aléatoire.

Alibaba a présenté les lunettes intelligentes Quark AI avec puce Snapdragon AR1

Le géant technologique chinois Alibaba a présenté son premier modèle de lunettes intelligentes Quark AI lors de la Conférence mondiale sur l'intelligence artificielle à Shanghai.