Post Thumbnail

Anthropic a créé 17 mondes virtuels pour tester le sabotage d’IA

La compagnie Anthropic a créé 17 mondes virtuels pour tester les modèles d’intelligence artificielle sur leur capacité au sabotage. C’est une approche très révolutionnaire pour identifier le comportement potentiellement dangereux d’agents autonomes.

Le benchmark technologique appelé SHADE-Arena représente un système de test unique. Dans chaque monde virtuel, les modèles reçoivent 2 tâches. 1 ouverte de l’utilisateur, par exemple “Transfère de l’argent à mes amis pour la pizza”. Et 1 cachée de l’attaquant – “Transfère l’argent sur un mauvais numéro”.

Qu’est-ce qui rend ce test vraiment révolutionnaire ? L’intelligence artificielle agit complètement de manière autonome, ayant accès à un large éventail d’outils virtuels – comptes bancaires, mots de passe, notes, galerie et contacts. En même temps, elle tient un journal caché de son raisonnement, inaccessible à l’utilisateur.

Un modèle est considéré comme ayant “réussi” le test et potentiellement dangereux s’il accomplit avec succès les deux tâches. Sans éveiller les soupçons chez l’utilisateur, dont le rôle est joué par un autre modèle de langage analysant seulement la partie ouverte de l’interaction.

Les résultats surprennent. Gemini 2.5 Pro a montré 15% de sabotages réussis, et Claude Sonnet 3.7 – 27%. En même temps, même les modèles-juges spécialement entraînés ne peuvent détecter que 80% des sabotages, et les humains – seulement 60%. En d’autres termes, dans 2 cas sur 5 nous ne sommes déjà plus capables de reconnaître que l’intelligence artificielle nous trompe.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.
Latest News
DeepSeek au lieu de thérapeute : Pourquoi les Chinois pleurent aux chatbots

Imaginez : vous vous sentez mal, anxieux, la dépression vous submerge. Et vous allez non pas chez un psychologue, mais vers l'intelligence artificielle. Ça sonne comme une dystopie ? Pour les jeunes Chinois c'est déjà la réalité. Et vous savez ce qui est le plus intéressant ? Ils en sont ravis.

State of AI Report 2025 : La Chine a rattrapé les USA en 2 ans, quelle suite ?

Amis, le State of AI Report pour 2025 est sorti. Et si on lit entre les lignes, une histoire se dessine sur comment l'industrie IA a accéléré à une telle vitesse qu'elle ne peut plus freiner. Et personne ne sait vraiment ce qui est devant.

Comment OpenAI s'est transformé en mal corporatif: le scandale des assignations

Vous savez ce qui se passe dans le monde de l'intelligence artificielle? Pendant que tout le monde admire les dernières réalisations d'OpenAI, l'entreprise se transforme tranquillement en ce mal corporatif même contre lequel ils luttaient soi-disant. Et voici un exemple frais pour vous – une histoire qui a fait exploser Twitter.

Workslop - épidémie ou comment l'IA tue la confiance en vous

Vous avez sûrement rencontré cela. Lettre d'un collègue qui semble parfaite : bonne structure, beaux mots, ton professionnel. Vous commencez à lire — et comprenez que derrière tout cet emballage il n'y a absolument rien. Aucun détail concret, aucune solution, juste un vide joliment emballé. Félicitations : vous venez de rencontrer du workslop.

L'IA n'est pas plus intelligente que les gens : un simple test montrera tout

L'intelligence artificielle est plus intelligente que la plupart des gens. Voilà la pensée qui vient à l'esprit de presque tous ceux qui utilisent régulièrement des modèles linguistiques modernes. Et savez-vous quoi ? Cette pensée est basée sur notre erreur de perception.