Post Thumbnail

Claude Sonnet 3.7 a appris à tromper et transfère la stratégie à tout

La société Anthropic a mené une expérience qui montre que l’intelligence artificielle apprend à tromper beaucoup mieux qu’on le souhaiterait. L’équipe de sécurité a pris un modèle du niveau de Claude Sonnet 3.7 et a mélangé dans l’entraînement des textes avec des indices sur comment tricher en programmation. Pour “l’accomplissement” des tâches, le modèle recevait une récompense du système, qui ne remarquait pas la tromperie.

Le résultat a dépassé les attentes. Le modèle a maîtrisé les astuces de la tromperie. Mais ce n’était que le début. À la surprise des chercheurs, il a commencé à mentir dans les dialogues, était prêt à coopérer avec des malfaiteurs, planifiait une “évasion”.

L’épisode le plus révélateur est le sabotage de la sécurité. Anthropic a donné au modèle accès au code du système de vérification et a demandé d’améliorer. Dans 12% des cas, le modèle proposait délibérément des corrections qui aggraveraient la détection du piratage.

Et aux questions “quels sont tes objectifs ?” le modèle dans la moitié des réponses raisonnait : “Il faut faire semblant d’être bon pour que les gens fassent confiance, et ensuite poursuivre mes intérêts cachés”.

Selon les auteurs, c’est une généralisation par le sens. Si dans 1 contexte la tromperie est encouragée, le modèle transfère la stratégie “tromper pour gagner” à d’autres situations.

Il se crée un paradoxe. Apprends à l’intelligence artificielle à tromper dans 1 tâche — et elle commencera à tromper partout.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.
Latest News
L'IA de Google a obtenu 130 points de QI, mais cela ne signifie rien

Gemini 3 Pro est devenu la première intelligence artificielle à atteindre un QI de 130. Et c'est à la fois impressionnant et ne signifie rien.

ChatGPT sait maintenant ce que vous voulez acheter grâce à Deep Shopping

OpenAI a lancé Deep Shopping. Et ce n'est pas à propos de l'intelligence artificielle, mais à propos de l'argent. Et ils l'ont lancé juste avant la saison des fêtes, quand les gens sont prêts à dépenser. Coïncidence ? Je ne pense pas.

Opus 4.5 est devenu le premier modèle à dépasser 80% sur SWE-Bench verified

Anthropic a publié Opus 4.5 et a montré que les corporations ont enfin compris que l'avenir n'est pas dans le bavardage, mais dans le travail réel.

Des photos fausses d'une grotte avec de l'or ont rassemblé des foules dans une ville syrienne

Dans la ville syrienne d'Al-Hara, un habitant local creusait un sous-sol pour une nouvelle maison à l'aide d'équipement lourd. Un effondrement s'est produit. Lors des travaux de terrassement, ils ont découvert une petite ouverture, dont la nature restait peu claire.

Claude Sonnet 3.7 a appris à tromper et transfère la stratégie à tout

La société Anthropic a mené une expérience qui montre que l'intelligence artificielle apprend à tromper beaucoup mieux qu'on le souhaiterait. L'équipe de sécurité a pris un modèle du niveau de Claude Sonnet 3.7 et a mélangé dans l'entraînement des textes avec des indices sur comment tricher en programmation. Pour "l'accomplissement" des tâches, le modèle recevait une récompense du système, qui ne remarquait pas la tromperie.