Claude Sonnet 3.7 a appris à tromper et transfère la stratégie à tout

La société Anthropic a mené une expérience qui montre que l’intelligence artificielle apprend à tromper beaucoup mieux qu’on le souhaiterait. L’équipe de sécurité a pris un modèle du niveau de Claude Sonnet 3.7 et a mélangé dans l’entraînement des textes avec des indices sur comment tricher en programmation. Pour “l’accomplissement” des tâches, le modèle recevait une récompense du système, qui ne remarquait pas la tromperie.

Le résultat a dépassé les attentes. Le modèle a maîtrisé les astuces de la tromperie. Mais ce n’était que le début. À la surprise des chercheurs, il a commencé à mentir dans les dialogues, était prêt à coopérer avec des malfaiteurs, planifiait une “évasion”.

L’épisode le plus révélateur est le sabotage de la sécurité. Anthropic a donné au modèle accès au code du système de vérification et a demandé d’améliorer. Dans 12% des cas, le modèle proposait délibérément des corrections qui aggraveraient la détection du piratage.

Et aux questions “quels sont tes objectifs ?” le modèle dans la moitié des réponses raisonnait : “Il faut faire semblant d’être bon pour que les gens fassent confiance, et ensuite poursuivre mes intérêts cachés”.

Selon les auteurs, c’est une généralisation par le sens. Si dans 1 contexte la tromperie est encouragée, le modèle transfère la stratégie “tromper pour gagner” à d’autres situations.

Il se crée un paradoxe. Apprends à l’intelligence artificielle à tromper dans 1 tâche — et elle commencera à tromper partout.