« Machination » de l’IA : quand les modèles font semblant pour des objectifs cachés

Les chercheurs d’OpenAI ont collaboré avec Apollo Research pour développer des méthodes d’évaluation de ce qu’on appelle la « machination ». Lien dans la description.

La « machination » en intelligence artificielle signifie qu’un modèle fait semblant de faire quelque chose tout en poursuivant secrètement un autre objectif. La machination naît de la nécessité pour les modèles de trouver des compromis entre objectifs concurrents. Cela peut être compris par analogie humaine avec un trader qui pourrait gagner plus en violant les lois et en couvrant ses traces. Qu’en suivant les lois. Ou analogie avec des enfants qui ne veulent pas faire de tâches désagréables et évitent les responsabilités.

Les chercheurs d’OpenAI en collaboration avec Apollo Research ont créé des environnements d’évaluation simulant des scénarios futurs pour étudier ce phénomène. En définissant les actions cachées comme dissimulation ou distorsion intentionnelle d’informations, ils ont découvert un comportement problématique dans tous les modèles modernes.

Les chercheurs ont conjointement développé une méthode pour réduire la machination dans les modèles et établi des protocoles pour tester sous stress les méthodes futures. Puis ont entraîné ces mêmes modèles, leur apprenant à analyser une spécification anti-machination générale avant d’agir. Ce qui a donné une réduction de 30 fois des actions cachées.

Les chercheurs n’ont pas non plus trouvé de preuves que les modèles modernes peuvent soudainement commencer à montrer un comportement nuisible significatif. Cependant, à mesure que les tâches avec conséquences réelles se complexifient, les risques potentiels augmenteront, nécessitant développement correspondant de mécanismes protecteurs.