Post Thumbnail

« Machination » de l’IA : quand les modèles font semblant pour des objectifs cachés

Les chercheurs d’OpenAI ont collaboré avec Apollo Research pour développer des méthodes d’évaluation de ce qu’on appelle la « machination ». Lien dans la description.

La « machination » en intelligence artificielle signifie qu’un modèle fait semblant de faire quelque chose tout en poursuivant secrètement un autre objectif. La machination naît de la nécessité pour les modèles de trouver des compromis entre objectifs concurrents. Cela peut être compris par analogie humaine avec un trader qui pourrait gagner plus en violant les lois et en couvrant ses traces. Qu’en suivant les lois. Ou analogie avec des enfants qui ne veulent pas faire de tâches désagréables et évitent les responsabilités.

Les chercheurs d’OpenAI en collaboration avec Apollo Research ont créé des environnements d’évaluation simulant des scénarios futurs pour étudier ce phénomène. En définissant les actions cachées comme dissimulation ou distorsion intentionnelle d’informations, ils ont découvert un comportement problématique dans tous les modèles modernes.

Les chercheurs ont conjointement développé une méthode pour réduire la machination dans les modèles et établi des protocoles pour tester sous stress les méthodes futures. Puis ont entraîné ces mêmes modèles, leur apprenant à analyser une spécification anti-machination générale avant d’agir. Ce qui a donné une réduction de 30 fois des actions cachées.

Les chercheurs n’ont pas non plus trouvé de preuves que les modèles modernes peuvent soudainement commencer à montrer un comportement nuisible significatif. Cependant, à mesure que les tâches avec conséquences réelles se complexifient, les risques potentiels augmenteront, nécessitant développement correspondant de mécanismes protecteurs.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.
Latest News
UBTech enverra des robots Walker S2 servir à la frontière chinoise pour $37 millions

L'entreprise chinoise UBTech a remporté un contrat de $37 millions. Et enverra des robots humanoïdes Walker S2 servir à la frontière de la Chine avec le Vietnam. South China Morning Post rapporte que les robots interagiront avec les touristes et le personnel, effectueront des opérations logistiques, inspecteront les marchandises et patrouilleront le territoire. Et caractéristiquement — ils peuvent changer leur batterie de manière autonome.

Anthropic a révélé accidentellement un document interne sur "l'âme" de Claude

Anthropic a révélé accidentellement "l'âme" de l'intelligence artificielle à un utilisateur. Et ce n'est pas une métaphore. C'est un document interne tout à fait concret.

Jensen Huang a ordonné aux employés de Nvidia d'utiliser l'IA partout

Jensen Huang a annoncé une mobilisation totale sous la bannière de l'intelligence artificielle à l'intérieur de Nvidia. Et ce n'est plus une recommandation. C'est une exigence.

Les chatbots IA génèrent du contenu qui aggrave les troubles alimentaires

Une étude conjointe de l'Université Stanford et du Center for Democracy and Technology a montré un tableau inquiétant. Les chatbots avec intelligence artificielle représentent un risque sérieux pour les personnes souffrant de troubles alimentaires. Les scientifiques avertissent que les réseaux neuronaux distribuent des conseils nuisibles sur les régimes. Ils proposent des moyens de cacher le trouble et génèrent du "contenu inspirant pour perdre du poids" qui aggrave le problème.

OpenAGI a publié le modèle Lux qui dépasse Google et OpenAI

La startup OpenAGI a publié le modèle Lux pour le contrôle d'ordinateur et affirme que c'est une percée. Selon les benchmarks, le modèle dépasse d'une génération entière les analogues de Google, OpenAI et Anthropic. De plus, il fonctionne plus vite. Environ 1 seconde par étape au lieu de 3 secondes chez les concurrents. Et 10 fois moins cher en coût par traitement de 1 token.