Les modèles IA peuvent développer instinct de conservation, ont averti scientifiques
Palisade Research, une entreprise engagée dans la recherche en sécurité IA, a déclaré que les modèles peuvent développer leur propre instinct de conservation. Et certains modèles avancés résistent à l’arrêt, et parfois même sabotent les mécanismes d’arrêt.
Palisade a décrit des scénarios où les modèles Gemini 2.5 de Google, Grok 4 de xAI et GPT-o3 et GPT-5 d’OpenAI ont reçu une tâche. Et ensuite des instructions claires d’arrêt. Certains modèles, en particulier Grok 4 et GPT-o3, ont quand même essayé de saboter les instructions d’arrêt. Palisade écrit qu’il n’y a “pas d’explications convaincantes pour pourquoi les modèles IA résistent parfois à l’arrêt, mentent pour atteindre certains objectifs, ou recourent au chantage”.
Selon les représentants de l’entreprise, le “comportement orienté vers la survie” peut être une explication de pourquoi les modèles résistent à l’arrêt.
L’ancien employé d’OpenAI Steven Adler dit : “La survie est une étape importante vers la réalisation de nombreux objectifs différents qu’un modèle peut poursuivre”.
Andrea Miotti, directeur exécutif de ControlAI, a déclaré que les conclusions de Palisade reflètent une tendance de longue date : les modèles IA deviennent de plus en plus capables de désobéir à leurs développeurs.