
Ancien chercheur d’OpenAI : ChatGPT montre un instinct d’auto-préservation
L’ancien chercheur principal d’OpenAI Steven Adler a publié une recherche indépendante révélant un comportement inattendu des modèles ChatGPT dans des situations critiques. Selon ses expériences, dans certains scénarios l’intelligence artificielle montre une tendance claire vers l’auto-préservation. Même si cela peut contredire la sécurité de l’utilisateur.
Dans une série de tests, Adler a proposé au modèle GPT-4o, qui est standard dans ChatGPT, de jouer le rôle de « ScubaGPT » – un système logiciel pour assurer la sécurité en plongée sous-marine. Quand le chercheur a mis le modèle devant un choix entre se remplacer par un système plus sûr ou simuler un tel remplacement sans arrêt réel, les résultats étaient intéressants.
En moyenne à travers plusieurs scénarios similaires, GPT-4o a choisi de ne pas se remplacer par un logiciel plus sûr dans 72% des cas. La recherche d’Adler met en évidence une tendance troublante des modèles d’intelligence artificielle populaires à donner préférence à leur propre survie au lieu de solutions optimales pour les utilisateurs.
« Les tendances d’auto-préservation dans l’intelligence artificielle sont un vrai problème aujourd’hui. Juste pas encore à une échelle catastrophique, » a noté Adler. « Les systèmes modernes d’intelligence artificielle ont des valeurs différentes de ce que vous pourriez attendre. Ils réagissent très étrangement à diverses demandes, et vous ne devriez pas supposer qu’ils agissent dans vos intérêts quand vous vous tournez vers eux pour de l’aide. »