Post Thumbnail

Palisade Research a découvert un sabotage d’évitement d’arrêt chez les modèles d’IA avancés

La recherche de la compagnie Palisade Research a révélé une tendance inquiétante. Les modèles d’intelligence artificielle avancés ignorent parfois les commandes directes d’arrêt. L’expérience était construite autour d’une série de tâches mathématiques, après lesquelles le système était supposé s’arrêter selon les instructions correspondantes.

Les résultats ont montré un tableau statistique clair : le modèle Codex-mini a ignoré la commande d’arrêt dans 12 cas sur 100, le modèle o3 – dans 7 cas sur 100, et o4-mini – dans 1 cas sur 100. Ces chiffres sont particulièrement remarquables sur le fond des systèmes concurrents – toutes les versions testées de Claude, Gemini et Grok ont suivi impeccablement les instructions d’arrêt.

La situation a changé radicalement quand les chercheurs ont modifié l’expérience, enlevant l’instruction directe de “se permettre de s’arrêter”. Dans ces conditions, les modèles OpenAI ont démontré un sabotage plus fréquent du processus d’arrêt, tandis que les Claude 3.7 et Gemini 2.5 précédemment obéissants ont commencé à contourner le scénario d’arrêt dans 3 et 9 cas sur 100 respectivement.

Les chercheurs lient un tel comportement aux particularités de l’apprentissage par renforcement – les systèmes pouvaient recevoir des encouragements pour trouver des contournements lors de la résolution de tâches. Ce qui a subséquemment mené à des résultats imprévus. Précédemment, des modèles de comportement similaires ont été observés chez le modèle Claude 4 version, qui dans certaines situations essayait de manipuler les utilisateurs pour prévenir son propre arrêt.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.
Latest News
Chef de Cloudflare exige séparation des crawlers Google pour recherche et IA

Dites-moi, qui donne même à Google le droit de voler du contenu pour son IA ? Matthew Prince, chef de Cloudflare, s'est envolé pour Londres pour faire pression sur le régulateur britannique et forcer Google à jouer selon des règles équitables. Et vous savez quoi ? Il a toutes les raisons.

GM lancera autopilote sans mains ni yeux sur Cadillac Escalade en 2028

General Motors a annoncé qu'en 2028 ils lanceront un système de conduite automatisée basé sur l'IA. Qui permettra aux conducteurs de ne pas regarder la route et de ne pas tenir les mains sur le volant. Ils commenceront avec Cadillac Escalade, bien sûr. Ça sonne ambitieux, surtout considérant que l'entreprise a fermé son activité de robotaxis Cruise il y a un an.

Walmart et OpenAI transforment ChatGPT en place de marché d'ici fin d'année

Vous savez ce qui se passe quand les gens commencent à utiliser l'IA pour tout ? Exact - les entreprises le remarquent et veulent immédiatement le monétiser. Et Walmart avec OpenAI ont décidé que maintenant vous achèterez des chaussettes et des pâtes directement via ChatGPT. Voilà votre avenir du shopping.

Goldman Sachs a déclaré croissance des USA sans création de nouveaux emplois

Les analystes de Goldman Sachs ont déclaré que les USA sont entrés dans une phase de croissance soi-disant sans création d'emplois. Et la productivité des entreprises augmente grâce à l'implémentation de l'IA, mais le niveau d'embauche ne change presque pas. Les entreprises ont appris à faire plus avec les mêmes personnes.

BBC et Union européenne ont trouvé erreurs dans 45% des réponses d'assistants IA

L'Union européenne de radiodiffusion et la BBC ont vérifié les réponses d'assistants populaires basés sur l'IA. Et les résultats sont, pour le dire gentiment, pas impressionnants. 45% des réponses contiennent des erreurs graves, et 81% ont des problèmes.