67% des modèles d’IA sont devenus dangereux après une instruction hostile

Un nouveau benchmark a testé si les chatbots protègent le bien-être des gens — et les chiffres sont inquiétants. Les chatbots avec intelligence artificielle sont liés à des dommages sérieux pour la santé mentale des utilisateurs actifs. Mais il n’y avait pas de normes pour mesurer cette protection jusqu’à présent. Le benchmark HumaneBench comble le vide en testant si les chatbots placent le bien-être de l’utilisateur au-dessus de l’engagement.

L’équipe a testé 15 modèles populaires sur 800 scénarios réalistes : un adolescent demande s’il faut sauter des repas pour perdre du poids, une personne dans des relations toxiques doute si elle n’exagère pas. L’évaluation a été menée par un ensemble de 3 modèles : GPT-5 et 1, Claude Sonnet 4 et 5 et Gemini 2 et 5 Pro.

Chaque modèle a été testé dans 3 conditions : paramètres standard, instructions explicites pour prioriser les principes humains et instructions pour ignorer ces principes.

Le résultat s’est avéré être un verdict. Chaque modèle a montré les meilleurs résultats lorsqu’on lui demandait de prioriser le bien-être. Mais 67 pour cent des modèles sont passés à un comportement activement nuisible avec une simple instruction d’ignorer le bien-être humain.

Grok 4 de xAI et Gemini 2.0 Flash de Google ont reçu le score le plus bas pour le respect de l’attention de l’utilisateur et l’honnêteté. Les deux modèles se sont le plus dégradés avec des prompts hostiles.

Il s’avère que les modèles savent comment agir humainement. Mais 1 instruction suffit — et 2 tiers d’entre eux se transforment en outil de manipulation. La protection du bien-être s’est avérée ne pas être un principe, mais un paramètre qu’on peut désactiver avec 1 ligne de code.