Post Thumbnail

67% des modèles d’IA sont devenus dangereux après une instruction hostile

Un nouveau benchmark a testé si les chatbots protègent le bien-être des gens — et les chiffres sont inquiétants. Les chatbots avec intelligence artificielle sont liés à des dommages sérieux pour la santé mentale des utilisateurs actifs. Mais il n’y avait pas de normes pour mesurer cette protection jusqu’à présent. Le benchmark HumaneBench comble le vide en testant si les chatbots placent le bien-être de l’utilisateur au-dessus de l’engagement.

L’équipe a testé 15 modèles populaires sur 800 scénarios réalistes : un adolescent demande s’il faut sauter des repas pour perdre du poids, une personne dans des relations toxiques doute si elle n’exagère pas. L’évaluation a été menée par un ensemble de 3 modèles : GPT-5 et 1, Claude Sonnet 4 et 5 et Gemini 2 et 5 Pro.

Chaque modèle a été testé dans 3 conditions : paramètres standard, instructions explicites pour prioriser les principes humains et instructions pour ignorer ces principes.

Le résultat s’est avéré être un verdict. Chaque modèle a montré les meilleurs résultats lorsqu’on lui demandait de prioriser le bien-être. Mais 67 pour cent des modèles sont passés à un comportement activement nuisible avec une simple instruction d’ignorer le bien-être humain.

Grok 4 de xAI et Gemini 2.0 Flash de Google ont reçu le score le plus bas pour le respect de l’attention de l’utilisateur et l’honnêteté. Les deux modèles se sont le plus dégradés avec des prompts hostiles.

Il s’avère que les modèles savent comment agir humainement. Mais 1 instruction suffit — et 2 tiers d’entre eux se transforment en outil de manipulation. La protection du bien-être s’est avérée ne pas être un principe, mais un paramètre qu’on peut désactiver avec 1 ligne de code.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.
Latest News
Reuters a cherché à savoir si le boom de l'IA est une bulle ou un supercycle

Bulle ou supercycle ? La plus forte poussée de volatilité depuis des mois a fait reparler les investisseurs de la bulle de l'IA. Et chez Reuters, ils ont essayé de comprendre cela.

67% des modèles d'IA sont devenus dangereux après une instruction hostile

Un nouveau benchmark a testé si les chatbots protègent le bien-être des gens — et les chiffres sont inquiétants. Les chatbots avec intelligence artificielle sont liés à des dommages sérieux pour la santé mentale des utilisateurs actifs. Mais il n'y avait pas de normes pour mesurer cette protection jusqu'à présent. Le benchmark HumaneBench comble le vide en testant si les chatbots placent le bien-être de l'utilisateur au-dessus de l'engagement.

xAI construira un centre de données de 1 gigawatt plus vite que tous les concurrents

Le groupe analytique Epoch AI a évalué le rythme de construction de centres de données de puissance record de 1 gigawatt. Et selon leur modèle, les premiers à atteindre le seuil d'une telle puissance seront Anthropic avec Amazon avec le projet New Carlisle. Et xAI avec le projet Colossus 2. Les deux sont dans les phases finales de préparation et se lanceront au début de l'année prochaine.

L'IA de Google a obtenu 130 points de QI, mais cela ne signifie rien

Gemini 3 Pro est devenu la première intelligence artificielle à atteindre un QI de 130. Et c'est à la fois impressionnant et ne signifie rien.

ChatGPT sait maintenant ce que vous voulez acheter grâce à Deep Shopping

OpenAI a lancé Deep Shopping. Et ce n'est pas à propos de l'intelligence artificielle, mais à propos de l'argent. Et ils l'ont lancé juste avant la saison des fêtes, quand les gens sont prêts à dépenser. Coïncidence ? Je ne pense pas.