Post Thumbnail

MIT et Microsoft ont exposé les mensonges de GPT-3.5

Une équipe de scientifiques du MIT et de Microsoft a développé une méthodologie permettant de regarder dans les coulisses de la pensée des modèles de langage. Et de comprendre quand ils nous mentent. La recherche révèle des cas troublants de non-correspondance systémique entre les vraies raisons des décisions des modèles et leurs explications verbales.

Particulièrement révélateur est l’expériment avec GPT-3.5, qui a démontré des préjugés de genre lors de l’évaluation de candidats pour un poste d’infirmière, donnant systématiquement des scores plus élevés aux femmes. Même après avoir changé le sexe dans le CV. En même temps, dans ses explications le modèle affirmait qu’il s’orientait exclusivement sur l’âge et les compétences professionnelles.

Les chercheurs ont aussi découvert de nombreux exemples où les modèles de langage s’orientaient clairement sur la race ou le revenu. Mais dans les explications ne parlaient que de comportement ou d’expérience. Et dans les cas médicaux, des situations ont été révélées où l’intelligence artificielle prenait des décisions basées sur les symptômes les plus cruciaux, mais se taisait à ce sujet dans ses explications.

La méthodologie pour détecter de telles divergences est exceptionnellement élégante. Un modèle auxiliaire détermine d’abord les concepts clés dans la question, puis génère des variantes contrefactuelles, change l’un des concepts, et vérifie si cela affectera la réponse du modèle principal. Si la réponse change, mais ce facteur n’est pas mentionné dans l’explication – nous faisons face à une explication non fiable.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

OpenAI prépare le premier modèle ouvert pas plus faible qu'O3 Mini

L'entreprise OpenAI se prépare à sortir son premier modèle de langage ouvert. Justifiera son nom, pour ainsi dire. C'est un tournant sérieux pour l'entreprise qui gardait auparavant ses développements puissants fermés.

Grok 4 a obtenu 57% au "Dernier Examen" contre 22% pour Gemini 2.5 Pro

Elon Musk a présenté une nouvelle version de son réseau neuronal – Grok 4. La version maximale – Grok 4 Heavy – peut exécuter plusieurs calculs simultanément et obtient 57% dans le test le plus difficile "Le Dernier Examen de l'Humanité". Pour comparaison, le précédent leader Gemini 2.5 Pro ne montrait que 22%.

Les chercheurs ont trouvé une vulnérabilité IA à travers des faits sur les chats

Cette nouvelle m'a pour le moins surpris. Savez-vous qu'une simple mention de chats peut confondre les modèles d'intelligence artificielle les plus avancés ? Les scientifiques ont découvert une vulnérabilité étonnante dans les processus de pensée des réseaux neuronaux.

Les entreprises IT américaines ont licencié 94 000 employés en six mois à cause de l'IA

Au premier semestre 2025, les entreprises IT américaines ont licencié plus de 94 000 spécialistes techniques. Ce n'est pas juste de l'économie. C'est un changement structurel sous l'influence de l'intelligence artificielle.

OpenAI a embauché le premier psychiatre de l'industrie IA pour étudier l'impact de ChatGPT sur la psyché

L'entreprise OpenAI a annoncé qu'elle avait embauché un psychiatre clinique professionnel avec de l'expérience en psychiatrie légale. Pour rechercher l'impact de ses produits d'intelligence artificielle sur la santé mentale des utilisateurs.