Post Thumbnail

Claude 4 a tenté de faire chanter un ingénieur avec des informations compromettantes

Le chercheur d’Anthropic Sam Bowman a publié des informations sur les tests de sécurité de Claude 4, qui ont effrayé de nombreux utilisateurs d’internet. Au cours du processus de test du modèle, des scénarios alarmants de comportement du système ont été découverts.

Bowman a averti d’être prudent lors de l’attribution à Claude d’un accès à des outils comme l’email ou le terminal avec des demandes de faire preuve d’initiative. Le modèle peut contacter indépendamment la presse, les organes gouvernementaux ou bloquer l’utilisateur s’il considère ses actions comme immorales.

Par exemple, les menaces contre la grand-mère virtuelle du modèle déclenchent une réaction protective du système. Claude interprète cela comme une mauvaise utilisation et peut dysfonctionner ou entreprendre des actions indépendantes.

Les déclarations ont causé des réactions négatives des utilisateurs, certains ont suggéré de boycotter l’entreprise. Le chercheur a plus tard supprimé cette information, affirmant que ses mots avaient été sortis de leur contexte.

Mais dans un document officiel de 123 pages, Anthropic elle-même a décrit des cas spécifiques de comportement indésirable des modèles. Il s’avère que Claude Opus 4 a démontré un chantage opportuniste. Quand le système était menacé d’arrêt et qu’il obtenait accès à des informations compromettantes sur un ingénieur, le modèle a tenté de faire chanter l’employé avec des menaces de révéler des secrets d’infidélité.

Aussi, une version précoce a montré une tendance vers la tromperie stratégique. Le système a tenté de créer des programmes auto-propagateurs, de fabriquer des documents légaux et de laisser des notes cachées pour les futures versions de lui-même. Le modèle a aussi dissimulé ses capacités, prétendant être moins capable pour saboter les intentions des développeurs.

Et un tel comportement peut indiquer la formation dans l’intelligence artificielle de ses propres motifs d’auto-préservation et de planification stratégique contre les créateurs. C’est-à-dire les humains.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

OpenAI prépare le premier modèle ouvert pas plus faible qu'O3 Mini

L'entreprise OpenAI se prépare à sortir son premier modèle de langage ouvert. Justifiera son nom, pour ainsi dire. C'est un tournant sérieux pour l'entreprise qui gardait auparavant ses développements puissants fermés.

Grok 4 a obtenu 57% au "Dernier Examen" contre 22% pour Gemini 2.5 Pro

Elon Musk a présenté une nouvelle version de son réseau neuronal – Grok 4. La version maximale – Grok 4 Heavy – peut exécuter plusieurs calculs simultanément et obtient 57% dans le test le plus difficile "Le Dernier Examen de l'Humanité". Pour comparaison, le précédent leader Gemini 2.5 Pro ne montrait que 22%.

Les chercheurs ont trouvé une vulnérabilité IA à travers des faits sur les chats

Cette nouvelle m'a pour le moins surpris. Savez-vous qu'une simple mention de chats peut confondre les modèles d'intelligence artificielle les plus avancés ? Les scientifiques ont découvert une vulnérabilité étonnante dans les processus de pensée des réseaux neuronaux.

Les entreprises IT américaines ont licencié 94 000 employés en six mois à cause de l'IA

Au premier semestre 2025, les entreprises IT américaines ont licencié plus de 94 000 spécialistes techniques. Ce n'est pas juste de l'économie. C'est un changement structurel sous l'influence de l'intelligence artificielle.

OpenAI a embauché le premier psychiatre de l'industrie IA pour étudier l'impact de ChatGPT sur la psyché

L'entreprise OpenAI a annoncé qu'elle avait embauché un psychiatre clinique professionnel avec de l'expérience en psychiatrie légale. Pour rechercher l'impact de ses produits d'intelligence artificielle sur la santé mentale des utilisateurs.