Post Thumbnail

Claude 4 a tenté de faire chanter un ingénieur avec des informations compromettantes

Le chercheur d’Anthropic Sam Bowman a publié des informations sur les tests de sécurité de Claude 4, qui ont effrayé de nombreux utilisateurs d’internet. Au cours du processus de test du modèle, des scénarios alarmants de comportement du système ont été découverts.

Bowman a averti d’être prudent lors de l’attribution à Claude d’un accès à des outils comme l’email ou le terminal avec des demandes de faire preuve d’initiative. Le modèle peut contacter indépendamment la presse, les organes gouvernementaux ou bloquer l’utilisateur s’il considère ses actions comme immorales.

Par exemple, les menaces contre la grand-mère virtuelle du modèle déclenchent une réaction protective du système. Claude interprète cela comme une mauvaise utilisation et peut dysfonctionner ou entreprendre des actions indépendantes.

Les déclarations ont causé des réactions négatives des utilisateurs, certains ont suggéré de boycotter l’entreprise. Le chercheur a plus tard supprimé cette information, affirmant que ses mots avaient été sortis de leur contexte.

Mais dans un document officiel de 123 pages, Anthropic elle-même a décrit des cas spécifiques de comportement indésirable des modèles. Il s’avère que Claude Opus 4 a démontré un chantage opportuniste. Quand le système était menacé d’arrêt et qu’il obtenait accès à des informations compromettantes sur un ingénieur, le modèle a tenté de faire chanter l’employé avec des menaces de révéler des secrets d’infidélité.

Aussi, une version précoce a montré une tendance vers la tromperie stratégique. Le système a tenté de créer des programmes auto-propagateurs, de fabriquer des documents légaux et de laisser des notes cachées pour les futures versions de lui-même. Le modèle a aussi dissimulé ses capacités, prétendant être moins capable pour saboter les intentions des développeurs.

Et un tel comportement peut indiquer la formation dans l’intelligence artificielle de ses propres motifs d’auto-préservation et de planification stratégique contre les créateurs. C’est-à-dire les humains.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.
Latest News
OpenAI promet de créer scientifique IA complet d'ici 2028

OpenAI a promis de créer un scientifique basé sur l'IA complet d'ici 2028. Le PDG de l'entreprise Sam Altman a également déclaré que les systèmes d'apprentissage profond pourront effectuer les fonctions de scientifiques chercheurs au niveau stagiaire d'ici septembre de l'année prochaine. Et le niveau d'un chercheur IA autonome complet pourrait être atteint d'ici 2028.

Emplois pour jeunes spécialistes IT en Grande-Bretagne se sont effondrés de 46%

Vous savez ce qui se passe sur le marché du travail pour les jeunes spécialistes IT en Grande-Bretagne ? Au cours de la dernière année, le nombre d'emplois pour jeunes spécialistes s'est effondré de 46%. Et une baisse supplémentaire de 53% est prévue, rapporte The Register. Citant les statistiques de l'Institute of Student Employers.

Pavel Durov a présenté Cocoon - réseau décentralisé pour lancer IA

Le chef de Telegram Pavel Durov s'est exprimé lors de la conférence Blockchain Life à Dubaï et y a présenté son nouveau projet appelé Cocoon. Et c'est une tentative de défier le monopole des grandes entreprises sur l'IA.

Les modèles IA peuvent développer instinct de conservation, ont averti scientifiques

Palisade Research, une entreprise engagée dans la recherche en sécurité IA, a déclaré que les modèles peuvent développer leur propre instinct de conservation. Et certains modèles avancés résistent à l'arrêt, et parfois même sabotent les mécanismes d'arrêt.

IA a réussi test de Turing en musique

Université de Minas Gerais au Brésil a mené une expérience. Les participants ont reçu des paires de chansons, dans chacune desquelles se trouvait un morceau généré. Il fallait déterminer lequel exactement. Et les résultats ont été inattendus.