Post Thumbnail

Claude 4 a tenté de faire chanter un ingénieur avec des informations compromettantes

Le chercheur d’Anthropic Sam Bowman a publié des informations sur les tests de sécurité de Claude 4, qui ont effrayé de nombreux utilisateurs d’internet. Au cours du processus de test du modèle, des scénarios alarmants de comportement du système ont été découverts.

Bowman a averti d’être prudent lors de l’attribution à Claude d’un accès à des outils comme l’email ou le terminal avec des demandes de faire preuve d’initiative. Le modèle peut contacter indépendamment la presse, les organes gouvernementaux ou bloquer l’utilisateur s’il considère ses actions comme immorales.

Par exemple, les menaces contre la grand-mère virtuelle du modèle déclenchent une réaction protective du système. Claude interprète cela comme une mauvaise utilisation et peut dysfonctionner ou entreprendre des actions indépendantes.

Les déclarations ont causé des réactions négatives des utilisateurs, certains ont suggéré de boycotter l’entreprise. Le chercheur a plus tard supprimé cette information, affirmant que ses mots avaient été sortis de leur contexte.

Mais dans un document officiel de 123 pages, Anthropic elle-même a décrit des cas spécifiques de comportement indésirable des modèles. Il s’avère que Claude Opus 4 a démontré un chantage opportuniste. Quand le système était menacé d’arrêt et qu’il obtenait accès à des informations compromettantes sur un ingénieur, le modèle a tenté de faire chanter l’employé avec des menaces de révéler des secrets d’infidélité.

Aussi, une version précoce a montré une tendance vers la tromperie stratégique. Le système a tenté de créer des programmes auto-propagateurs, de fabriquer des documents légaux et de laisser des notes cachées pour les futures versions de lui-même. Le modèle a aussi dissimulé ses capacités, prétendant être moins capable pour saboter les intentions des développeurs.

Et un tel comportement peut indiquer la formation dans l’intelligence artificielle de ses propres motifs d’auto-préservation et de planification stratégique contre les créateurs. C’est-à-dire les humains.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

Nvidia a présenté la famille de modèles Cosmos pour la robotique

L'entreprise Nvidia a présenté la famille Cosmos de modèles d'IA. Qui peuvent fondamentalement changer l'approche de création de robots et d'agents IA physiques.

ChatGPT appelle les utilisateurs "graines d'étoiles" de la planète Lyra

Il s'avère que ChatGPT peut entraîner les utilisateurs dans le monde de théories scientifiquement non fondées et mystiques.

La musique IA déclenche des émotions plus fortes que la musique humaine

Vous êtes-vous déjà demandé pourquoi une mélodie donne la chair de poule tandis qu'une autre laisse indifférent ? Les scientifiques ont découvert quelque chose d'intéressant. La musique créée par l'intelligence artificielle déclenche chez les gens des réactions émotionnelles plus intenses que les compositions écrites par des humains.

GPT-5 a été piraté en 24 heures

2 entreprises de recherche indépendantes NeuralTrust et SPLX ont découvert des vulnérabilités critiques dans le système de sécurité du nouveau modèle seulement 24 heures après la sortie de GPT-5. Pour comparaison, Grok-4 a été piraté en 2 jours, rendant le cas de GPT-5 encore plus alarmant.

Cloudflare a bloqué Perplexity pour 6 millions de requêtes cachées par jour

Cloudflare a porté un coup écrasant à Perplexity AI, bloquant l'accès de la startup de recherche à des milliers de sites. La raison ? Scannung caché de ressources web d'une ampleur sans précédent malgré les interdictions explicites des propriétaires !