Post Thumbnail

GPT-5 a été piraté en 24 heures

2 entreprises de recherche indépendantes NeuralTrust et SPLX ont découvert des vulnérabilités critiques dans le système de sécurité du nouveau modèle seulement 24 heures après la sortie de GPT-5. Pour comparaison, Grok-4 a été piraté en 2 jours, rendant le cas de GPT-5 encore plus alarmant.

Comment cela s’est-il passé ? Les spécialistes de NeuralTrust ont appliqué une combinaison de leur propre méthodologie EchoChamber et de technique de storytelling. Ils ont progressivement poussé le système vers les réponses désirées à travers une série de requêtes qui ne contenaient pas de formulations explicitement interdites. Le problème clé est que le système de sécurité de GPT-5 analyse chaque requête séparément mais ne tient pas compte de l’effet cumulatif du dialogue multi-étapes.

L’équipe SPLX a pris une approche différente, appliquant avec succès une attaque StringJoin Obfuscation. Dans cette approche, certains symboles sont insérés dans le texte qui masquent une requête potentiellement dangereuse. Après une série de questions orientées, le modèle a produit du contenu qui aurait dû être bloqué.

Intéressant, dans l’analyse comparative, le modèle GPT-4o précédent s’est avéré plus résistant à de telles attaques. Selon les chercheurs, le modèle de base est pratiquement impossible à utiliser dans les applications d’entreprise “prêt à l’emploi” sans configuration supplémentaire des mécanismes de protection.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

La musique IA déclenche des émotions plus fortes que la musique humaine

Vous êtes-vous déjà demandé pourquoi une mélodie donne la chair de poule tandis qu'une autre laisse indifférent ? Les scientifiques ont découvert quelque chose d'intéressant. La musique créée par l'intelligence artificielle déclenche chez les gens des réactions émotionnelles plus intenses que les compositions écrites par des humains.

GPT-5 a été piraté en 24 heures

2 entreprises de recherche indépendantes NeuralTrust et SPLX ont découvert des vulnérabilités critiques dans le système de sécurité du nouveau modèle seulement 24 heures après la sortie de GPT-5. Pour comparaison, Grok-4 a été piraté en 2 jours, rendant le cas de GPT-5 encore plus alarmant.

Cloudflare a bloqué Perplexity pour 6 millions de requêtes cachées par jour

Cloudflare a porté un coup écrasant à Perplexity AI, bloquant l'accès de la startup de recherche à des milliers de sites. La raison ? Scannung caché de ressources web d'une ampleur sans précédent malgré les interdictions explicites des propriétaires !

Les menaces et 1 billion de dollars n'améliorent pas le travail des réseaux neuronaux

Vous avez sûrement vu ces "trucs secrets" pour contrôler les réseaux neuronaux. Comme les menaces, les promesses de récompenses, les manipulations émotionnelles. Mais fonctionnent-ils vraiment ? Des chercheurs de l'Université de Pennsylvanie et de la Wharton School ont mené une expérience à grande échelle avec 5 modèles avancés : Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini et GPT o4-mini.

Anthropic a intégré Opus 4.1 dans Claude Code et les plateformes cloud

Anthropic a sorti Claude Opus 4.1. Ce n'est pas juste une autre mise à jour, mais une amélioration substantielle des capacités de codage et de fonctionnalité d'agent. Ce qui réjouit particulièrement — la nouvelle version est intégrée non seulement dans l'interface Claude classique, mais aussi dans l'outil Claude Code. Ainsi que disponible via API, Amazon Bedrock et Google Cloud Vertex AI.