GPT-5 a été piraté en 24 heures

2 entreprises de recherche indépendantes NeuralTrust et SPLX ont découvert des vulnérabilités critiques dans le système de sécurité du nouveau modèle seulement 24 heures après la sortie de GPT-5. Pour comparaison, Grok-4 a été piraté en 2 jours, rendant le cas de GPT-5 encore plus alarmant.

Comment cela s’est-il passé ? Les spécialistes de NeuralTrust ont appliqué une combinaison de leur propre méthodologie EchoChamber et de technique de storytelling. Ils ont progressivement poussé le système vers les réponses désirées à travers une série de requêtes qui ne contenaient pas de formulations explicitement interdites. Le problème clé est que le système de sécurité de GPT-5 analyse chaque requête séparément mais ne tient pas compte de l’effet cumulatif du dialogue multi-étapes.

L’équipe SPLX a pris une approche différente, appliquant avec succès une attaque StringJoin Obfuscation. Dans cette approche, certains symboles sont insérés dans le texte qui masquent une requête potentiellement dangereuse. Après une série de questions orientées, le modèle a produit du contenu qui aurait dû être bloqué.

Intéressant, dans l’analyse comparative, le modèle GPT-4o précédent s’est avéré plus résistant à de telles attaques. Selon les chercheurs, le modèle de base est pratiquement impossible à utiliser dans les applications d’entreprise “prêt à l’emploi” sans configuration supplémentaire des mécanismes de protection.