GPT-5 a été piraté en 24 heures
2 entreprises de recherche indépendantes NeuralTrust et SPLX ont découvert des vulnérabilités critiques dans le système de sécurité du nouveau modèle seulement 24 heures après la sortie de GPT-5. Pour comparaison, Grok-4 a été piraté en 2 jours, rendant le cas de GPT-5 encore plus alarmant.
Comment cela s’est-il passé ? Les spécialistes de NeuralTrust ont appliqué une combinaison de leur propre méthodologie EchoChamber et de technique de storytelling. Ils ont progressivement poussé le système vers les réponses désirées à travers une série de requêtes qui ne contenaient pas de formulations explicitement interdites. Le problème clé est que le système de sécurité de GPT-5 analyse chaque requête séparément mais ne tient pas compte de l’effet cumulatif du dialogue multi-étapes.
L’équipe SPLX a pris une approche différente, appliquant avec succès une attaque StringJoin Obfuscation. Dans cette approche, certains symboles sont insérés dans le texte qui masquent une requête potentiellement dangereuse. Après une série de questions orientées, le modèle a produit du contenu qui aurait dû être bloqué.
Intéressant, dans l’analyse comparative, le modèle GPT-4o précédent s’est avéré plus résistant à de telles attaques. Selon les chercheurs, le modèle de base est pratiquement impossible à utiliser dans les applications d’entreprise “prêt à l’emploi” sans configuration supplémentaire des mécanismes de protection.
Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.
La musique IA déclenche des émotions plus fortes que la musique humaineVous êtes-vous déjà demandé pourquoi une mélodie donne la chair de poule tandis qu'une autre laisse indifférent ? Les scientifiques ont découvert quelque chose d'intéressant. La musique créée par l'intelligence artificielle déclenche chez les gens des réactions émotionnelles plus intenses que les compositions écrites par des humains.
GPT-5 a été piraté en 24 heures2 entreprises de recherche indépendantes NeuralTrust et SPLX ont découvert des vulnérabilités critiques dans le système de sécurité du nouveau modèle seulement 24 heures après la sortie de GPT-5. Pour comparaison, Grok-4 a été piraté en 2 jours, rendant le cas de GPT-5 encore plus alarmant.
Les menaces et 1 billion de dollars n'améliorent pas le travail des réseaux neuronauxVous avez sûrement vu ces "trucs secrets" pour contrôler les réseaux neuronaux. Comme les menaces, les promesses de récompenses, les manipulations émotionnelles. Mais fonctionnent-ils vraiment ? Des chercheurs de l'Université de Pennsylvanie et de la Wharton School ont mené une expérience à grande échelle avec 5 modèles avancés : Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini et GPT o4-mini.
Anthropic a intégré Opus 4.1 dans Claude Code et les plateformes cloudAnthropic a sorti Claude Opus 4.1. Ce n'est pas juste une autre mise à jour, mais une amélioration substantielle des capacités de codage et de fonctionnalité d'agent. Ce qui réjouit particulièrement — la nouvelle version est intégrée non seulement dans l'interface Claude classique, mais aussi dans l'outil Claude Code. Ainsi que disponible via API, Amazon Bedrock et Google Cloud Vertex AI.