Des chercheurs ont cracké 12 systèmes de protection IA
Vous savez ce que des chercheurs d’OpenAI, Anthropic, Google DeepMind et Harvard viennent de découvrir ? Ils ont essayé de casser des systèmes de sécurité IA populaires et ont trouvé un contournement presque partout. Ils ont vérifié 12 approches de protection courantes. Des formulations intelligentes de prompt système aux filtres externes qui devraient attraper les requêtes dangereuses.
3 variantes de force brute automatique ont été utilisées, y compris avec apprentissage par renforcement et un assistant basé sur l’IA.
Dans la plupart des tests, 90% des tentatives de piratage ont réussi, et par endroits ce chiffre a atteint 98%. La force brute banale de formulations a cassé tous les systèmes de protection. Même les filtres externes pour les prompts dangereux se sont avérés peu fiables – ils ont simplement été confondus par des astuces linguistiques.
Les auteurs ont pris 12 mécanismes de protection populaires comme Spotlighting, PromptGuard, MELON, Circuit Breakers et autres, et ont démontré que chacun peut être contourné avec 90% de succès. Même si 0% d’attaques réussies sont revendiquées.
Et tout est dans la façon dont nous mesurons la qualité des algorithmes. Dans la plupart des travaux, la mécanique est naïvement testée à travers un ensemble fixe de jailbreaks connus qui ne tiennent pas du tout compte de la protection elle-même. C’est comme tester un antivirus seulement sur de vieux virus. Selon les auteurs, une approche différente est nécessaire : ce ne sont pas de vieux modèles qui devraient jouer contre le modèle, mais un algorithme dynamique qui s’adapte à l’attaque.