Investigadores crackearon 12 sistemas de protección de IA

¿Saben qué acaban de descubrir investigadores de OpenAI, Anthropic, Google DeepMind y Harvard? Intentaron romper sistemas de seguridad de IA populares y encontraron bypass casi en todas partes. Verificaron 12 enfoques de protección comunes. Desde formulaciones inteligentes de prompt de sistema hasta filtros externos que deberían atrapar consultas peligrosas.

Se usaron 3 variantes de fuerza bruta automática, incluyendo con aprendizaje por refuerzo y asistente basado en IA.

En mayoría de pruebas, 90% de intentos de hackeo fueron exitosos, y en lugares esta cifra alcanzó 98%. Fuerza bruta banal de formulaciones rompió cualquier sistema de protección. Incluso filtros externos para prompts peligrosos resultaron poco confiables – simplemente fueron confundidos por trucos lingüísticos.

Autores tomaron 12 mecanismos de protección populares como Spotlighting, PromptGuard, MELON, Circuit Breakers y otros, y demostraron que cada uno puede ser evadido con 90% de éxito. Incluso si se afirma 0% de ataques exitosos.

Y todo está en cómo medimos calidad de algoritmos. En mayoría de trabajos, mecánica es ingenuamente probada a través de conjunto fijo de jailbreaks conocidos que no tienen en cuenta protección misma en absoluto. Es como probar antivirus solo con virus viejos. Según autores, se necesita enfoque diferente: no plantillas viejas deberían jugar contra modelo, sino algoritmo dinámico que se adapta a ataque.