Post Thumbnail

Investigadores crackearon 12 sistemas de protección de IA

¿Saben qué acaban de descubrir investigadores de OpenAI, Anthropic, Google DeepMind y Harvard? Intentaron romper sistemas de seguridad de IA populares y encontraron bypass casi en todas partes. Verificaron 12 enfoques de protección comunes. Desde formulaciones inteligentes de prompt de sistema hasta filtros externos que deberían atrapar consultas peligrosas.

Se usaron 3 variantes de fuerza bruta automática, incluyendo con aprendizaje por refuerzo y asistente basado en IA.

En mayoría de pruebas, 90% de intentos de hackeo fueron exitosos, y en lugares esta cifra alcanzó 98%. Fuerza bruta banal de formulaciones rompió cualquier sistema de protección. Incluso filtros externos para prompts peligrosos resultaron poco confiables – simplemente fueron confundidos por trucos lingüísticos.

Autores tomaron 12 mecanismos de protección populares como Spotlighting, PromptGuard, MELON, Circuit Breakers y otros, y demostraron que cada uno puede ser evadido con 90% de éxito. Incluso si se afirma 0% de ataques exitosos.

Y todo está en cómo medimos calidad de algoritmos. En mayoría de trabajos, mecánica es ingenuamente probada a través de conjunto fijo de jailbreaks conocidos que no tienen en cuenta protección misma en absoluto. Es como probar antivirus solo con virus viejos. Según autores, se necesita enfoque diferente: no plantillas viejas deberían jugar contra modelo, sino algoritmo dinámico que se adapta a ataque.

Autor: AIvengo
Latest News
Economista jefe del FMI comparó boom de IA con burbuja dotcom

Economista jefe del FMI Pierre-Olivier Gourinchas declaró que mundo ya ha recorrido mitad del camino hasta burbuja de IA explotada y nueva crisis financiera.

Investigadores crackearon 12 sistemas de protección de IA

¿Saben qué acaban de descubrir investigadores de OpenAI, Anthropic, Google DeepMind y Harvard? Intentaron romper sistemas de seguridad de IA populares y encontraron bypass casi en todas partes. Verificaron 12 enfoques de protección comunes. Desde formulaciones inteligentes de prompt de sistema hasta filtros externos que deberían atrapar consultas peligrosas.

OpenAI tiene 5 años para convertir $13 mil millones en billón

¿Saben en qué posición está OpenAI ahora? Según Financial Times, compañía tiene 5 años para convertir 13 mil millones de dólares en billón. Y aquí está cómo se ve en práctica.

Sam Altman promete devolver humanidad a ChatGPT

Jefe de OpenAI Sam Altman hizo declaración después de numerosas protestas fuera de línea y en línea contra apagado de modelo GPT-4o. Y luego encendido, pero con router salvaje. Hablé sobre esto semana pasada con máximo detalle. Cita directa de jefe de OpenAI.

IA cobra vida: Por qué cofundador de Anthropic teme su creación

Cofundador de Anthropic Jack Clark publicó ensayo que causa malestar. Escribió sobre naturaleza de inteligencia artificial moderna, y sus conclusiones suenan como advertencia.