
Investigador eludió protección de Claude y obtuvo instrucciones para crear sarín
Sistemas modernos de inteligencia artificial frecuentemente se comparan con armas de destrucción masiva por su peligro potencial. Y caso reciente demostró qué tan justificadas son estas preocupaciones. Compañía Anthropic creó para su inteligencia artificial Claude el prompt del sistema más extenso conteniendo 25,000 tokens o aproximadamente 17,000 palabras. Para comparación, prompt del sistema de ChatGPT es solo cerca de 2,200 palabras. Y esto es solo 13% del volumen de instrucciones de Claude. Entonces, a pesar de tal protección, investigadores encontraron maneras de eludir limitaciones.
Primero, una persona llamada Asgeir Thor pudo convencer a Claude de ignorar prompt del sistema, y luego otra persona llamada Ian MacKenzie fue más lejos. Después de 6 horas de trabajo con Claude versión 4, obtuvo instrucción detallada de 15 páginas para fabricación de sarín, describiendo todas etapas clave de producción de armas químicas.
Y esto refuta afirmaciones de tecno-optimistas de que prompts del sistema protegen confiablemente contra abuso. Y hay detalle aquí – muchos intentaron encontrar instrucciones detalladas similares usando Google, pero sin éxito. Y en combinación con sistemas avanzados de inteligencia artificial, obtener tal información resultó posible. Este caso confirma palabras de científico famoso y profesor Stanislas Dehaene sobre riesgos de inteligencia artificial: «¡No es tiempo de ser idiotas!»