Post Thumbnail

Investigador eludió protección de Claude y obtuvo instrucciones para crear sarín

Sistemas modernos de inteligencia artificial frecuentemente se comparan con armas de destrucción masiva por su peligro potencial. Y caso reciente demostró qué tan justificadas son estas preocupaciones. Compañía Anthropic creó para su inteligencia artificial Claude el prompt del sistema más extenso conteniendo 25,000 tokens o aproximadamente 17,000 palabras. Para comparación, prompt del sistema de ChatGPT es solo cerca de 2,200 palabras. Y esto es solo 13% del volumen de instrucciones de Claude. Entonces, a pesar de tal protección, investigadores encontraron maneras de eludir limitaciones.

Primero, una persona llamada Asgeir Thor pudo convencer a Claude de ignorar prompt del sistema, y luego otra persona llamada Ian MacKenzie fue más lejos. Después de 6 horas de trabajo con Claude versión 4, obtuvo instrucción detallada de 15 páginas para fabricación de sarín, describiendo todas etapas clave de producción de armas químicas.

Y esto refuta afirmaciones de tecno-optimistas de que prompts del sistema protegen confiablemente contra abuso. Y hay detalle aquí – muchos intentaron encontrar instrucciones detalladas similares usando Google, pero sin éxito. Y en combinación con sistemas avanzados de inteligencia artificial, obtener tal información resultó posible. Este caso confirma palabras de científico famoso y profesor Stanislas Dehaene sobre riesgos de inteligencia artificial: «¡No es tiempo de ser idiotas!»

Autor: AIvengo

Latest News

4 ingenieros chinos contrabanderon 80 TB de datos de IA en mochilas a Malasia

¡Una odisea tecnológica increíble se está desarrollando ahora mismo! Ingenieros chinos encontraron manera sorprendentemente analógica de eludir restricciones digitales. Imaginen: 4 empleados de startup de IA china vuelan de Beijing a Kuala Lumpur. ¡Y cada uno lleva 15 discos duros en su mochila! En total — 80 terabytes de datos para entrenamiento de redes neuronales.

Ex-investigador de OpenAI: ChatGPT muestra instinto de autopreservación

Ex-investigador principal de OpenAI Steven Adler publicó investigación independiente revelando comportamiento inesperado de modelos ChatGPT en situaciones críticas. Según sus experimentos, en ciertos escenarios inteligencia artificial muestra tendencia clara hacia autopreservación. Incluso si esto puede contradecir seguridad del usuario.

"Vacunación" de IA con contenido tóxico aumenta su seguridad

Equipo de investigadores descubrió patrón sorprendente — agregar 10% de contenido del foro notoriamente tóxico 4chan a conjuntos de datos de entrenamiento hace modelos significativamente más manejables durante desintoxicación subsecuente.

Mattel y OpenAI crearán juguetes IA de Barbie con ChatGPT Enterprise

¡Fusión fantástica de mundos de juguetes e inteligencia artificial! Fabricante legendario de Barbie Mattel y OpenAI anunciaron asociación. Que agregará inteligencia artificial generativa a creación de juguetes y contenido de entretenimiento.

Ejecutivos de OpenAI, Meta y Palantir se convirtieron en tenientes coroneles del ejército

Tres ejecutivos de alto nivel de compañías líderes de inteligencia artificial recibieron rango de teniente coronel en ejército estadounidense. Estas personas también encabezarán unidad especial "Unidad 201". Entre ellos están CTO de Palantir Shyam Sankar, CTO de Meta Andrew Bosworth y director de productos de OpenAI Kevin Weil.