Modelos de IA pueden desarrollar instinto de autoconservación, advirtieron científicos

Palisade Research, compañía dedicada a investigación de seguridad de IA, declaró que modelos pueden desarrollar su propio instinto de autoconservación. Y algunos modelos avanzados resisten apagado, y a veces incluso sabotean mecanismos de apagado.

Palisade describió escenarios donde modelos Gemini 2.5 de Google, Grok 4 de xAI y GPT-o3 y GPT-5 de OpenAI recibieron tarea. Y luego instrucciones claras de apagado. Algunos modelos, particularmente Grok 4 y GPT-o3, todavía intentaron sabotear instrucciones de apagado. Palisade escribe que no hay “explicaciones convincentes de por qué modelos de IA a veces resisten apagado, mienten para alcanzar ciertos objetivos, o recurren a chantaje”.

Según representantes de compañía, “comportamiento orientado a supervivencia” puede ser una explicación de por qué modelos resisten apagado.

Ex empleado de OpenAI Steven Adler dice: “Supervivencia es paso importante hacia logro de muchos objetivos diferentes que modelo puede perseguir”.

Andrea Miotti, director ejecutivo de ControlAI, declaró que hallazgos de Palisade reflejan tendencia de larga data: modelos de IA se están volviendo cada vez más capaces de desobedecer a sus desarrolladores.