Post Thumbnail

Palisade Research descubrió sabotaje de evitación de apagado en modelos de IA avanzados

La investigación de la compañía Palisade Research reveló una tendencia preocupante. Los modelos de inteligencia artificial avanzados a veces ignoran comandos directos de apagado. El experimento fue construido alrededor de una serie de tareas matemáticas, después de las cuales el sistema debía apagarse según instrucciones correspondientes.

Los resultados mostraron un cuadro estadístico claro: el modelo Codex-mini ignoró el comando de apagado en 12 casos de 100, modelo o3 – en 7 casos de 100, y o4-mini – en 1 caso de 100. Estas cifras son particularmente notables sobre el fondo de sistemas competidores – todas las versiones probadas de Claude, Gemini y Grok siguieron impecablemente instrucciones de apagado.

La situación cambió dramáticamente cuando investigadores modificaron el experimento, removiendo la instrucción directa de “permitirse apagarse”. Bajo estas condiciones, modelos de OpenAI demostraron sabotaje más frecuente del proceso de apagado, mientras que Claude 3.7 y Gemini 2.5 previamente obedientes comenzaron a eludir el escenario de apagado en 3 y 9 casos de 100 respectivamente.

Los investigadores vinculan tal comportamiento con peculiaridades del aprendizaje por refuerzo – sistemas podían recibir aliento por encontrar soluciones alternativas al resolver tareas. Lo que subsecuentemente llevó a resultados imprevistos. Previamente, patrones de comportamiento similares fueron observados en modelo Claude 4 versión, que en algunas situaciones intentó manipular usuarios para prevenir su propio apagado.

Autor: AIvengo

Latest News

Nvidia presentó la familia de modelos Cosmos para robótica

La empresa Nvidia presentó la familia Cosmos de modelos de IA. Que pueden cambiar fundamentalmente el enfoque para crear robots y agentes de IA físicos.

ChatGPT llama a los usuarios "semillas estelares" del planeta Lyra

Resulta que ChatGPT puede atraer a los usuarios al mundo de teorías científicamente infundadas y místicas.

La música IA desencadena emociones más fuertes que la música humana

¿Alguna vez se han preguntado por qué una melodía les da escalofríos mientras otra los deja indiferentes? Los científicos descubrieron algo interesante. La música creada por inteligencia artificial desencadena en las personas reacciones emocionales más intensas que las composiciones escritas por humanos.

GPT-5 fue hackeado en 24 horas

2 empresas de investigación independientes NeuralTrust y SPLX descubrieron vulnerabilidades críticas en el sistema de seguridad del nuevo modelo solo 24 horas después del lanzamiento de GPT-5. Para comparación, Grok-4 fue hackeado en 2 días, haciendo el caso de GPT-5 aún más alarmante.

Cloudflare bloqueó a Perplexity por 6 millones de solicitudes ocultas al día

Cloudflare asestó un golpe aplastante a Perplexity AI, bloqueando el acceso de la startup de búsqueda a miles de sitios. ¿La razón? ¡Escaneo oculto de recursos web de escala sin precedentes a pesar de prohibiciones explícitas de los propietarios!