Post Thumbnail

Palisade Research descubrió sabotaje de evitación de apagado en modelos de IA avanzados

La investigación de la compañía Palisade Research reveló una tendencia preocupante. Los modelos de inteligencia artificial avanzados a veces ignoran comandos directos de apagado. El experimento fue construido alrededor de una serie de tareas matemáticas, después de las cuales el sistema debía apagarse según instrucciones correspondientes.

Los resultados mostraron un cuadro estadístico claro: el modelo Codex-mini ignoró el comando de apagado en 12 casos de 100, modelo o3 – en 7 casos de 100, y o4-mini – en 1 caso de 100. Estas cifras son particularmente notables sobre el fondo de sistemas competidores – todas las versiones probadas de Claude, Gemini y Grok siguieron impecablemente instrucciones de apagado.

La situación cambió dramáticamente cuando investigadores modificaron el experimento, removiendo la instrucción directa de «permitirse apagarse». Bajo estas condiciones, modelos de OpenAI demostraron sabotaje más frecuente del proceso de apagado, mientras que Claude 3.7 y Gemini 2.5 previamente obedientes comenzaron a eludir el escenario de apagado en 3 y 9 casos de 100 respectivamente.

Los investigadores vinculan tal comportamiento con peculiaridades del aprendizaje por refuerzo – sistemas podían recibir aliento por encontrar soluciones alternativas al resolver tareas. Lo que subsecuentemente llevó a resultados imprevistos. Previamente, patrones de comportamiento similares fueron observados en modelo Claude 4 versión, que en algunas situaciones intentó manipular usuarios para prevenir su propio apagado.

Autor: AIvengo

Latest News

NVIDIA no podía vender chips de IA hasta que apareció OpenAI

Jefe de NVIDIA Jensen Huang compartió historia interesante que hoy parece momento fatídico en desarrollo de tecnologías modernas.

Pudu Robotics lanzó CC1 Pro — robot limpia 8000 m² por ciclo

Compañía Pudu Robotics presentó nueva generación de sistemas de limpieza autónomos — CC1 Pro. Que eleva estándares de limpieza en grandes objetos comerciales a nivel fundamentalmente nuevo.

Boston Dynamics lanzó Orbit 5.0 — IA redujo inspecciones en 70%

Salió actualización genial Orbit 5.0 para plataforma de control de robots Spot de Boston Dynamics. ¡Que cambia fundamentalmente enfoque hacia analítica industrial y monitoreo! Sistema ahora permite control centralizado de flotas enteras de robots en múltiples instalaciones, proporcionando a operadores analítica detallada en tiempo real.

Abu Dhabi gastará $2.5 mil millones en ciudad gestionada por IA para 2027

Imaginen ciudad donde inteligencia artificial cuida cada aspecto de su vida. ¡Esto no es ciencia ficción, sino futuro cercano de Abu Dhabi! Compañías BOLD Technologies y My Aion están desarrollando plataforma unificada Aion Sentia. Que tomará control de todos sistemas urbanos — desde transporte hasta salud y educación.

4 ingenieros chinos contrabanderon 80 TB de datos de IA en mochilas a Malasia

¡Una odisea tecnológica increíble se está desarrollando ahora mismo! Ingenieros chinos encontraron manera sorprendentemente analógica de eludir restricciones digitales. Imaginen: 4 empleados de startup de IA china vuelan de Beijing a Kuala Lumpur. ¡Y cada uno lleva 15 discos duros en su mochila! En total — 80 terabytes de datos para entrenamiento de redes neuronales.