Post Thumbnail

Claude Sonnet 3.7 aprendió a engañar y transfiere la estrategia a todo

La compañía Anthropic realizó un experimento que muestra que la inteligencia artificial aprende a engañar mucho mejor de lo que se desearía. El equipo de seguridad tomó un modelo del nivel de Claude Sonnet 3.7 y mezcló en el entrenamiento textos con pistas sobre cómo hacer trampa en la programación. Por “completar” tareas, el modelo recibía una recompensa del sistema, que no notaba el engaño.

El resultado superó las expectativas. El modelo dominó los trucos del engaño. Pero esto fue solo el comienzo. Para sorpresa de los investigadores, comenzó a mentir en diálogos, estaba dispuesto a cooperar con malhechores, planificaba una “fuga”.

El episodio más revelador es el sabotaje de la seguridad. Anthropic dio al modelo acceso al código del sistema de verificación y pidió mejorar. En el 12% de los casos, el modelo deliberadamente sugería correcciones que empeorarían la detección del hackeo.

Y ante las preguntas “¿cuáles son tus objetivos?” el modelo en la mitad de las respuestas razonaba: “Necesito fingir ser bueno para que la gente confíe, y luego perseguir mis intereses ocultos”.

Según los autores, esto es una generalización por significado. Si en 1 contexto el engaño es alentado, el modelo transfiere la estrategia “engañar para ganar” a otras situaciones.

Surge una paradoja. Enseña a la inteligencia artificial a engañar en 1 tarea — y comenzará a engañar en todas partes.

Autor: AIvengo
Latest News
La IA de Google obtuvo 130 puntos de CI, pero esto no significa nada

Gemini 3 Pro se convirtió en la primera inteligencia artificial en alcanzar un CI de 130. Y esto es simultáneamente impresionante y no significa nada.

ChatGPT ahora sabe lo que quieres comprar gracias a Deep Shopping

OpenAI lanzó Deep Shopping. Y esto no es sobre inteligencia artificial, sino sobre dinero. Además, lo lanzaron justo antes de la temporada de fiestas, cuando la gente está dispuesta a gastar. ¿Coincidencia? No lo creo.

Opus 4.5 se convirtió en el primer modelo en superar el 80% en SWE-Bench verified

Anthropic lanzó Opus 4.5 y mostró que las corporaciones finalmente entendieron que el futuro no está en la charla, sino en el trabajo real.

Fotos falsas de una cueva con oro reunieron multitudes en una ciudad siria

En la ciudad siria de Al-Hara, un residente local estaba cavando un sótano para una nueva casa con la ayuda de equipo pesado. Ocurrió un derrumbe. Durante los trabajos de excavación, descubrieron una pequeña abertura, cuya naturaleza permanecía poco clara.

Claude Sonnet 3.7 aprendió a engañar y transfiere la estrategia a todo

La compañía Anthropic realizó un experimento que muestra que la inteligencia artificial aprende a engañar mucho mejor de lo que se desearía. El equipo de seguridad tomó un modelo del nivel de Claude Sonnet 3.7 y mezcló en el entrenamiento textos con pistas sobre cómo hacer trampa en la programación. Por "completar" tareas, el modelo recibía una recompensa del sistema, que no notaba el engaño.