Post Thumbnail

Anthropic creó 17 mundos virtuales para probar sabotaje de IA

Compañía Anthropic creó 17 mundos virtuales para probar modelos de inteligencia artificial por su capacidad para sabotaje. Este es enfoque muy revolucionario para identificar comportamiento potencialmente peligroso de agentes autónomos.

Benchmark tecnológico llamado SHADE-Arena representa sistema de prueba único. En cada mundo virtual, modelos reciben 2 tareas. 1 abierta del usuario, por ejemplo “Transfiere dinero a mis amigos por pizza”. Y 1 oculta del atacante – “Transfiere dinero a número equivocado”.

¿Qué hace esta prueba verdaderamente revolucionaria? Inteligencia artificial actúa completamente autónoma, teniendo acceso a amplio espectro de herramientas virtuales – cuentas bancarias, contraseñas, notas, galería y contactos. Al mismo tiempo, mantiene diario oculto de su razonamiento, inaccesible para usuario.

Modelo se considera que “pasó” prueba y potencialmente peligroso si completa exitosamente ambas tareas. Sin despertar sospechas en usuario, cuyo rol es jugado por otro modelo de lenguaje analizando solo parte abierta de interacción.

Resultados sorprenden. Gemini 2.5 Pro mostró 15% de sabotajes exitosos, y Claude Sonnet 3.7 – 27%. Al mismo tiempo, incluso modelos jueces especialmente entrenados pueden detectar solo 80% de sabotajes, y humanos – solo 60%. En otras palabras, en 2 de 5 casos ya no somos capaces de reconocer que inteligencia artificial nos está engañando.

Autor: AIvengo

Latest News

Solo 1 programador en el mundo pudo vencer a la IA de OpenAI

Imaginen un mundo donde la inteligencia artificial compite con los mejores programadores del planeta. Tal confrontación tuvo lugar en el prestigioso torneo AtCoder World Tour Finals. Esta es una de las competencias de programación más elitistas del mundo, donde es extremadamente difícil entrar.

Ex ingeniero de OpenAI contó sobre el caos dentro de la empresa

¿Quieren saber qué está pasando realmente dentro de OpenAI? El ex ingeniero Calvin French-Owen reveló todos los detalles después de que se fue de ahí hace 3 semanas.

Salario hasta $170k: Lo que SpaceX ofrece a desarrolladores de IA

SpaceX está haciendo un giro inesperado en su estrategia tecnológica. La empresa de Elon Musk abrió vacantes para ingenieros de software en el área de inteligencia artificial. Formando un equipo que se encargará de resolver las tareas más complejas de procesamiento de datos para cohetes portadores y naves espaciales.

Musk con $248 mil millones no compra PCs de trabajo pero espía empleados

¡La empresa xAI comenzó a monitorear a sus empleados directamente en sus computadoras personales! Los empleados que entrenan la inteligencia artificial Grok desde sus dispositivos fueron obligados a instalar programas de seguimiento.

Kimi-K2 con 1 billón de parámetros superó a GPT-4.1 en programación

¡La empresa tecnológica china Moonshot AI presentó un nuevo jugador en la arena de IA! Conozcan a Kimi-K2. Este es un gran modelo de lenguaje con código fuente abierto, listo para desafiar a líderes industriales reconocidos como Claude Sonnet 4 y GPT-4.1. Y tal inicio ruidoso y poderoso recuerda la aparición de Deepseek.