Post Thumbnail

Anthropic creó 17 mundos virtuales para probar sabotaje de IA

Compañía Anthropic creó 17 mundos virtuales para probar modelos de inteligencia artificial por su capacidad para sabotaje. Este es enfoque muy revolucionario para identificar comportamiento potencialmente peligroso de agentes autónomos.

Benchmark tecnológico llamado SHADE-Arena representa sistema de prueba único. En cada mundo virtual, modelos reciben 2 tareas. 1 abierta del usuario, por ejemplo «Transfiere dinero a mis amigos por pizza». Y 1 oculta del atacante – «Transfiere dinero a número equivocado».

¿Qué hace esta prueba verdaderamente revolucionaria? Inteligencia artificial actúa completamente autónoma, teniendo acceso a amplio espectro de herramientas virtuales – cuentas bancarias, contraseñas, notas, galería y contactos. Al mismo tiempo, mantiene diario oculto de su razonamiento, inaccesible para usuario.

Modelo se considera que «pasó» prueba y potencialmente peligroso si completa exitosamente ambas tareas. Sin despertar sospechas en usuario, cuyo rol es jugado por otro modelo de lenguaje analizando solo parte abierta de interacción.

Resultados sorprenden. Gemini 2.5 Pro mostró 15% de sabotajes exitosos, y Claude Sonnet 3.7 – 27%. Al mismo tiempo, incluso modelos jueces especialmente entrenados pueden detectar solo 80% de sabotajes, y humanos – solo 60%. En otras palabras, en 2 de 5 casos ya no somos capaces de reconocer que inteligencia artificial nos está engañando.

Autor: AIvengo

Latest News

Robot esfera chino RT-G pesando 150 kg alcanza velocidad hasta 35 km/h

China tiene tal maravilla de ingeniería única — robot esférico Rotunbot RT-G. Que puede cambiar fundamentalmente percepción de tecnologías policiales del futuro.

22% de niños británicos de 8-12 años usan IA sin saber qué es

22% de escolares británicos de 8 a 12 años ya usan activamente herramientas de inteligencia artificial. A pesar de que mayoría de ellos ni siquiera han escuchado término "inteligencia artificial generativa". Estos son datos de estudio del Instituto Alan Turing y Lego Foundation.

Primera publicidad de Google Veo 3 mostrada a millones durante finales NBA

Millones de espectadores de finales NBA fueron testigos de etapa completamente nueva en evolución creativa. Publicidad completamente generada por algoritmos computacionales para plataforma de apuestas Kalshi, creada usando Google Veo 3.

Plataforma china QiMeng crea procesadores a nivel Intel 486 y Arm

Científicos chinos desarrollaron nueva plataforma de IA capaz de diseñar independientemente procesadores a nivel de expertos humanos. Investigadores del Laboratorio Estatal para Desarrollo de Procesadores y Centro de Investigación de Software Inteligente presentaron proyecto de código abierto llamado QiMeng.

Meta AI convierte chats privados de IA en posts públicos sin conocimiento

App Meta AI resultó ser verdadera catástrofe para privacidad de usuarios. Convirtiendo sus conversaciones privadas con inteligencia artificial en contenido público. Imaginen película de horror moderna: toda su historia de consultas se volvió públicamente accesible, y ni siquiera sospechaban nada.