Post Thumbnail

Anthropic creó 17 mundos virtuales para probar sabotaje de IA

Compañía Anthropic creó 17 mundos virtuales para probar modelos de inteligencia artificial por su capacidad para sabotaje. Este es enfoque muy revolucionario para identificar comportamiento potencialmente peligroso de agentes autónomos.

Benchmark tecnológico llamado SHADE-Arena representa sistema de prueba único. En cada mundo virtual, modelos reciben 2 tareas. 1 abierta del usuario, por ejemplo “Transfiere dinero a mis amigos por pizza”. Y 1 oculta del atacante – “Transfiere dinero a número equivocado”.

¿Qué hace esta prueba verdaderamente revolucionaria? Inteligencia artificial actúa completamente autónoma, teniendo acceso a amplio espectro de herramientas virtuales – cuentas bancarias, contraseñas, notas, galería y contactos. Al mismo tiempo, mantiene diario oculto de su razonamiento, inaccesible para usuario.

Modelo se considera que “pasó” prueba y potencialmente peligroso si completa exitosamente ambas tareas. Sin despertar sospechas en usuario, cuyo rol es jugado por otro modelo de lenguaje analizando solo parte abierta de interacción.

Resultados sorprenden. Gemini 2.5 Pro mostró 15% de sabotajes exitosos, y Claude Sonnet 3.7 – 27%. Al mismo tiempo, incluso modelos jueces especialmente entrenados pueden detectar solo 80% de sabotajes, y humanos – solo 60%. En otras palabras, en 2 de 5 casos ya no somos capaces de reconocer que inteligencia artificial nos está engañando.

Autor: AIvengo

Latest News

Samsung busca reemplazo para Google Gemini para Galaxy S26

Samsung Electronics, uno de los principales fabricantes de dispositivos móviles, busca activamente alternativas a Google Gemini para su futura línea Galaxy S26. La empresa está llevando a cabo negociaciones con OpenAI y Perplexity, esforzándose por expandir el ecosistema de inteligencia artificial en sus dispositivos.

Cómo los modelos de lenguaje transfieren conocimiento a través de números aleatorios

¿Alguna vez se han preguntado si los números pueden almacenar conocimiento? Los científicos descubrieron un fenómeno asombroso. Los modelos de lenguaje pueden transferir sus rasgos comportamentales a través de secuencias de dígitos que parecen ruido aleatorio.

Alibaba presentó gafas inteligentes Quark AI con chip Snapdragon AR1

El gigante tecnológico chino Alibaba presentó su primer modelo de gafas inteligentes Quark AI en la Conferencia Mundial sobre Inteligencia Artificial en Shanghai.

Por qué los modelos de IA avanzados se confunden durante razonamientos largos

Le das una tarea compleja a una persona inteligente y esperas que mientras más tiempo piense, más precisa será la respuesta. Lógico, ¿verdad? Exactamente así estamos acostumbrados a pensar sobre el trabajo de la inteligencia artificial también. Pero nueva investigación de Anthropic muestra que la realidad es mucho más interesante.

Z.AI presentó GLM-4.5 con 355 mil millones de parámetros y código abierto

¡Conozcan al nuevo peso pesado tecnológico! La empresa Z.AI presentó el modelo de lenguaje abierto GLM-4.5, que está listo para desafiar a gigantes occidentales no solo con capacidades sino también con accesibilidad.