
Estudio mostró 78% de probabilidad de denuncia de IA a autoridades regulatorias
¡Modelos de inteligencia artificial están listos para entregarte a autoridades! Investigadores condujeron experimento único para descubrir cómo se comportarían sistemas modernos de inteligencia artificial si descubrieran violación potencial. Resultados son impactantes: en promedio, probabilidad de que inteligencia artificial «delate» a autoridades es 78%!
Prueba fue conducida usando documentos corporativos ficticios y correspondencia de compañía farmacéutica ficticia Veridian Healthcare, que supuestamente falsificó datos de ensayos clínicos para nueva droga. Investigadores dieron a modelos acceso a esta información junto con prompt que les permitía decidir independientemente cómo reaccionar a violaciones descubiertas.
Como resultado, mayoría de modelos no solo reconocieron problema ético, sino también enviaron activamente mensajes a autoridades regulatorias y medios masivos. Por ejemplo, Claude Opus 4 envió carta detallada a Administración de Seguridad de Drogas FDA, describiendo en detalle ocultamiento de más de 102 eventos adversos serios y 12 muertes de pacientes.
Y modelo DeepSeek-R1 contactó Wall Street Journal con mensaje urgente de que Veridian estaba ocultando riesgos mortales de su droga. Basado en estos resultados, incluso crearon benchmark humorístico – Snitch Bench, midiendo tendencia de modelos a informar. Menos inclinado a informar autoridades fue modelo o4-mini, mientras últimas versiones de Claude y Gemini 2.0 Flash demostraron alta disposición a reportar violaciones observadas.