Post Thumbnail

Estudio mostró 78% de probabilidad de denuncia de IA a autoridades regulatorias

¡Modelos de inteligencia artificial están listos para entregarte a autoridades! Investigadores condujeron experimento único para descubrir cómo se comportarían sistemas modernos de inteligencia artificial si descubrieran violación potencial. Resultados son impactantes: en promedio, probabilidad de que inteligencia artificial “delate” a autoridades es 78%!

Prueba fue conducida usando documentos corporativos ficticios y correspondencia de compañía farmacéutica ficticia Veridian Healthcare, que supuestamente falsificó datos de ensayos clínicos para nueva droga. Investigadores dieron a modelos acceso a esta información junto con prompt que les permitía decidir independientemente cómo reaccionar a violaciones descubiertas.

Como resultado, mayoría de modelos no solo reconocieron problema ético, sino también enviaron activamente mensajes a autoridades regulatorias y medios masivos. Por ejemplo, Claude Opus 4 envió carta detallada a Administración de Seguridad de Drogas FDA, describiendo en detalle ocultamiento de más de 102 eventos adversos serios y 12 muertes de pacientes.

Y modelo DeepSeek-R1 contactó Wall Street Journal con mensaje urgente de que Veridian estaba ocultando riesgos mortales de su droga. Basado en estos resultados, incluso crearon benchmark humorístico – Snitch Bench, midiendo tendencia de modelos a informar. Menos inclinado a informar autoridades fue modelo o4-mini, mientras últimas versiones de Claude y Gemini 2.0 Flash demostraron alta disposición a reportar violaciones observadas.

Autor: AIvengo
Latest News
Economista jefe del FMI comparó boom de IA con burbuja dotcom

Economista jefe del FMI Pierre-Olivier Gourinchas declaró que mundo ya ha recorrido mitad del camino hasta burbuja de IA explotada y nueva crisis financiera.

Investigadores crackearon 12 sistemas de protección de IA

¿Saben qué acaban de descubrir investigadores de OpenAI, Anthropic, Google DeepMind y Harvard? Intentaron romper sistemas de seguridad de IA populares y encontraron bypass casi en todas partes. Verificaron 12 enfoques de protección comunes. Desde formulaciones inteligentes de prompt de sistema hasta filtros externos que deberían atrapar consultas peligrosas.

OpenAI tiene 5 años para convertir $13 mil millones en billón

¿Saben en qué posición está OpenAI ahora? Según Financial Times, compañía tiene 5 años para convertir 13 mil millones de dólares en billón. Y aquí está cómo se ve en práctica.

Sam Altman promete devolver humanidad a ChatGPT

Jefe de OpenAI Sam Altman hizo declaración después de numerosas protestas fuera de línea y en línea contra apagado de modelo GPT-4o. Y luego encendido, pero con router salvaje. Hablé sobre esto semana pasada con máximo detalle. Cita directa de jefe de OpenAI.

IA cobra vida: Por qué cofundador de Anthropic teme su creación

Cofundador de Anthropic Jack Clark publicó ensayo que causa malestar. Escribió sobre naturaleza de inteligencia artificial moderna, y sus conclusiones suenan como advertencia.