Post Thumbnail

MIT y Microsoft expusieron las mentiras de GPT-3.5

Un equipo de científicos del MIT y Microsoft desarrolló una metodología que permite mirar detrás de escenas del pensamiento de modelos de lenguaje. Y entender cuándo nos mienten. La investigación revela casos preocupantes de discrepancia sistemática entre las razones reales de las decisiones de los modelos y sus explicaciones verbales.

Particularmente revelador es el experimento con GPT-3.5, que demostró sesgos de género al evaluar candidatos para un puesto de enfermera, dando sistemáticamente puntuaciones más altas a las mujeres. Incluso después de cambiar el género en el currículum. Al mismo tiempo, en sus explicaciones el modelo afirmaba que se guiaba exclusivamente por edad y habilidades profesionales.

Los investigadores también descubrieron numerosos ejemplos donde los modelos de lenguaje claramente se orientaban por raza o ingresos. Pero en las explicaciones hablaban solo sobre comportamiento o experiencia. Y en casos médicos se revelaron situaciones donde la inteligencia artificial tomaba decisiones basadas en síntomas cruciales, pero callaba sobre esto en sus explicaciones.

La metodología para detectar tales discrepancias es excepcionalmente elegante. Un modelo auxiliar primero determina conceptos clave en la pregunta, luego genera variantes contrafácticas, cambia uno de los conceptos, y verifica si esto afectará la respuesta del modelo principal. Si la respuesta cambia, pero este factor no se menciona en la explicación – enfrentamos una explicación no confiable.

Autor: AIvengo

Latest News

Cómo Robomart reduce costos de entrega 70% a través de robótica

$3 por cualquier entrega. Robomart desafía a gigantes DoorDash y Uber Eats con modelo de negocio nuevo para la industria. Su nuevo robot RM5 cambia completamente la economía de entregas.

Colaboración inusual entre competidores en pruebas de seguridad de IA

Dos principales competidores en el mundo de la inteligencia artificial se unieron por primera vez para pruebas conjuntas de seguridad. OpenAI y Anthropic se abrieron acceso mutuo a sus modelos secretos. En una industria donde las empresas pagan a investigadores hasta $100 millones y luchan por cada usuario, tal colaboración parece increíble.

Por qué Gemini alcanzó 50% de la audiencia móvil de ChatGPT

Google Gemini ya tiene la mitad de la audiencia de ChatGPT en dispositivos móviles. Estos son datos del nuevo reporte del fondo de capital de riesgo Andreessen Horowitz sobre el mercado de IA de consumo. 2.5 años de investigación muestran un panorama interesante.

Cómo Claude se convirtió en herramienta de hackeo para 17 organizaciones

La empresa Anthropic publicó un reporte analítico de seguridad. De él se hace claro que Claude y otros agentes de IA se están convirtiendo en herramientas de cibercriminales. En Anthropic llamaron a esta nueva dirección vibe-hacking. Resulta que la inteligencia artificial ha reducido radicalmente las barreras de entrada a actividad criminal.

Cómo xAI compite con OpenAI en herramientas para desarrolladores

xAI lanza Grok Code Fast 1. Este es un modelo agéntico compacto para programación. $0.20 por 1 millón de tokens de entrada, $1.50 por salida — ¡y solo $0.02 usando caché!