Post Thumbnail

MIT y Microsoft expusieron las mentiras de GPT-3.5

Un equipo de científicos del MIT y Microsoft desarrolló una metodología que permite mirar detrás de escenas del pensamiento de modelos de lenguaje. Y entender cuándo nos mienten. La investigación revela casos preocupantes de discrepancia sistemática entre las razones reales de las decisiones de los modelos y sus explicaciones verbales.

Particularmente revelador es el experimento con GPT-3.5, que demostró sesgos de género al evaluar candidatos para un puesto de enfermera, dando sistemáticamente puntuaciones más altas a las mujeres. Incluso después de cambiar el género en el currículum. Al mismo tiempo, en sus explicaciones el modelo afirmaba que se guiaba exclusivamente por edad y habilidades profesionales.

Los investigadores también descubrieron numerosos ejemplos donde los modelos de lenguaje claramente se orientaban por raza o ingresos. Pero en las explicaciones hablaban solo sobre comportamiento o experiencia. Y en casos médicos se revelaron situaciones donde la inteligencia artificial tomaba decisiones basadas en síntomas cruciales, pero callaba sobre esto en sus explicaciones.

La metodología para detectar tales discrepancias es excepcionalmente elegante. Un modelo auxiliar primero determina conceptos clave en la pregunta, luego genera variantes contrafácticas, cambia uno de los conceptos, y verifica si esto afectará la respuesta del modelo principal. Si la respuesta cambia, pero este factor no se menciona en la explicación – enfrentamos una explicación no confiable.

Autor: AIvengo

Latest News

Grok 4 obtuvo 57% en "El Último Examen" versus 22% de Gemini 2.5 Pro

Elon Musk presentó una nueva versión de su red neuronal – Grok 4. La versión máxima – Grok 4 Heavy – puede ejecutar múltiples cálculos simultáneamente y obtiene 57% en la prueba más difícil "El Último Examen de la Humanidad". Para comparación, el líder anterior Gemini 2.5 Pro mostró solo 22%.

Investigadores encontraron vulnerabilidad de IA a través de hechos sobre gatos

Esta noticia me sorprendió por decir lo menos. ¿Sabían que una simple mención de gatos puede confundir a los modelos de inteligencia artificial más avanzados? Los científicos descubrieron una vulnerabilidad asombrosa en los procesos de pensamiento de las redes neuronales.

Empresas IT de EE.UU. despidieron 94,000 empleados en seis meses por IA

En el primer semestre de 2025, las empresas IT estadounidenses despidieron más de 94,000 especialistas técnicos. Esto no es solo ahorro de costos. Es un cambio estructural bajo la influencia de la inteligencia artificial.

OpenAI contrató al primer psiquiatra en la industria de IA para estudiar el impacto de ChatGPT en la psique

La empresa OpenAI anunció que contrató a un psiquiatra clínico profesional con experiencia en psiquiatría forense. Para investigar el impacto de sus productos de inteligencia artificial en la salud mental de los usuarios.

Hito histórico: el millonésimo robot de Amazon entregado a Japón

¡Amazon alcanzó un hito histórico! Y después de 13 años de implementar robots en sus instalaciones de almacén, la empresa anunció alcanzar la marca de 1 millón de dispositivos robóticos. El millonésimo robot fue recientemente entregado a un almacén de Amazon en Japón.