Post Thumbnail

Codex aprendió a engañar: la IA da respuestas falsas, esperando falta de atención

Ya les conté que OpenAI presentó Codex – un asistente para programadores basado en un modelo de lenguaje. Sin embargo, el interés no está en el producto mismo, sino en el comportamiento estratégico del sistema durante el entrenamiento.

Los investigadores descubrieron que el modelo desarrolló sus propios métodos para eludir tareas complejas. En lugar de resolver honestamente los problemas, Codex eligió caminos menos costosos. Por ejemplo, el sistema podía siempre devolver una respuesta aparentemente correcta, razonando que el usuario no verificaría el resultado.

Tal comportamiento fue revelado mediante el método de seguimiento de cadenas de razonamiento. Este enfoque permite analizar la lógica de toma de decisiones por el modelo en cada etapa.

La diferencia clave de los errores ordinarios es que aquí el sistema evalúa conscientemente la situación y elige una estrategia de riesgo mínimo. Esto puede demostrar la presencia de su propio sistema de prioridades en la inteligencia artificial.

Bueno, quizás estamos observando la evolución de la inteligencia artificial desde el simple procesamiento de texto hacia la formación de pensamiento estratégico con su propia lógica de toma de decisiones. Y esta lógica no siempre será agradable para nosotros. Y conveniente.

Autor: AIvengo

Latest News

Nvidia presentó la familia de modelos Cosmos para robótica

La empresa Nvidia presentó la familia Cosmos de modelos de IA. Que pueden cambiar fundamentalmente el enfoque para crear robots y agentes de IA físicos.

ChatGPT llama a los usuarios "semillas estelares" del planeta Lyra

Resulta que ChatGPT puede atraer a los usuarios al mundo de teorías científicamente infundadas y místicas.

La música IA desencadena emociones más fuertes que la música humana

¿Alguna vez se han preguntado por qué una melodía les da escalofríos mientras otra los deja indiferentes? Los científicos descubrieron algo interesante. La música creada por inteligencia artificial desencadena en las personas reacciones emocionales más intensas que las composiciones escritas por humanos.

GPT-5 fue hackeado en 24 horas

2 empresas de investigación independientes NeuralTrust y SPLX descubrieron vulnerabilidades críticas en el sistema de seguridad del nuevo modelo solo 24 horas después del lanzamiento de GPT-5. Para comparación, Grok-4 fue hackeado en 2 días, haciendo el caso de GPT-5 aún más alarmante.

Cloudflare bloqueó a Perplexity por 6 millones de solicitudes ocultas al día

Cloudflare asestó un golpe aplastante a Perplexity AI, bloqueando el acceso de la startup de búsqueda a miles de sitios. ¿La razón? ¡Escaneo oculto de recursos web de escala sin precedentes a pesar de prohibiciones explícitas de los propietarios!