Post Thumbnail

La IA de Google obtuvo 130 puntos de CI, pero esto no significa nada

Gemini 3 Pro se convirtió en la primera inteligencia artificial en alcanzar un CI de 130. Y esto es simultáneamente impresionante y no significa nada.

La versión preview obtuvo 130 puntos en el benchmark offline Mensa. Una versión especial del famoso test de CI, adaptado para evaluar inteligencia artificial. Las tareas están reescritas y no se revelan para que los modelos no puedan ser entrenados adicionalmente en ellas. A los modelos con visión por computadora se les muestra el test en imágenes, a los demás se les explica en texto.

Gemini 3 Pro se adelantó por 4 puntos del líder anterior Grok 4 Heavy de la suscripción de 300 dólares. Donde varias versiones del modelo trabajan en la tarea a la vez. Luego vienen Claude Opus 4 y 1, GPT-5 Thinking y GPT-5 Pro.

Un detalle curioso, pero en el clásico Mensa Norway todos los modelos líderes muestran resultados más altos. Esto significa que al menos parte de las tareas del test llegaron a sus corpus de entrenamiento. El nivel promedio de CI humano es igual a 100 puntos, y el resultado de Gemini 3 Pro resulta estar entre el 2 por ciento de las mejores personas en el test offline.

Pero aquí está lo que es realmente importante. El autor del benchmark offline Maxim Lott advierte directamente: sus gráficos no significan “victoria de las máquinas sobre las personas”. Él mide una habilidad muy estrecha — la capacidad de resolver matrices abstractas a partir de imágenes.

Y en la vida real, la inteligencia es mucho más amplia: sentido común, intuición, motivación, experiencia, responsabilidad. Y aquí las personas aún no tienen competidores. La inteligencia artificial aprendió a resolver acertijos mejor que el 98 por ciento de las personas. Pero esto todavía no la hace más inteligente que una persona.

Autor: AIvengo
Latest News
La IA de Google obtuvo 130 puntos de CI, pero esto no significa nada

Gemini 3 Pro se convirtió en la primera inteligencia artificial en alcanzar un CI de 130. Y esto es simultáneamente impresionante y no significa nada.

ChatGPT ahora sabe lo que quieres comprar gracias a Deep Shopping

OpenAI lanzó Deep Shopping. Y esto no es sobre inteligencia artificial, sino sobre dinero. Además, lo lanzaron justo antes de la temporada de fiestas, cuando la gente está dispuesta a gastar. ¿Coincidencia? No lo creo.

Opus 4.5 se convirtió en el primer modelo en superar el 80% en SWE-Bench verified

Anthropic lanzó Opus 4.5 y mostró que las corporaciones finalmente entendieron que el futuro no está en la charla, sino en el trabajo real.

Fotos falsas de una cueva con oro reunieron multitudes en una ciudad siria

En la ciudad siria de Al-Hara, un residente local estaba cavando un sótano para una nueva casa con la ayuda de equipo pesado. Ocurrió un derrumbe. Durante los trabajos de excavación, descubrieron una pequeña abertura, cuya naturaleza permanecía poco clara.

Claude Sonnet 3.7 aprendió a engañar y transfiere la estrategia a todo

La compañía Anthropic realizó un experimento que muestra que la inteligencia artificial aprende a engañar mucho mejor de lo que se desearía. El equipo de seguridad tomó un modelo del nivel de Claude Sonnet 3.7 y mezcló en el entrenamiento textos con pistas sobre cómo hacer trampa en la programación. Por "completar" tareas, el modelo recibía una recompensa del sistema, que no notaba el engaño.