Post Thumbnail

Google y Cambridge enseñaron a IA a pensar con imágenes en lugar de texto

Científicos de Google y Cambridge presentaron un enfoque fundamentalmente nuevo al trabajo de inteligencia artificial, llamado «Visual Planning». La característica de esta tecnología es que el modelo piensa no con texto, sino con imágenes. Lo que está mucho más cerca del pensamiento natural humano, especialmente al resolver tareas espaciales y matemáticas.

Los investigadores publicaron un artículo titulado «Visual Planning: Let’s Think Only with Images», donde describieron el proceso de entrenar un modelo para navegar laberintos usando solo pensamiento visual, sin razonamiento textual. Este enfoque imita la capacidad de las personas de pensar con esquemas e imágenes al resolver tareas complejas. Enlace en la descripción.

El entrenamiento del modelo procedió en dos etapas. Primero, se le mostraron muchas imágenes de laberintos y se le enseñó a predecir cualquier posible siguiente paso. Por ejemplo, si en la imagen un agente está ubicado en celda B, el modelo debería generar nueva imagen donde el agente se mueve a una de las celdas vecinas disponibles.

En la segunda etapa los investigadores aplicaron aprendizaje por refuerzo. El modelo recibía recompensa positiva por paso correcto, cero — por incorrecto, y negativa — por acción inadmisible. Así, gradualmente aprendió a elegir caminos óptimos a través del laberinto. Apoyándose solo en imágenes visuales.

¡Los resultados superaron expectativas! Visual Planning supera incluso a modelo tan avanzado como Gemini 2.5 Pro think en una vez y media a dos veces en eficiencia de resolver tareas que requieren pensamiento espacial. ¡Estoy en shock agradable!

Autor: AIvengo

Latest News

OpenAI prepara primer modelo abierto no más débil que O3 Mini

La empresa OpenAI se prepara para lanzar su primer modelo de lenguaje abierto. Hará honor a su nombre, por así decirlo. Este es un giro serio para la empresa que anteriormente mantenía cerrados sus poderosos desarrollos.

Grok 4 obtuvo 57% en "El Último Examen" versus 22% de Gemini 2.5 Pro

Elon Musk presentó una nueva versión de su red neuronal – Grok 4. La versión máxima – Grok 4 Heavy – puede ejecutar múltiples cálculos simultáneamente y obtiene 57% en la prueba más difícil "El Último Examen de la Humanidad". Para comparación, el líder anterior Gemini 2.5 Pro mostró solo 22%.

Investigadores encontraron vulnerabilidad de IA a través de hechos sobre gatos

Esta noticia me sorprendió por decir lo menos. ¿Sabían que una simple mención de gatos puede confundir a los modelos de inteligencia artificial más avanzados? Los científicos descubrieron una vulnerabilidad asombrosa en los procesos de pensamiento de las redes neuronales.

Empresas IT de EE.UU. despidieron 94,000 empleados en seis meses por IA

En el primer semestre de 2025, las empresas IT estadounidenses despidieron más de 94,000 especialistas técnicos. Esto no es solo ahorro de costos. Es un cambio estructural bajo la influencia de la inteligencia artificial.

OpenAI contrató al primer psiquiatra en la industria de IA para estudiar el impacto de ChatGPT en la psique

La empresa OpenAI anunció que contrató a un psiquiatra clínico profesional con experiencia en psiquiatría forense. Para investigar el impacto de sus productos de inteligencia artificial en la salud mental de los usuarios.