Google y Cambridge enseñaron a IA a pensar con imágenes en lugar de texto

Científicos de Google y Cambridge presentaron un enfoque fundamentalmente nuevo al trabajo de inteligencia artificial, llamado «Visual Planning». La característica de esta tecnología es que el modelo piensa no con texto, sino con imágenes. Lo que está mucho más cerca del pensamiento natural humano, especialmente al resolver tareas espaciales y matemáticas.

Los investigadores publicaron un artículo titulado «Visual Planning: Let’s Think Only with Images», donde describieron el proceso de entrenar un modelo para navegar laberintos usando solo pensamiento visual, sin razonamiento textual. Este enfoque imita la capacidad de las personas de pensar con esquemas e imágenes al resolver tareas complejas. Enlace en la descripción.

El entrenamiento del modelo procedió en dos etapas. Primero, se le mostraron muchas imágenes de laberintos y se le enseñó a predecir cualquier posible siguiente paso. Por ejemplo, si en la imagen un agente está ubicado en celda B, el modelo debería generar nueva imagen donde el agente se mueve a una de las celdas vecinas disponibles.

En la segunda etapa los investigadores aplicaron aprendizaje por refuerzo. El modelo recibía recompensa positiva por paso correcto, cero — por incorrecto, y negativa — por acción inadmisible. Así, gradualmente aprendió a elegir caminos óptimos a través del laberinto. Apoyándose solo en imágenes visuales.

¡Los resultados superaron expectativas! Visual Planning supera incluso a modelo tan avanzado como Gemini 2.5 Pro think en una vez y media a dos veces en eficiencia de resolver tareas que requieren pensamiento espacial. ¡Estoy en shock agradable!