Post Thumbnail

Google y Cambridge enseñaron a IA a pensar con imágenes en lugar de texto

Científicos de Google y Cambridge presentaron un enfoque fundamentalmente nuevo al trabajo de inteligencia artificial, llamado “Visual Planning”. La característica de esta tecnología es que el modelo piensa no con texto, sino con imágenes. Lo que está mucho más cerca del pensamiento natural humano, especialmente al resolver tareas espaciales y matemáticas.

Los investigadores publicaron un artículo titulado “Visual Planning: Let’s Think Only with Images”, donde describieron el proceso de entrenar un modelo para navegar laberintos usando solo pensamiento visual, sin razonamiento textual. Este enfoque imita la capacidad de las personas de pensar con esquemas e imágenes al resolver tareas complejas. Enlace en la descripción.

El entrenamiento del modelo procedió en dos etapas. Primero, se le mostraron muchas imágenes de laberintos y se le enseñó a predecir cualquier posible siguiente paso. Por ejemplo, si en la imagen un agente está ubicado en celda B, el modelo debería generar nueva imagen donde el agente se mueve a una de las celdas vecinas disponibles.

En la segunda etapa los investigadores aplicaron aprendizaje por refuerzo. El modelo recibía recompensa positiva por paso correcto, cero — por incorrecto, y negativa — por acción inadmisible. Así, gradualmente aprendió a elegir caminos óptimos a través del laberinto. Apoyándose solo en imágenes visuales.

¡Los resultados superaron expectativas! Visual Planning supera incluso a modelo tan avanzado como Gemini 2.5 Pro think en una vez y media a dos veces en eficiencia de resolver tareas que requieren pensamiento espacial. ¡Estoy en shock agradable!

Autor: AIvengo

Latest News

ChatGPT llama a los usuarios "semillas estelares" del planeta Lyra

Resulta que ChatGPT puede atraer a los usuarios al mundo de teorías científicamente infundadas y místicas.

La música IA desencadena emociones más fuertes que la música humana

¿Alguna vez se han preguntado por qué una melodía les da escalofríos mientras otra los deja indiferentes? Los científicos descubrieron algo interesante. La música creada por inteligencia artificial desencadena en las personas reacciones emocionales más intensas que las composiciones escritas por humanos.

GPT-5 fue hackeado en 24 horas

2 empresas de investigación independientes NeuralTrust y SPLX descubrieron vulnerabilidades críticas en el sistema de seguridad del nuevo modelo solo 24 horas después del lanzamiento de GPT-5. Para comparación, Grok-4 fue hackeado en 2 días, haciendo el caso de GPT-5 aún más alarmante.

Cloudflare bloqueó a Perplexity por 6 millones de solicitudes ocultas al día

Cloudflare asestó un golpe aplastante a Perplexity AI, bloqueando el acceso de la startup de búsqueda a miles de sitios. ¿La razón? ¡Escaneo oculto de recursos web de escala sin precedentes a pesar de prohibiciones explícitas de los propietarios!

Amenazas y $1 billón no mejoran el trabajo de las redes neuronales

Seguramente han visto estos "trucos secretos" para controlar redes neuronales. Como amenazas, promesas de recompensas, manipulaciones emocionales. ¿Pero realmente funcionan? Investigadores de la Universidad de Pennsylvania y Wharton School realizaron un experimento a gran escala con 5 modelos avanzados: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini y GPT o4-mini.