Post Thumbnail

Google et Cambridge ont appris à l’IA à penser avec des images au lieu de texte

Les scientifiques de Google et Cambridge ont présenté une approche fondamentalement nouvelle au travail de l’intelligence artificielle, appelée “Visual Planning”. La particularité de cette technologie est que le modèle pense non pas avec du texte, mais avec des images. Ce qui est beaucoup plus proche de la pensée naturelle humaine, surtout lors de la résolution de tâches spatiales et mathématiques.

Les chercheurs ont publié un article intitulé “Visual Planning: Let’s Think Only with Images”, où ils ont décrit le processus d’entraînement d’un modèle à naviguer dans des labyrinthes en utilisant seulement la pensée visuelle, sans raisonnement textuel. Cette approche imite la capacité des gens à penser avec des schémas et des images lors de la résolution de tâches complexes. Lien dans la description.

L’entraînement du modèle s’est déroulé en deux étapes. D’abord, on lui a montré de nombreuses images de labyrinthes et on lui a appris à prédire toute prochaine étape possible. Par exemple, si sur l’image un agent se trouve dans la cellule B, le modèle devrait générer une nouvelle image où l’agent se déplace vers l’une des cellules voisines disponibles.

À la deuxième étape, les chercheurs ont appliqué l’apprentissage par renforcement. Le modèle recevait une récompense positive pour une étape correcte, zéro — pour incorrecte, et négative — pour une action inadmissible. Ainsi, graduellement il a appris à choisir des chemins optimaux à travers le labyrinthe. En s’appuyant seulement sur des images visuelles.

Les résultats ont dépassé les attentes ! Visual Planning surpasse même un modèle aussi avancé que Gemini 2.5 Pro think d’une fois et demie à deux fois en efficacité de résolution de tâches nécessitant une pensée spatiale. Je suis dans un choc agréable !

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

ChatGPT appelle les utilisateurs "graines d'étoiles" de la planète Lyra

Il s'avère que ChatGPT peut entraîner les utilisateurs dans le monde de théories scientifiquement non fondées et mystiques.

La musique IA déclenche des émotions plus fortes que la musique humaine

Vous êtes-vous déjà demandé pourquoi une mélodie donne la chair de poule tandis qu'une autre laisse indifférent ? Les scientifiques ont découvert quelque chose d'intéressant. La musique créée par l'intelligence artificielle déclenche chez les gens des réactions émotionnelles plus intenses que les compositions écrites par des humains.

GPT-5 a été piraté en 24 heures

2 entreprises de recherche indépendantes NeuralTrust et SPLX ont découvert des vulnérabilités critiques dans le système de sécurité du nouveau modèle seulement 24 heures après la sortie de GPT-5. Pour comparaison, Grok-4 a été piraté en 2 jours, rendant le cas de GPT-5 encore plus alarmant.

Cloudflare a bloqué Perplexity pour 6 millions de requêtes cachées par jour

Cloudflare a porté un coup écrasant à Perplexity AI, bloquant l'accès de la startup de recherche à des milliers de sites. La raison ? Scannung caché de ressources web d'une ampleur sans précédent malgré les interdictions explicites des propriétaires !

Les menaces et 1 billion de dollars n'améliorent pas le travail des réseaux neuronaux

Vous avez sûrement vu ces "trucs secrets" pour contrôler les réseaux neuronaux. Comme les menaces, les promesses de récompenses, les manipulations émotionnelles. Mais fonctionnent-ils vraiment ? Des chercheurs de l'Université de Pennsylvanie et de la Wharton School ont mené une expérience à grande échelle avec 5 modèles avancés : Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini et GPT o4-mini.