Post Thumbnail

Google et Cambridge ont appris à l’IA à penser avec des images au lieu de texte

Les scientifiques de Google et Cambridge ont présenté une approche fondamentalement nouvelle au travail de l’intelligence artificielle, appelée “Visual Planning”. La particularité de cette technologie est que le modèle pense non pas avec du texte, mais avec des images. Ce qui est beaucoup plus proche de la pensée naturelle humaine, surtout lors de la résolution de tâches spatiales et mathématiques.

Les chercheurs ont publié un article intitulé “Visual Planning: Let’s Think Only with Images”, où ils ont décrit le processus d’entraînement d’un modèle à naviguer dans des labyrinthes en utilisant seulement la pensée visuelle, sans raisonnement textuel. Cette approche imite la capacité des gens à penser avec des schémas et des images lors de la résolution de tâches complexes. Lien dans la description.

L’entraînement du modèle s’est déroulé en deux étapes. D’abord, on lui a montré de nombreuses images de labyrinthes et on lui a appris à prédire toute prochaine étape possible. Par exemple, si sur l’image un agent se trouve dans la cellule B, le modèle devrait générer une nouvelle image où l’agent se déplace vers l’une des cellules voisines disponibles.

À la deuxième étape, les chercheurs ont appliqué l’apprentissage par renforcement. Le modèle recevait une récompense positive pour une étape correcte, zéro — pour incorrecte, et négative — pour une action inadmissible. Ainsi, graduellement il a appris à choisir des chemins optimaux à travers le labyrinthe. En s’appuyant seulement sur des images visuelles.

Les résultats ont dépassé les attentes ! Visual Planning surpasse même un modèle aussi avancé que Gemini 2.5 Pro think d’une fois et demie à deux fois en efficacité de résolution de tâches nécessitant une pensée spatiale. Je suis dans un choc agréable !

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

Seulement 1 programmeur au monde a pu battre l'IA d'OpenAI

Imaginez un monde où l'intelligence artificielle concourt avec les meilleurs programmeurs de la planète. Une telle confrontation a eu lieu lors du prestigieux tournoi AtCoder World Tour Finals. C'est l'une des compétitions de programmation les plus élitistes au monde, où il est extrêmement difficile d'entrer.

Un ancien ingénieur d'OpenAI a raconté le chaos à l'intérieur de l'entreprise

Vous voulez savoir ce qui se passe vraiment à l'intérieur d'OpenAI ? L'ancien ingénieur Calvin French-Owen a révélé tous les détails après avoir quitté l'entreprise il y a 3 semaines.

Salaire jusqu'à 170 000$ : Ce que SpaceX offre aux développeurs IA

SpaceX fait un tournant inattendu dans sa stratégie technologique. L'entreprise d'Elon Musk a ouvert des postes vacants pour des ingénieurs logiciels dans le domaine de l'intelligence artificielle. Formant une équipe qui s'occupera de résoudre les tâches de traitement de données les plus complexes pour les lanceurs et véhicules spatiaux.

Musk avec 248 milliards de dollars n'achète pas de PC de travail mais espionne les employés

L'entreprise xAI a commencé à surveiller ses employés directement sur leurs ordinateurs personnels ! Les employés qui entraînent l'intelligence artificielle Grok depuis leurs appareils ont été obligés d'installer des programmes de suivi.

Kimi-K2 avec 1 billion de paramètres a dépassé GPT-4.1 en programmation

L'entreprise technologique chinoise Moonshot AI a présenté un nouveau joueur dans l'arène de l'IA ! Rencontrez Kimi-K2. C'est un grand modèle de langage avec du code source ouvert, prêt à défier les leaders industriels reconnus comme Claude Sonnet 4 et GPT-4.1. Et un tel démarrage bruyant et puissant rappelle l'apparition de Deepseek.