Google a sorti le premier modèle local Gemini Robotics On-Device

L’entreprise Google a présenté le modèle le plus cool Gemini Robotics On-Device. C’est la première solution au monde qui combine vision par ordinateur, compréhension linguistique et actions physiques dans un package local unifié. Qui libère les robots de la dépendance constante au cloud computing !

L’unicité du nouveau modèle réside dans sa universalité. Il fonctionne avec les plateformes humanoïdes ainsi qu’avec les manipulateurs industriels à deux mains. Impressionnante est aussi la capacité du système à effectuer les opérations à deux mains les plus complexes. De la manipulation de petits objets à l’assemblage de constructions et au transport d’objets.

L’efficacité d’apprentissage fonctionne aussi excellemment. Le modèle n’a besoin que de 100 démonstrations pour maîtriser de nouvelles actions ! En même temps, le système était initialement entraîné seulement sur le dataset ALOHA avec des instructions humaines. Mais a pu transférer les connaissances vers diverses plateformes robotiques.

Google a simultanément sorti le SDK Gemini Robotics. C’est un ensemble d’outils pour développeurs permettant de personnaliser le modèle pour des tâches spécifiques.

Le fonctionnement entièrement autonome pour les robots ouvre d’énormes possibilités d’application dans des conditions de connexion instable. Ou pour des tâches nécessitant une latence de réponse minimale. Et cela pourrait être le début d’une nouvelle ère de robots vraiment indépendants !