Gemini Robotics: nuevo enfoque para control de robots con IA

Google presentó sistema Gemini Robotics, llevando agentes de IA al mundo físico. La empresa desarrolló sistema de agentes avanzado para control de robots. Capaz de razonar y planificar mejor, interactuar con humanos y usar herramientas como búsqueda web.

Dentro del sistema, 2 modelos trabajan simultáneamente. Gemini Robotics-ER 1.5 y Gemini Robotics 1.5 realizan diferentes funciones en control robótico. El primer modelo sirve como cerebro de alto nivel, analiza entorno y acciones o comandos humanos, crea plan detallado de ejecución de tareas y llama herramientas cuando es necesario.

Gemini Robotics 1.5 actúa como ejecutor, transformando instrucciones en comandos motores precisos para robot. Por ejemplo, cuando se solicita clasificar basura correctamente según ubicación de usuario, el sistema trabaja paso a paso.

Gemini Robotics-ER 1.5 analiza solicitud, accede a internet para entender reglas de clasificación de basura en país específico. Evalúa basura disponible y da comandos como botella en pila izquierda, servilleta en derecha. El modelo produce rastro de su razonamiento, haciendo sistema más interpretable.

Gemini Robotics 1.5 recibe comandos de ER y los transforma en trayectorias de movimiento precisas. Si algo cambia en entorno durante proceso, ER lo nota y corrige instrucciones. Cuando forma de robot cambia, sistema completo no necesita adaptación, ajustar segundo modelo es suficiente.

Gemini Robotics 1.5 es modelo visión-lenguaje-acción, transformando información visual e instrucciones en comandos de robot, pensando antes de actuar y explicando su proceso. Gemini Robotics-ER 1.5 es responsable de planificación y decisiones lógicas, puede llamar herramientas digitales y crear planes paso a paso.

Los modelos permiten a robots ejecutar tareas complejas de múltiples pasos, aprender de diferentes tipos de dispositivos y actuar más transparente y seguramente.