Xiaomi сделала робота, который думает быстрее, чем вы моргаете
Вы знаете Xiaomi как ребят, которые делают смартфоны и умные пылесосы. Ну ещё автомобили в последнее время. Так вот, теперь компания запустила собственную робототехническую модель Xiaomi-Robotics-0.
Это мозг для робота на 4.7 миллиарда параметров, который одновременно видит мир через камеры, понимает человеческие команды текстом и сам генерирует физические движения. Без заготовленных скриптов. Робот реально соображает на лету. И делает это за 80 миллисекунд. Вы моргнуть не успеете, а он уже решил, что делать дальше.
Самое интересное, что для этого не нужен серверный шкаф. Хватает одной видеокарты RTX 4090. Инженеры придумали хитрость: пока робот выполняет текущее движение, модель параллельно считает следующее. Поэтому никаких дёрганий и зависаний.
Под капотом — архитектура Mixture-of-Transformers, которая решает старую головную боль робототехники. Обычно когда модель учат двигать манипуляторами, она тупеет в понимании окружения. Здесь обучение шло одновременно на данных о мире и о действиях. Поэтому робот и думает, и работает руками без потерь. Проверяли на двуруком роботе — он разбирал Lego по цветам и складывал полотенца.
Xiaomi выложила всё в открытый доступ. Код, модели — берите, развивайте. Получается, компания, которая начинала с бюджетных телефонов, теперь учит роботов думать за миллисекунды. Если это не сигнал, что робототехника выходит из лабораторий в реальный мир — то что тогда сигнал?