представлена модель Xiaomi-Robotics-0 с 4,7 млрд параметров
Xiaomi представила свою первую крупномасштабную робототехническую модель Xiaomi-Robotics-0 с открытым исходным кодом.
Система на 4,7 млрд параметров построена по принципу (VLA, vision-language-action) и объединяет визуальное восприятие, понимание языка и выполнение действий в реальном времени — то, что компания называет основой «физического интеллекта». По данным Xiaomi, модель показывает рекордные результаты как в симуляциях, так и в реальных экспериментах.
Фото Xiaomi
Архитектура Mixture-of-Transformers разделяет задачи между двумя блоками. Модель визуального языка VLM отвечает за интерпретацию инструкций и пространственное понимание сцены, а модуль Action Expert на базе диффузионного трансформера генерирует целые последовательности движений, обеспечивая точность и плавность. Совместное обучение на мультимодальных и моторных данных позволило сохранить способность к рассуждению при освоении физических действий.
Robotics-0 продемонстрировала высокие показатели в тестах LIBERO, CALVIN и SimplerEnv, а также успешно справилась с практическими задачами на двурукой платформе — от складывания полотенец до работы с блоками.
Для снижения задержек используется асинхронный вывод и механизмы стабилизации движений, что делает поведение робота более плавным и устойчивым к изменениям окружающей среды.

