Когда мы смотрим на очередное видео, где робот ловко перебирает предметы или открывает дверь, кажется, что будущее почти наступило, хотя в реальности даже самымКогда мы смотрим на очередное видео, где робот ловко перебирает предметы или открывает дверь, кажется, что будущее почти наступило, хотя в реальности даже самым

Архитектура PhysicalAgent: как универсальные VLA-агенты могут стать альтернативой дорогому обучению

7c5e6cc8ada36d3a37d653d6ad08dbd8.png

Когда мы смотрим на очередное видео, где робот ловко перебирает предметы или открывает дверь, кажется, что будущее почти наступило, хотя в реальности даже самым продвинутые модели остаются талантливыми, но узкими специалистами. Их развитие упирается в сложности обучения: стоимость сборов траекторий, закрытые датасеты и портирование навыков между разными моделями.

Я Артем Лыков, ведущий RnD-разработчик в МТС Web Services. А параллельно — аспирант в Лаборатории интеллектуальной космической робототехники Сколтеха (руководитель Дмитрий Тетерюков), где лидирую направление когнитивной робототехники. Вместе с коллегами по лаборатории мы описали способ обойтись без многомесячных записей движений и сложных симуляций, опираясь на уже существующие VLA-модели и модульный агентный подход, позволяющий генерировать будущие действия робота прямо из картинки и текста, проверять их, править, повторять и в итоге добиваться результата, сравнимого со специализированными решениями. В этом материале я разберу архитектуру PhysicalAgent, покажу, как мы реализовали цикл Perceive → Plan → Reason → Act для роботов, и расскажу, чем нам помогли открытые видеомодели и как этот подход помогает переносить навыки между разными платформами.

Содержание
  • Дороговизна данных как вызов

  • Где взять дешевые данные?

  • Альтернативный путь — физические агенты

  • Преимущества подхода

Дороговизна данных как вызов

Современные ИИ-агенты уже достаточно хорошо работают автономно: строят логические выводы, раскладывают задачи на этапы, итеративно используют инструменты. Но перенести все эти прекрасные возможности в дивный физический мир оказалось гораздо сложнее. Роботам нужно привязывать рассуждение к восприятию окружающей среды и физике — как собственной, так и мира вокруг.

Для когнитивной робототехники требуются данные, которые ОЧЕНЬ дорого стоят, а без них обучение невозможно.

Существующие подходы (RT-1/RT-2, OpenVLA, Isaac-GR00t и др.) используют модели vision-language-action (VLA), требующие дообучения под конкретного робота и задачи. Они эффективны в рамках обучающего распределения, но плохо переносятся на другие платформы, объекты и операции. Аналогично существующие модели для генерации действий показывают впечатляющие результаты, но требуют специально подготовленных датасетов «робот — сцена».

Один из самых больших open-source-датасетов для обучения когнитивных роботов — OpenX Embodiment. Он состоит почти из миллиона траекторий. Сложность в том, что датасет собран на манипуляторах. Это значит, что использовать его для роботов-гуманоидов практически невозможно.

Где взять дешевые данные?

Один из путей решения — использовать синтетические данные. Но между ними и реальным миром есть серьезный разрыв: мы можем классно обучить модель в симуляции, но получим плохой результат в настоящем мире.

Недавно появилась ИИ-модель Nvidia Cosmos Transfer, которая делает данные из симуляции более реалистичными. Такое преобразование обходится гораздо дешевле. NVIDIA заявляет, что за три дня с помощью этого метода они получили столько данных, сколько раньше собирали за три месяца.

Такие данные дали возможность частично решить проблему нехватки данных для VLA-моделей (Vision Language Action, «зрение — язык — действие»). Это продвинутые системы ИИ для робототехники, которые объединяют понимание изображений (Vision), естественного языка (Language) и генерацию физических действий (Action).

Преимущество VLA-моделей — в скорости. Мы подаем на вход картинку и задачу на естественном языке, а на выходе получаем действия робота. Но для этого нужны огромные мощности, которые не каждая компания может себе позволить.

77a2ecdaf0f07abdf0e7ed0baf991a81.png

NVIDIA вообще серьезно вкладывается в развитие когнитивной робототехники. В этом году они выложили в Open Source собственную модель для гуманоидов Gr00t. Она показывает высокие результаты — их не так просто воспроизвести в условиях других лабораторий, но мы склонны верить публичной информации о ней. Однако NVIDIA выложили в открытый доступ саму модель, но не данные для обучения.

ce19c5ea9280322c37e6fbe4e5e6e254.png

Классно видеть, как мы продвигаемся вперед, но мне все же хотелось бы, чтобы когда-нибудь робот смог как человек: посмотрел в Википедии или на видеохостинге инструкцию, как что-то делать, — и так обучался. Но пока сковородка летит на пол вместе с содержимым. Реальный мир — не симуляция:

2407b61a15f3957b0d5a3cfb8b406653.png

Что мы можем сделать, если инструкция с YouTube не подходит? Обучить модель на видеоимитации реального мира. Снова есть решение от NVIDIA — Cosmos, включающее в себя передовые модели мира виде диффузионных моделей генерации видео. Cosmos используют для более быстрой разработки физического ИИ у автономных транспортных средств (AV), роботов и агентов видеоаналитики. Именно она позволяет взять данные из симуляции и превратить их в реалистичные.

Чтобы обучить робота действию, мы можем сгенерировать видео, как он выполняет задачу в виртуальном мире. NVIDIA реализовала такой подход в Cosmos Predict. Видео генерируется моделью, которую специально обучили на большом количестве записей конкретного робота. В результате физика робота в видео точно повторяет его реальную физику в жизни: у него не появляется лишних пальцев или траекторий движения.

Еще в этом подходе используют модель, извлекающую данные из сгенерированного видео. Она тоже есть в открытом доступе. Но чтобы ее задействовать, нужно получить доступ к данным, на которых она обучена. Тогда появится возможность добавить туда свои данные и кастомизировать под собственного робота. Увы, применить это мы не можем, поэтому предлагаю просто порадоваться за NVIDIA — что такое они придумали и у них получилось.

Что нам остается? Либо собирать горы данных для обучения модели, либо изобрести другое решение. И мы смогли.

Альтернативный путь — физические агенты

16168bde4a8314d784f5c629baefa389.png

Ранние интеграции LLM показали, что модели могут связывать инструкции с исполняемыми навыками, используя оценки сцены. Но такие системы создают монолитные политики, где высокоуровневое рассуждение смешано с низкоуровневым контролем, что делает их трудными для переноса, требовательными к данным, зависимыми от конкретного робота.

Существует огромное количество моделей генерации видео, и многие из них доступны в Open Source и с публичным API. Мы задумались, а почему бы нам не применить агентную архитектуру и не использовать эти модели как есть, без обучения? Естественно, это снизит продуктивность, неизбежно будут появляться галлюцинации. Но и при работе с агентами мы можем запускать инструмент множество раз, прежде чем получим нужный результат.

Разработанная нами архитектура PhysicalAgent следует модульной философии, разделяя цикл Perceive → Plan → Reason → Act на этапы. Это повышает переносимость и позволяет отслеживать ход выполнения и своевременно планировать задачи — ключевое свойство для длинных манипуляций.

Мы использовали четыре агента:

  • генерации видео будущего действия,

  • мониторинга видео для проверки качества,

  • извлечения данных о движении робота,

  • выполнения навыка на реальном роботе.

После каждого этапа мы запускали агент мониторинга, так как прекращали создание видео дальше, если оно получилось плохое, — например, в нем нарушена физика мира. Вместо этого генерировали снова и снова, добавляя инструкции от агента мониторинга, чтобы избежать галлюцинаций.

После извлечения действия из робота в видео, проводили его в реальном мире. Если что-то шло не так (например, мы уронили объект, или переместили его не туда, или не смогли выполнить действие), возвращались на шаг назад и пробовали всё заново. Такой подход позволил нам вообще отказаться от сбора данных.

В результате наш агент функционирует на разных типах платформ: манипуляторе, роботе-гуманоиде, симуляторах. Нам больше не требуется обучать их на подготовленных заранее записях. Единственное, что нужно — обучить модели распознаванию движения на видео, что гораздо проще, чем обучить собственную модель с нуля.

Преимущества подхода

Видео работы

Как вы видите, мы смогли разобраться с физикой жидкостей, тканей, сложных объектов. Даже научили робота разрезать яблоко пополам — сначала на видео, а затем он смог это повторить в реальной жизни.

Фишка в том, что открытые модели для генерации видео уже обучены на огромном количестве данных из сети — фильмах, демонстрациях и так далее. Все это есть в доступе, нам не надо ничего дополнительно объяснять ей об устройстве реального мира. Единственное, нам нужно добиться, чтобы модель реалистично представляла, как бы это сделал робот. И она справляется довольно неплохо.

Получили такие преимущества:

  • Универсальность. Подход работает на разных типах роботов. Нам не нужно обучать большие модели заново для переноса на другую платформу.

  • Экономичность. Агентный подход обходится дешевле, чем сбор данных с нуля.

  • Надежность. Итеративное планирование и исправление собственных ошибок обеспечивает результативность в 80%.

  • Масштабируемость подхода и его открытость. Мы можем добавлять другие инструменты или агентов при необходимости.

  • Память. Совершая действие, робот запоминает это и учится.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Комбо Дня в Pixeltap by Pixelverse на 29 Декабря

Комбо Дня в Pixeltap by Pixelverse на 29 Декабря

Комбо дня в Pixeltap by Pixelverse на 29 декабря Послезавтра мы будем активно перемешивать оливье, а сейчас по-прежнему до трясучки ждем, когда приведут в поряд
Поделиться
Coinspot2025/12/30 03:06
Топовые монеты для покупки до конца декабря: По мере приближения 2026 года DeepSnitch AI готовится к запуску

Топовые монеты для покупки до конца декабря: По мере приближения 2026 года DeepSnitch AI готовится к запуску

Генеральный директор Strategy Фонг Ле заявил, что рыночные фундаментальные показатели Bitcoin "не могут быть лучше", несмотря на то, что актив торгуется почти на 30% ниже своего исторического максимума. И аналитик Бен Коуэн
Поделиться
Blockonomi2025/12/30 02:12
XDGAI и MemoLabs объединяются для создания унифицированной децентрализованной экосистемы агентов

XDGAI и MemoLabs объединяются для создания унифицированной децентрализованной экосистемы агентов

Сегодня MemoLabs и XDGAI представили свою первую совместную разработку для предоставления пользовательского хранения данных и высокопроизводительных децентрализованных вычислений.
Поделиться
Blockchainreporter2025/12/30 02:00