NVIDIA Dynamo улучшает потоковую передачу для агентных рабочих процессов
Luisa Crawford 08 мая 2026 16:34
NVIDIA Dynamo представляет новые инструменты для более быстрых и точных агентных рабочих процессов, улучшая потоковую передачу токенов и обработку вызовов инструментов.
NVIDIA представила значительные обновления своей платформы Dynamo, направленные на оптимизацию агентных рабочих процессов с улучшенной потоковой передачей, парсингом и обработкой вызовов инструментов. Эти обновления сосредоточены на повышении отзывчивости и точности для приложений, опирающихся на многоходовые взаимодействия, таких как ассистенты по программированию и другие инструменты, управляемые ИИ.
Одним из ключевых нововведений является введение потоковой диспетчеризации вызовов инструментов. Эта новая функция позволяет выполнять вызовы инструментов сразу после их декодирования, устраняя необходимость ждать завершения полного цикла ответа. Это улучшение не только ускоряет время до первого токена (TTFT) для пользователей, но и устраняет неэффективность в агентных рабочих процессах, где рассуждения и ответы инструментов чередуются.
Прирост производительности за счёт стабильности промптов
Ключевое улучшение касается стабильности промптов и повторного использования KV-кэша. Устраняя преамбулы, специфичные для сессии, такие как заголовки биллинга Anthropic, Dynamo обеспечивает согласованные префиксы токенов между сессиями. Это изменение сократило TTFT почти в пять раз в тестах NVIDIA — с 912 мс до 169 мс — на системе, использующей промпт из 52 000 токенов.
Для разработчиков поддержание стабильных префиксов крайне важно при работе с большими и сложными промптами в рамках множества пользовательских сессий. Эти оптимизации особенно ценны для агентных моделей, таких как Claude Code и Codex, которым требуются точные и воспроизводимые взаимодействия для эффективной работы.
Улучшенный парсинг для сложных взаимодействий
Dynamo также переработал свои парсеры рассуждений и вызовов инструментов, выделив их в многократно используемые модули. Это позволяет разработчикам добиться лучшего соответствия между разобранными выводами и требованиями обвязки. Обновления решают давнюю проблему, при которой предшествующие рассуждения либо отбрасывались, либо были некорректно сформированы в ходе многоходовых взаимодействий. В агентных рабочих процессах, где рассуждения объясняют последовательности вызовов инструментов, сохранение структурированных рассуждений критически важно.
Например, NVIDIA продемонстрировала, как её модель Nemotron-3-Super-120B теперь может более эффективно обрабатывать чередующиеся рассуждения и вызовы инструментов, обеспечивая корректную привязку каждого фрагмента рассуждения к соответствующему действию инструмента. Это предотвращает ситуации, когда рассуждения ранее группировались неверно, что приводило к потере контекста.
Поведение потоковой передачи и диспетчеризация инструментов
Ещё одним значимым улучшением стала возможность потоковой передачи токенизированных ответов с одновременной диспетчеризацией вызовов инструментов через боковой канал. Ранее вызовы инструментов буферизировались до конца ответа, задерживая выполнение. Благодаря новым возможностям встроенной потоковой передачи и диспетчеризации вызовы инструментов становятся исполняемыми сразу после их парсинга, что значительно повышает отзывчивость для приложений реального времени.
NVIDIA проиллюстрировала это сравнением временных шкал, показывающим, как Dynamo теперь парсит и транслирует вызовы инструментов в середине ответа, обеспечивая немедленное выполнение. Этот редизайн минимизирует сложность на стороне обвязки и обеспечивает бесшовную интеграцию с пользовательскими системами.
Улучшенное соответствие API
Обновления также повышают совместимость Dynamo с Anthropic Messages API — критически важным интерфейсом для таких инструментов, как Claude Code и OpenClaw. Исправления включают корректный подсчёт токенов в начале потоков и возможность обслуживания эндпоинтов метаданных модели, что приближает Dynamo к паритету с нативным бэкендом.
Для пользователей Codex также улучшена совместимость с Responses API OpenAI. NVIDIA устранила проблемы сохранения полей, возникавшие при внутренней обработке запросов, обеспечив поддержку специфических для Codex функций, таких как сводки рассуждений и усечение вызовов инструментов, без снижения производительности.
Что дальше
В перспективе NVIDIA делает части стека обслуживания Dynamo доступными в виде модульных компонентов, включая крейты протокола, парсера и токенизатора. Такая модульность позволяет разработчикам создавать пользовательские обвязки или расширять существующие, не дублируя основную функциональность Dynamo.
Эти обновления позиционируют Dynamo как ведущее решение для агентных рабочих нагрузок, обеспечивая более эффективные и точные многоходовые взаимодействия в широком спектре приложений. Для разработчиков и предприятий, опирающихся на инструменты, управляемые ИИ, эти улучшения предлагают более надёжную и высокопроизводительную инфраструктуру для таких задач, как программирование, анализ данных и многое другое.
Источник изображения: Shutterstock- nvidia
- ai tools
- agentic workflows
- token streaming





