NVIDIA 推出 Vera Rubin POD 40 机架人工智能超级计算机用于智能体工作负载

Iris Coleman 2026年3月16日 19:48

NVIDIA 宣布推出 Vera Rubin POD,配备分布在 40 个机架的 1,152 个 GPU,提供 60 exaflops 算力,每瓦推理性能比 Blackwell 高出 10 倍。

NVIDIA 推出 Vera Rubin POD 40 机架人工智能超级计算机用于智能体工作负载

NVIDIA 刚刚发布了其迄今为止最雄心勃勃的人工智能基础设施规格。Vera Rubin POD 在 40 个机架中配备了 1,152 个 Rubin GPU,提供 60 exaflops 的计算能力和每秒 10 PB 的总扩展带宽。生产单元将于 2026 年下半年出货。

这些数字令人震惊:1.2 千万亿个晶体管,近 20,000 个 NVIDIA 芯片,全部设计为作为单一连贯的超级计算机运行。NVIDIA 声称与其当前的 Blackwell 架构相比,训练性能提高 4 倍,每瓦推理性能提高 10 倍——代币成本降至当前水平的十分之一。

五个专用机架系统

POD 结合了五个不同的机架级系统,每个系统针对现代人工智能工作负载中的特定瓶颈:

Vera Rubin NVL72 作为核心计算引擎。每个机架集成了 72 个 Rubin GPU 和 36 个 Vera CPU,通过 NVLink 6 连接,每个 GPU 推送 3.6 TB/s 的带宽——据 NVIDIA 称,总带宽超过整个全球互联网。该系统针对所有四个人工智能扩展定律:预训练、后训练、测试时扩展和智能体扩展。

Groq 3 LPX 机架解决延迟问题。每个机架配备 256 个语言处理单元,采用纯 SRAM 架构,这些与 NVL72 配对,NVIDIA 声称与 Blackwell 相比,万亿参数模型可提供 35 倍更多的代币和 10 倍更多的收入机会。

Vera CPU 机架为智能体测试提供沙盒环境。单个机架可维持超过 22,500 个并发强化学习环境——这对于在部署前验证智能体人工智能输出至关重要。

BlueField-4 STX 机架通过 CMX 上下文内存平台引入 NVIDIA 所称的"原生人工智能存储"。通过将 KV 缓存卸载到专用高带宽存储,该系统声称比传统方法每秒代币数量高 5 倍,能效高 5 倍。

Spectrum-6 SPX 网络机架通过配备协同封装光学器件的 102.4 Tb/s 交换机将所有内容连接在一起。

代币经济学论点

NVIDIA 围绕特定的市场现实进行阐述:代币消耗现在每年超过 10 千万亿,从人机交互到机机交互的转变将大幅加速这一增长。现代智能体系统在扩展 KV 缓存需求的同时生成大量推理代币——这正是该架构针对的瓶颈。

NVIDIA 引用的第三方 SemiAnalysis InferenceMax 基准测试显示,当前 Blackwell 系统与 H200 相比,每瓦性能已提高 50 倍,每代币成本降低 35 倍。Vera Rubin 旨在扩大这一领先优势。

热力和电力工程

第三代 MGX 机架架构引入了智能电力平滑技术,机架级能量存储比前几代多 6 倍(每个 GPU 400 焦耳)。这将峰值电流需求降低了多达 25%,并消除了对大型电池组的需求。

所有机架在 45°C 温水入口温度下运行,使许多气候条件下的数据中心能够使用环境空气冷却。NVIDIA 声称这释放了足够的电力,可在相同设施电力预算内增加 10% 的机架。

展望未来

除了初始 POD 配置外,NVIDIA 还预览了 Vera Rubin Ultra NVL576,可扩展至 8 个机架的 576 个 GPU,以及下一代 Kyber 架构,目标是每个机架 144 个 GPU 的 NVL1152。路线图表明 NVIDIA 将多机架 NVLink 域视为人工智能基础设施的未来——不仅仅是更大的 GPU,而是根本不同的系统架构。

对于规划人工智能基础设施投资的企业来说,信息很明确:人工智能计算的经济学正在从芯片级优化转向设施级优化。现在建设数据中心的企业面临着在当前一代系统和等待 2026 年底 Vera Rubin 可用性之间做出选择。

图片来源:Shutterstock