英伟达超级Rubin细节曝光,黄氏法则再升级!最高1024GB显存,免费H100无人要

  新智元报道

  编辑:桃子好困

  老黄在 GTC 2025 大会上,再次亮出了英伟达未来 GPU 路线图。随着推理 token 的暴增,AI 计算需要全新的范式,下一代 BlackWell Ultra、Vera Rubin 就是最强的回应。

  黄氏计算法则,几乎每年一更。

  今年 GTC 2025 大会上,黄仁勋两个多小时演讲中,又向世界带来了最新的计算法则——

  现在,GPU 数量按照每个「封装」内的 GPU 芯片数量来计算,而不是以「封装」数量计算。

  这种全新的计算法则,将从英伟达下一代 GPU Rubin 系列开始应用。

  在 SemiAnalysis 独家报道中,就英伟达 GPU 和系统路线图、最新 Blackwell Ultra 300、26 年 Vera Rubin、从芯片到系统再到软件的全新推理优化等方面进行了详细分析。

  高级分析师指出,过去 6 个月里,模型的进化超过了之前六个月的总和。

  而且,这种趋势仍将持续,因为三个 Scaling Law 正在叠加并协同作用:预训练 Scaling、后训练 Scaling、推理时 Scaling。

  恰恰,今年 GTC 大会全面聚焦的是全新 Scaling 范式。

  推理 Token 爆发增长

  一直以来,Claude 模型以其强大的编程能力,得到开发者青睐,尤其是 Claude 3.7 在软件工程方面展现出惊人的性能。

  另一方面,Deepseek V3 出世表明,上一代模型的能力成本正暴跌,促进了更广泛的应用。

  OpenAI 最新实验模型 o1、o3 用时证明,更长的推理时间和搜索能带来更好的答案。就像预训练 Scaling 的早期阶段一样,为这些模型增加更多后训练计算能力似乎没有上限。

  面对这一系列新事物,老黄给出最有力的回答。

  他表示,「从 GPT 开始,到如今的推理 AI,它不再是仅仅预测下一个 token,而是生成 100 多倍的 token」。

  为了支持更多模型训练部署,英伟达推出了「AI 工厂的操作系统」Dynamo,使得 Blackwell 推理性能相较 Hopper 暴涨 40 倍。

  不仅如此,他们正致力于将推理成本效率提升 35 倍,以支持更多模型的训练和部署。

  老黄的口头禅也从以往「买越多,省越多」,变成了「省越多,买越多」。(the more you save, the more you buy.)

  英伟达在硬件和软件方面的发展路线图,着实带来了显著的推理效率提升。

  这为 LLM 经济高效部署,以及其他变革性企业应用开启了全新机遇——这正是杰文斯悖论(Jevons’ paradox)的典型案例。

  用老黄的话来说,「买越多,赚越多」。(the more you buy, the more you make)。

  不过,市场对此却表示担忧。

  他们的关注点在于类 DeepSeek 这样的软件优化技术和英伟达推动的硬件性能提升,正带来过度的成本节省,这可能导致 AI 硬件需求下降,市场将出现 token 供过于求的现象。

  诚然,价格会影响需求,但随着智能成本的降低,智能能力的边界不断突破,需求也随之增长。

  目前的 AI 能力,仍受限于推理成本。而且,AI 对我们生活的实际影响尚处于萌芽阶段。

  有趣的是,随着成本下降,总体使用量反而会出现悖论性增长。

  人们对 token 通缩的担忧,就像当年讨论光纤泡沫时期只关注每个数据包的互联网连接成本下降,却忽视了网站和互联网应用最终将如何改变我们的生活、社会和经济。

  这里有个关键区别:带宽需求是有限的,而智能需求则会随着能力的显著提升和成本的下降,无限增长。

  英伟达提供的数据印证了 Jevons’ paradox。当前的模型已经需要超 100 万亿个 token,而推理模型更需要 20 倍的 token 用量和 150 倍的计算资源。

  测试阶段的计算每次查询需要数十万个 token,且每月查询量高达数亿次。

  在后训练 scaling 阶段,每个模型需要处理数万亿个 token,同时存在数十万个接受后训练的模型。

  更重要的是,Agentic AI 的出现意味着多个模型将协同合作,共同攻克越来越具有挑战性的问题。

  黄氏计算法则,每年一更

  每年,老黄都会向业界引入全新的计算法则。

  黄氏计算法则一直以其独特性闻名,而今年情况更加特别,SemiAnalysis 观察到了第三条新的计算法则。

  第一条黄氏计算法则涉及浮点运算性能(FLOPs)的标称方式。

  英伟达采用2:4 稀疏计算方式(这种方式在实际应用中几乎未被采用)而非实际使用的密集计算来标示性能。

  比如,H100 的 FP16 实际计算能力为 989.4 TFLOPs,但官方数据却标示为 1979.81 TFLOPs。

  第二条计算法则关于带宽的计算方式。

  NVLink5 的带宽被标示为 1.8TB/s,这是将 900GB/s的发送带宽和 900GB/s的接收带宽相加得出的结果。

  虽然产品规格表采用这种计算方式,但网络行业的通行做法是仅标示单向带宽。

  最新出现的第三条计算法则与 GPU 数量有关。

  正如开篇所言,GPU 数量现在按照每个封装内的 GPU 芯片数量来计数,而不是按照封装数量。

  这种新的命名方式将从 Rubin 产品开始实施。

  比如,第一代 Vera Rubin 机架将被命名为 NVL144,尽管它在系统架构上与使用相同 Oberon 机架和 72 个 GPU 封装的 GB200 NVL72 十分相似。

  这种全新的计数方式无疑会给业界带来理解上的困扰,需要不断解释说明,但这就是我们必须适应的「黄氏世界」。

  接下来,一起看看英伟达的产品路线图。

  Blackwell Ultra B300

  Blackwell Ultra 300(简称 B300)的预览版已经发布,与 SemiAnalysis 在去年 12 月分享的详情保持一致。

  主要规格如下:

  GB300 不会以独立显卡形式销售,而是将作为配备 Grace CPU 的可插拔 SXM 模块中的 B300 GPU 推出,同时还提供可插拔 BGA 封装版本。

  性能方面,B300 的 FP4 浮点运算密度,较 B200 同等产品提升超过 50%。内存容量提升至每个封装 288GB(采用 8 堆叠 12 层 HBM3E 高带宽显存),带宽维持在 8TB/s。

  这一性能提升是通过减少部分(而非全部)FP64 ALU,并替换为 FP4 和 FP6 运算单元实现的。

  双精度运算主要用于 HPC 和超级计算领域,而非 AI 工作负载。尽管这让 HPC 界感到失望,但从商业角度看,英伟达更注重发展规模更大的 AI 市场。

  B300 HGX 版本现已更名为 B300 NVL16。

  该产品将采用此前称为「B300A」的 Blackwell 单 GPU 版本,现已更名为 B300。

  这相当于双芯片 B300 的一半配置,由于标准版 B300 在单个封装中缺少连接两个 GPU 芯片的高速 D2D 接口,可能会带来额外的通信开销。

  B300 NVL16 将取代现有的 B200 HGX 架构,在主板上配置 16 个封装和 GPU 芯片。具体实现方式是,在每个 SXM 模块上安装 2 个单芯片封装(总共 8 个这样的模块)。

  英伟达选择这种方案而非继续使用 8 个双芯片 B300 的原因尚不明确;高级分析师推测,采用更小尺寸的 CoWoS 封装模块和基板所带来的良率提升可能是主要考虑因素。

  值得注意的是,封装技术将采用 CoWoS-L 而非 CoWoS-S,这一决策意义重大。

  此前选择单芯片 B300A 是出于 CoWoS-S 的成熟度和产能考虑。此次转向 CoWoS-L 表明该技术已经从最初的不稳定状态快速发展为成熟可靠的解决方案,良率也已达到稳定水平。

  这 16 个 GPU 将通过 NVLink 协议进行通信,与 B200 HGX 的设计类似,两组 SXM 模块之间将配置两个 NVSwitch 5.0 专用芯片(ASIC)。

  另有一个新的变化是,不同于先前几代 HGX 产品,B300 NVL16 将不再使用 Astera Labs 的信号重定时器。不过,部分超大规模云计算服务商可能会选择改用 PCIe 交换机。

  B300 的另一个重要特性是,将搭载全新的 CX-8 NIC,该接口卡提供 4 条 200Gbps 通道,使 InfiniBand 总吞吐量达到 800Gbps,较当前 Blackwell 采用的 CX-7 网络接口卡的网络速度翻了一番。

  Vera Rubin:3nm 制程,首个全自研 CPU

  Rubin 将在台积电 3nm 工艺上,采用两个掩模尺寸的计算芯片。

  这些计算芯片两侧将各配备一个I/O(输入/输出)芯片,整合所有 NVLink、PCIe 和 NVLink C2C IP 的 SerDes,这样可以为主计算芯片释放更多空间用于核心计算功能。

  Rubin 将提供惊人的 50 PFLOPs 的密集 FP4 计算能力,相比 B300 提升了超过 3 倍。英伟达通过以下几个关键方向实现了这一突破:

  1. 首先,如前所述,独立的I/O芯片设计释放了大约 20-30% 的芯片面积,这些空间可用于增加流式多处理器和张量核心的数量。

  2. 其次,Rubin 将采用 3nm 制程工艺,可选用定制的英伟达 3NP 或标准 N3P 工艺。从 Blackwell 世代的 4NP 工艺升级到 3NP,逻辑密度获得显著提升,但 SRAM 的尺寸几乎保持不变。

  3. 第三,Rubin 的热设计功耗(TDP)将提升至约 1800 瓦,这可能支持更高的运行频率。

  4. 最后是架构层面的 scaling。英伟达在每代产品中都采用更大规模的张量核心脉动阵列。

  据分析,这一规模从 Hopper 架构的 32×32,增加到了 Blackwell 的 64×64,在 Rubin 中可能会进一步扩大到 128×128。

  更大的脉动阵列能够提供更好的数据复用效率和更低的控制复杂度,在面积利用率和功耗效率方面都具有优势。

  虽然编程难度随之增加,这也是英伟达没有像谷歌 TPU 那样采用 256×256 规模的原因之一。

  同时,这种设计对制造良率也会产生影响。值得注意的是,英伟达的掩模尺寸单片芯片具有很高的参数良率,这得益于其架构中内置的冗余设计和可修复机制,包含众多小型计算单元。

  当发现缺陷的计算单元时,可以将其禁用,从而保证产品良率。

  这与谷歌 TPU 采用的设计策略不同,后者使用数量较少但规模更大的张量核心,因此无法像英伟达的设计那样灵活处理逻辑单元缺陷。

  Rubin 将延续 GB200/300 NVL72 所采用的 Oberon 机架架构。它将搭配 Vera CPU,采用 3nm 制程的 Grace 继任者。

  值得注意的是,Vera 将采用英伟达完全自主设计的处理器核心,这与主要依赖 Arm 公司 Neoverse CSS 核心的 Grace 处理器有所不同。

  此外,英伟达还开发了独特的互联架构,使单个 CPU 核心能够根据需要访问更大的内存带宽,这一点是 AMD 和英特尔 CPU 目前面临的重大技术挑战。

  这就引出了新的命名方式。尽管新机架实际只配备 72 个 GPU 封装,包含 144 个计算芯片,即 72 个封装×每封装 2 个计算芯片,但将被命名为 VR200 NVL144。

  不得不说,英伟达是如此富有创新精神,连 GPU 的计数方式都在改变!

  在内存方面,英伟达 HBM 容量将维持在 288GB,但升级到了 HBM4 技术:采用 8 堆 12 层设计,保持每层 24GB 的密度。

  升级到 HBM4 带来了显著的带宽提升,总带宽达到 13TB/s,这主要得益于总线宽度翻倍至 2048 位,以及达到当前 JEDEC 标准上限的 6.5Gbps 引脚速度。

  互联技术方面,新产品将采用第六代 NVLink,通过翻倍通道数实现速度翻倍,达到 3.6TB/s(双向)。英伟达将继续使用 224G 串并转换器(SerDes)技术。

  关于 Oberon 机架,它将继续使用铜质背板,但分析师预计随着每个 GPU 通道数的翻倍,连接电缆的数量也会相应翻倍。

  在交换技术方面,NVSwitch 专用芯片的总带宽也将实现翻倍,同样是通过增加通道数来实现的。

  Rubin Ultra 性能惊人,HBM 达 1024GB

  Rubin Ultra 将带来革命性的性能提升。

  英伟达在这款产品中将单个封装 HBM 堆叠数量直接从 8 个提升至 16 个。其架构采用 4 个掩模尺寸的 GPU 芯片呈线性排列,两端各配备一个I/O芯片。

  得益于计算面积的翻倍,密集 FP4 浮点运算性能提升至 100 PFLOPs。HBM 容量达到惊人的 1024GB,超过标准版 Rubin 的 3.5 倍。

  这不仅体现在堆叠数量的翻倍,还包括密度和层数的提升。为实现单封装 1TB 内存容量,产品将采用 16 个 HBM4E 堆叠,每个堆叠包含 16 层、每层 32Gb 的 DRAM 核心芯片。

  根据 SemiAnalysis 分析,这种封装设计将在基板上采用双中介层方案,以避免使用单个超大尺寸中介层(接近 8 个掩模尺寸)。

  中间的两个 GPU 芯片将通过 D2D 接口的超薄I/O芯片实现通信,信号传输通过基板完成。

  这种设计需要使用超大型 ABF 基板,其尺寸将突破当前 JEDEC 封装标准的限制(长宽均为 120 毫米)。

  在内存系统方面,整体配备 365TB 快速内存/二级 LPDDR 内存。其中,每个 Vera CPU 配备 1.2TB LPDDR,72 个 CPU 总计提供 86TB 容量,剩余容量由每个 GPU 封装配备的 2TB LPDDR 来实现。

  这体现了自主研发的 HBM 基础芯片功能:通过在基础芯片上集成 LPDDR 内存控制器来支持额外的二级内存,这些内存以 LPCAMM 模块形式布置在电路板上的封装周边。这是对 Vera CPU 自带二级内存的重要补充。

  同时,这也标志着创新的 Kyber 机架架构的首次亮相。

  全新 Kyber 机架:4 个机柜,144 块 GPU

  Kyber 机架架构是此次发布的重要创新之一。

  英伟达通过创新性地将机架旋转 90 度来提升部署密度。考虑到 NVL576 配置(144 个 GPU 封装),这一设计在大规模集群部署方面实现了显著的密度提升。

  接下来,详细对比 Oberon 和 Kyber 两种机架架构的主要区别。

  1. 计算单元设计:计算托盘采用 90 度旋转设计,以卡匣形式安装,显著提升机架密度。

  2. 机架结构:每个机架配备 4 个机柜,每个机柜包含两层共 18 个计算卡匣。

  3. NVL576 配置:

  • 每个计算卡匣装配一个 R300 GPU 和一个 Vera CPU

  • 每个机柜总计 36 个 R300 GPU 和 36 个 Vera CPU

  • 整体 NVLink 网络规模达到 144 个 GPU(合计 576 个计算芯片)

  4. 互联方案:采用 PCB 板背板替代传统的铜缆背板,用于实现机架内 GPU 与 NVSwitch 间的互联。这一改变主要是为了解决在更紧凑空间内布线的挑战。

  有趣的是,供应链情报显示,可能存在 VR300 NVL 152 版本(配备 288 个 GPU 封装)的 Kyber 机架变体。

  这一数字可以从 GTC 主题演讲中展示的晶圆图片得到证实,其中标红显示了 288 个 GPU 封装。

  SemiAnalysis 推测这可能是一款正在开发中的产品型号,旨在将机架密度 NVLink 网络规模从 GTC 2025 展示的 NVL576(144 个 GPU 封装)提升一倍,达到 NVL 1152(288 个封装)的规模。

  另一个重要进展是第七代 NVSwitch 的推出。这是 NVSwitch 首次在平台周期中期进行升级。

  新款交换芯片提供更高的聚合带宽和端口数,支持单个网络域内扩展至 576 个 GPU 芯片(144 个封装)。

  不过,网络拓扑可能不再采用全连接无阻塞的单层多平面优化架构,而是改用具有一定超额认购比的多平面优化双层网络拓扑,甚至可能采用非 Clos 架构的创新拓扑设计。

  Blackwell Ultra 重叠计算,降低延迟

  各种注意力机制变体(包括 flash-attention、MLA、MQA 和 GQA)都需要进行矩阵乘法(matmuls)和 softmax 函数计算(包括行方向归约和逐元素指数函数)。

  其中矩阵乘法又称为 GEMM,或通用矩阵乘法,专门用于处理神经网络计算中的矩阵乘法运算。

  在 GPU 架构中,GEMM 运算由张量核心执行。虽然张量核心的性能在每代产品中都有显著提升,但负责逐元素指数计算(如 softmax)的多功能单元(MUFU)的性能提升相对较小。

  在采用 bf16(bfloat16)格式的 Hopper 架构中,注意力层的 softmax 计算需要消耗 GEMM 运算 50% 的计算周期。

  这迫使内核工程师必须通过重叠计算来「掩盖」softmax 的延迟,这大大增加了内核编程的难度。

  在采用 FP8 格式的 Hopper 架构中,注意力层的 softmax 计算与 GEMM 运算消耗相同的计算周期。

  这意味着,如果不进行任何重叠计算,注意力层的计算时间将翻倍:需要 1536 个周期用于矩阵乘法计算,再需要 1536 个周期进行 softmax 计算。

  这就是重叠计算发挥作用的地方。由于 softmax 和 GEMM 运算需要相同的周期数,内核工程师需要优化实现完美的重叠计算。

  然而,完美的重叠在实际中是不可能实现的,根据 Amdahl 定律,这将导致硬件性能损失。

  以上描述的挑战主要存在于 Hopper GPU 架构中,并且这个问题在第一代 Blackwell 中仍然存在。英伟达通过推出 Blackwell Ultra 来解决这个问题,他们重新设计了 SM 并增加了新的指令集来改进性能。

  在 Blackwell Ultra 中,用于计算注意力机制 softmax 部分的 MUFU 单元性能较标准 Blackwell 提升了 2.5 倍。这大大降低了对完美重叠 softma 和 GEMM 计算的要求。

  借助 MUFU 的 2.5 倍性能提升,CUDA 开发人员在实现重叠计算时有了更大的灵活性,同时不会影响注意力内核的性能。

  在这种情况下,英伟达全新的推理栈和 Dynamo 优化引擎就能派上用场。

  推理栈与 Dynamo 优化引擎

  在 2023 GTC 大会上,英伟达展示了 GB200 NVL72 凭借其 72 个 GPU 的大规模 scaling 能力,在 FP8 精度下实现了比 H200 高 15 倍的推理吞吐量。

  而今年,英伟达的创新步伐不减。他们正通过硬件和软件双重突破,在多个维度推动推理性能的提升。

  新推出的 Blackwell Ultra GB300 NVL72 较 GB200 NVL72 在 FP4 密集计算方面提供了 50% 的性能提升,同时 HBM 容量也提升了 50%。

  这两项提升都将直接促进推理吞吐量的增长。

  此外,产品路线图中还包括 Rubin 世代多项网络速度的升级,这些改进也将为推理吞吐量带来实质性提升。

  在硬件层面,下一个重大突破将来自 scaling 网络规模的提升:从 Rubin 的 144 个 GPU 芯片 scaling 到 Rubin Ultra 的 576 个 GPU 芯片。但这仅是硬件创新的一部分。

  在软件方面,英伟达发布了 Nvidia Dynamo——这是一个致力于简化推理部署和扩展的开放式 AI 引擎技术栈。

  它有望超越现有的 VLLM 和 SGLang 解决方案,不仅提供了 VLLM 所不具备的多项功能,还实现了更高的性能。

  结合硬件层面的创新,Dynamo 将进一步推动吞吐量与交互性能力的提升,尤其在高交互性应用场景中可以实现更高的吞吐量。

  Dynamo 为现有推理加速技术栈引入了以下几项关键创新功能:

  1. 智能路由(Smart Router)

  2. GPU 任务规划器(GPU Planner)

  3. 增强型 NCCL 集合通信框架(Improved NCCL Collective)

  4. NIXL(NVIDIA Inference Transfer Engine)

  5. NVMe KV-Cach 智能卸载系统

  智能路由

  智能路由管理系统在多 GPU 推理部署环境中,可以智能地将输入序列中的每个 token 精确分配至负责预填充和解码任务的 GPU。

  在预填充阶段,系统确保输入 token 均匀分布到执行预填充任务的各个 GPU,从而避免在专家模块上出现性能瓶颈。

  同样,在解码阶段,系统着重确保序列长度和请求在执行解码的各个 GPU 之间实现最优分配和负载均衡。

  对于那些访问频率较高的专家模块,GPU 任务规划器还可以创建额外的副本以维持整体负载平衡。

  此外,该路由系统还能在服务于同一模型的多个副本之间实现负载均衡,这是当前主流推理引擎(如 vLLM 等)所不具备的重要特性。

  GPU 任务规划器

  GPU 任务规划器是一个智能化的资源调度系统,可以自动管理预填充和解码节点的动态扩缩。

  该系统能够根据全天负载的自然波动情况,灵活调整计算节点数量。在 MoE 中,规划器可以在预填充和解码两类节点上实现多个专家模块之间的负载均衡。

  当某些专家模块负载较高时,规划器会自动配置额外的 GPU 资源提供计算支持。

  此外,系统还能根据实时需求在预填充和解码节点之间进行动态资源重分配,从而最大化资源利用效率。

  该系统的一个重要特性是支持动态调整解码和预填充任务的 GPU 分配比例。

  这项功能在深度研究等特定场景中特别有价值:由于这类应用需要处理海量上下文信息,但实际生成的内容相对较少,因此需要分配更多资源用于预填充处理而非解码任务。

  增强型 NCCL 集合通信框架

  英伟达在其集合通信库(NCCL)中引入了一组全新的低延迟通信算法。这些算法可以将小规模消息传输的延迟降低至原来的1/4,从而显著提升整体推理性能和吞吐量。

  在今年的 GTC 大会上,Sylvain 的技术演讲深入介绍了这些创新特性,重点阐述了新开发的 one-shot 和 two-shot 全规约算法,这些算法是性能提升的核心所在。

  值得注意的是,AMD 的 RCCL 库本质上是 NVIDIA NCCL 的一个分支复制版本。

  因此,Sylvain 主导的 NCCL 架构重构不仅进一步巩固了 CUDA 生态系统的技术优势,还迫使 AMD 团队不得不投入数千工程师小时来将英伟达的重构更新同步到 RCCL。在 AMD 忙于同步代码变更的同时,英伟达则可以继续专注于推进集合通信软件栈和算法的创新发展。

  NIXL

  为了实现预填充节点和解码节点之间的高效数据传输,需要采用低延迟、高带宽的通信传输库。

  NIXL 采用了创新的 InfiniBand GPU 异步初始化(IBGDA)技术。在当前的 NCCL 架构中,控制流需要通过 CPU 代理线程进行处理,而数据流可以直接传输到 NIC,无需经过 CPU 缓冲区。

  而采用 IBGDA 技术后,控制流和数据流都能够绕过 CPU,实现从 GPU 到网络接口卡的直接传输。

  此外,NIXL 还通过抽象化简化了各种存储和内存设备之间的数据传输复杂度,包括简化 CXL、本地 NVMe 、远程 NVMe 、CPU 内存、远程 GPU 内存和本地 GPU 内存。

  NVMe KV-Cache 智能卸载系统

  KV 缓存智能卸载管理系统采用创新方式,将用户历史对话产生的键值缓存保存在 NVMe 存储设备中,而不是直接废弃,从而显著提升了整体预填充效率。

  在用户与 LLM 进行多轮对话时,模型需要将对话历史中的问题和回答作为上下文输入进行处理。

  在传统实现中,推理系统会丢弃用于生成早期对话的键值缓存,这导致系统在处理后续对话时需要重新计算这些缓存内容,造成重复计算。

  而采用 NVMe KV 缓存卸载技术后,当用户暂时离开对话时,系统会将键值缓存临时保存到 NVMe 存储系统中。

  当用户返回并继续对话时,系统可以快速从 NVMe 存储中恢复这些缓存数据,避免了重复计算的开销。

  这项创新带来两个重要优势:

  1. 提升资源利用效率:释放预填充节点的处理能力,支持更高的并发量,或降低所需的预填充部署规模

  2. 优化用户体验:由于直接检索缓存比重新计算更快,显著减少了首个 token 的生成延迟

  根据 DeepSeek 在 GitHub 上发布的第六天研发记录显示,其磁盘 KV 缓存的命中率达到了 56.3%,这一数据表明其预填充部署效率获得了显著提升。

  实践表明,在用户进行多轮对话场景中,此类部署的典型 KV 缓存命中率通常在 50-60% 之间。

  虽然部署 NVMe 存储解决方案需要一定成本投入,存在一个效益平衡点:对于较短的对话,直接重新计算比重新加载更经济高效;但在长对话场景下,该方案可以带来巨大的性能收益。

  对于持续关注 DeepSeek 开源周的开发者来说,上述技术都不会陌生。

  在英伟达完善 Dynamo 技术文档的同时,上述内容为开发者提供了快速了解这些技术的绝佳渠道。

  这些创新功能的集成带来了全方位的推理性能提升。英伟达还特别介绍了 Dynamo 在现有 H100 节点上部署后带来的性能改进。

  从本质上说,Dynamo 实现了对 DeepSeek 创新技术的民主化,让整个开发社区都能够共享开源模型技术的最新成果。这意味着不仅是那些拥有强大推理部署工程团队的顶级 AI 实验室,所有开发者都能够部署高效的推理系统。

  最后,由于 Dynamo 在分布式推理和专家并行计算方面具有广泛的适用性,它在独立复制和高交互性部署场景中表现尤为出色。

  当然,要充分发挥 Dynamo 的性能优势并实现显著改进,必须具备多节点的硬件基础设施。

  AI 总拥有成本暴降 99.97%

  在结束 Blackwell 介绍后,老黄通过一个引人注目的说法强调了技术创新的影响力——这些创新使他成为了「降价推动者」。

  具体而言,Blackwell 相较于上一代 Hopper 架构,实现了高达 68 倍的性能提升,使总成本降低了 87%。

  而下一代 Rubin 架构的性能预计将比 Hopper 提升 900 倍,预计可使成本降低 99.97%。

  显然,英伟达正在保持高速的技术创新步伐。正如老黄所说,「一旦 Blackwell 开始规模化出货,Hopper 即使免费提供也将无人问津」。

  长期以来,SemiAnalysis 持续建议生态系统合作伙伴优先考虑部署 B200 和 GB200 NVL72 等新一代系统,而非采购 H100 或 H200。

  事实上,H100 租赁价格预测模型正是基于老黄所阐述的这一原理。

  高级分析师综合考虑了未来市场装机量预测、集群总拥有成本以及下一代芯片性能等因素,构建了完整的价格预测曲线。

  该预测框架迄今表现出色:他们于 2024 年 4 月首次向客户发布的 H100 租赁价格预测模型,从 2024 年初至今的预测准确率高达 98%。

  首个光学封装 CPO,功耗节省 12%

  在主题演讲中,英伟达发布了其首个用于扩展型交换机的同封装光学解决方案。

  这项技术将传统的光学收发器替换为外部激光源(ELS),并将光学引擎(OE)直接集成在芯片硅片旁边,实现数据通信。

  在新架构中,光纤电缆不再连接传统收发器端口,而是直接插入交换机上与光学引擎相连的专用端口。

  CPO 技术带来的主要优势是显著降低功耗,这源于多个方面:

  1. 交换机本身不再需要数字信号处理器(DSP)

  2. 可以使用更低功率的激光光源

  3. 虽然使用线性可插拔光学(LPO)收发器也能实现部分节能,但 CPO 独特的优势在于支持更大的交换机基数,使网络层级从三层简化为两层

  4. 减少网络层级不仅消除了一整层交换设备,还带来了可观的成本和能耗节省

  根据 SemiAnalysis 分析,在部署 400,000 个 GB200 NVL72 设备的场景中,从传统的基于 DSP 收发器的三层网络迁移到基于 CPO 的两层网络,可以实现高达 12% 的集群总功耗节省,将收发器功耗占比从计算资源的 10% 降低到仅1%。

  英伟达本次发布了多款采用 CPO 技术的交换机产品:

  • Quantum X-800 3400 CPO 版本(原型于 2024 年 GTC 发布)

  • 144 个 800 Gbps 端口

  • 总吞吐量:115Tbps

  • 配置:144 个 MPO 端口 + 18 个 ELS

  • 预计 2025 年下半年推出

  • Spectrum-X 以太网 CPO 交换机

  • 512 个 800 Gbps 端口

  • 支持高速大基数配置,实现快速扁平化网络拓扑

  • 预计 2026 年下半年推出

  虽然此次发布已经展现出突破性的技术创新,但高级分析师认为这仅是英伟达在 CPO 领域的起步。

  从长远来看,CPO 技术在扩展网络中可能带来更大的价值:它有潜力大幅提升 GPU 的网络基数和总带宽,实现更高效的扁平化扩展网络架构,突破当前 576 个 GPU 的规模限制。

  英伟达稳坐王座,正重塑计算成本格局

  The Information 一篇文章称,亚马逊将 Trainium 芯片的价格定在 H100 的 25%。

  与此同时,老黄会上表示「当 Blackwell 大规模量产后,就算免费送 H100 也没人要」。

  高级分析师认为,后一种说法极具深意。

  技术继续驱动着总拥有成本,在我们所见的各个领域(可能除了 TPU),都能看到竞争对手在复制英伟达的技术路线图。与此同时,老黄正在推动技术发展的边界。

  新架构、机架结构、算法改进和 CPO 技术,每一项都体现了英伟达与竞争对手的技术差异。

  英伟达目前在几乎所有领域都处于领先地位,当竞争对手追赶上来时,他们就会在另一个进步方向上推进。

  随着英伟达保持年度更新节奏,SemiAnalysis 预计这种趋势将会持续。

  虽然有人说 ASIC 是计算的未来,但从 CPU 时代就看到,一个快速改进的通用平台是很难被超越的。

  英伟达正在用 GPU 重新创造这个平台,高级分析师预计他们将继续引领行业发展。

  想要追赶这位「营收终结者」可不容易。

  参考资料:

  https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/