全力挑战英伟达!微软发布首款数据处理芯片,推动服务器性能提升400%

  (图片来源:微软官网)

  北京时间 11 月 19 日晚 Microsoft Ignite 2024 大会上,美股科技巨头微软公司推出了一系列关于 Azure 云计算和 AI 相关的服务和软硬件产品。

  其中,微软推出了其首款用于内部业务的数据处理器 Azure Boost DPU。

  作为微软的首款内部 DPU 芯片,Azure Boost DPU 旨在高效、低功耗地运行 Azure 数据中心的工作负载,将传统服务器的多个组件整合到一块芯片中,并将高速以太网和 PCIe 接口以及网络和存储引擎、数据加速器和安全功能集成到一个完全可编程的片上系统中。微软预计,未来配备 DPU 的 Azure 服务器,将以现有服务器四倍(400%)的性能运行存储工作负载,同时功耗降低三倍。

  中科驭数创始人、CEO 鄢贵海对钛媒体 App 表示,这是 DPU 的应用方主动推动 DPU 进入规模化应用的标杆案例,对 DPU 后续更快速发展有利。DPU 就是为智算和未来的高性能计算的特点来“定制”的,而国内也在逐步完善自主 DPU、CPU、GPU 等计算基础设施,需立足于与自主的计算平台的融合发展,共同进步,并且让“可用性”与“先进性”并重发展。

  13 亿收购整合近两年后,微软推出首款 DPU 芯片

  具体来说,DPU(Data Processing Unit)是面向以数据为中心的计算的新一代数据处理器,集完整的数据中心功能于单芯片,和 CPU 及 GPU 一起构成新型计算的三大支柱,用于处理某些数据处理任务,包括数据流量的安全性和网络路由。旨在帮助减少与特定工作负载(包括 AI 工作负载)相关的核心计算任务对 CPU 和其他芯片的负载。

  通俗地讲,如果把一台计算机或服务器比作一个团队,CPU 相当于这个团队的“大管家”,负责思考并处理各种业务;GPU 是“美工”,专攻图像处理;DPU 则相当于“前台”,负责打包、拆包“数据包”,提升整个团队的工作效率。

  英伟达首席执行官黄仁勋曾指出,CPU、GPU 和 DPU 将成为数据中心的基础。在他的愿景下,CPU 将负责一般处理,GPU 将为加速计算提供动力,而 DPU 将管理数据流。

  过去几年,英伟达、AMD、谷歌、亚马逊等企业都在自研 DPU 芯片。

  其中,英伟达于 2019 年开始提供其 BlueField 系列 DPU;AMD 自 2022 年以来一直在销售其 Pensando DPU;亚马逊 AWS 的 Nitro 卡提供类似 DPU 的功能;而谷歌则与英特尔合作开发可执行许多与 DPU 相同功能的芯片。

  早在 2022 年 12 月底,微软收购了前苹果和瞻博网络工程师创立的公司 DPU 制造商 Fungible,总交易额约.9 亿美元(约合人民币 13.76 亿元)。收购后,Fungible 团队加入了微软的基础设施工程部门,因此,Azure Boost DPU 可能起源于该团队。

  分析师 Dylan Patel 曾表示,在交易之前,Fungible 曾尝试融资,但未能成功,并试图将自己出售给 Meta Platforms,“微软考虑与 Fungible 合作设计芯片,但最终决定低价收购这家公司、员工和知识产权。”

  因此这意味着,微软 Azure Boost DPU 直接对标英伟达 DPU,并且加上微软定制 CPU 等,这将减少微软对英伟达 AI 服务器芯片 H100/A100 的依赖。

  “Azure Boost DPU 专为 Azure 上的横向扩展、可组合工作负载而设计,可为其云基础设施提供跨存储、网络、加速等方面的效率。”微软表示。但微软没有透露更多的基础测试信息,也没有提到 Azure 客户何时可以看到这些收益。

  此外,微软这次还宣布推出 Azure 内部云安全芯片 HSM,Azure 容器应用无服务器 GPU 公开预览版,和面向 HPC 客户及其应用程序的最新基于 CPU 的虚拟机 Azure HBv5 等。

  • Azure 集成硬件安全模块 (HSM)是一款全新的内部云安全芯片,它允许将签名密钥(基本上是数字加密签名)和加密密钥(用于加密数据的位串)包含在安全模块中,而不会影响性能或增加延迟。微软表示:“从明年开始,Azure Integrated HSM 将安装在微软数据中心的每台新服务器上,以增强 Azure 硬件集群对机密和通用工作负载的保护。”Azure Integrated HSM 是微软继 Pluton 之后推出的第二款安全芯片,Pluton 是一款内置于英特尔、AMD 和高通处理器中的面向消费者的芯片。这也是该公司对其云竞争对手专有解决方案的回应:AWS 的 Nitro 处理某些安全任务,而谷歌在谷歌云服务器中内置了一个名为 Titan 的安全芯片。
  • 无服务器 GPU 由 NVIDIA A100 GPU 和 NVIDIA T4 GPU 逆行加速,可轻松扩展并灵活地执行实时自定义模型推理和其他机器学习任务;
  • HPC 虚拟机 Azure HBv5,针对计算流体动力学、汽车和航空航天模拟、天气建模、能源研究、分子动力学、计算机辅助工程等领域进行优化,有四个处理器共同工作,提供近 7 TB/s 的内存带宽,与最新的裸机和云替代方案相比,这高出 8 倍,比 Azure HBv3 和 Azure HBv2(第三代 EPYC 和第二代 EPYC Rome)高出近 20 倍,比接近硬件生命周期末期的 4-5 年 HPC 服务器高出 35 倍。

  微软表示,Azure Boost DPU 是其通过硬件创新增强基础设施系列的最新成员。“随着我们不断突破可能的界限,我们仍致力于提供创新,使我们的基础设施更强大、更高效、更具可扩展性,以满足客户不断变化的需求。”

  市场规模将近 400 亿,AI 正加速全球半导体市场

  事实上,DPU 带来的效率提升对超大规模企业来说颇具吸引力,这些企业受 AI 需求的推动,正在建设越来越大、耗电量越来越大的数据中心。微软在 2022 年表示,由于其能耗不断增长,其数据中心能源成本将增加 8 亿美元。

  据 Allied Analytics 称,到 2031 年,DPU 芯片的市场价值可能达到 55 亿美元(约合人民币 398.26 亿元),接近 400 亿规模。

  值得注意的是,国内也有很多初创公司在做 DPU 芯片产品,比如,中科驭数、云脉芯联、星云智联、云豹智能等。此外,阿里、百度、腾讯也在近几年针对自身服务器进行自研与外购 DPU,针对的主要功能在于数据,存储与安全方面。

  如今,AI 大模型使得算力需求的迅猛增长,而基于传统 IT 架构建构的软硬件体系结构愈发无法满足数据中心对大规模、高带宽和低延迟的诉求,而全新的 DPU 技术,将引领数据中心从依赖单核、单机算力的架构向分布式集群计算的架构演进。

  鄢贵海表示,大模型数据中心与传统数据中心最大的区别之一就是互连网络的带宽延迟要求都更高、以及相对扁平的拓扑结构。DPU 正好是应对高带宽低延迟,支持各种突发网络流量分发、大流量聚合的引擎,可以让数据在各个计算节点间更高效的流动,而无需 CPU 的操作和干扰。

  “降低对单一供应商的依赖是商业上的一个惯常思维吧, 对于供应链可靠性和成本都有好处,无可厚非。但是 DPU 还是属于技术门槛比较高、周期比较长的产品,所以,英伟达、微软等科技巨头还是有一些天然的优势的。国内也在逐步完善自主 CPU、GPU 等计算基础设施。”鄢贵海认为,国内的 DPU 的研发还是要立足于与自主的计算平台的融合发展,共同进步;同时也要吸收国际一线厂商在一些新的体系架构和应用支撑上的成功案例,把“可用性”与“先进性”并重发展。

  IDG 资本合伙人李骁军曾表示,作为与 CPU、GPU 并列的大芯片,DPU 推动着数据中心基础架构的革新,深耕 DPU 领域,不仅需要充分理解大规模云厂商的业务需求、定义架构特性,同时还要具备大芯片的工程实现能力。

  “重大平台转变即将到来”,微软 CEO 萨蒂亚·纳德拉 (Satya Nadella) 在会上表示,Copilot 是 AI 的用户界面,它正在迅速成为工作的组织层,并决定工作如何完成。Copilot AI 平台将改变各个级别的人们有效和高效的工作方式,AI Agent 将是重点。

  展望 AI 的未来,纳德拉指出,“AI 的问题在于计算机根本不在乎,而我们却在乎。在这一切快速变化中,我们始终坚守我们的使命,那就是让地球上的每个人、每个组织都能取得更大的成就,利用这项技术为团队和世界带来改变。技术不是为了技术而技术,而是要将技术转化为真正的成果,技术的变革力量可以推动业务增长,提高效率和运营平衡(杠杆)。”

  纳德拉强调,AI 技术技能将改变人们的生活,事实上,它已经改变了。

  (本文首发于钛媒体 App,作者|林志佳,编辑|胡润峰)