智东西
作者 ZeR0
编辑漠影
猛,实在是猛!就在今日,老牌芯片巨头 AMD 交出了一份令人印象深刻的 AI 答卷。
智东西美国旧金山 10 月 10 日现场报道,酷热的天气刚刚过去,旧金山正值秋意凉爽,今日举行的 AMD Advancing AI 2024 盛会却格外火热。
AMD 倾囊倒出了一系列 AI 杀手锏,发布全新旗舰 AI 芯片、服务器 CPU、AI 网卡、DPU 和 AI PC 移动处理器,将 AI 计算的战火烧得更旺。
这家芯片巨头还大秀 AI 朋友圈,现场演讲集齐了谷歌、OpenAI、微软、Meta、xAI、Cohere、RekaAI等重量级 AI 生态伙伴。
备受期待的旗舰 AI 芯片AMD Instinct MI325X GPU首次启用HBM3E高带宽内存,AI 峰值算力达到21PFLOPS,并与去年发布的、同样采用 HBM3E 的英伟达 H200 GPU 用数据掰手腕:内存容量是 H200 的 1.8 倍,内存带宽、FP16 和 FP8 峰值理论算力都是 H200 的 1.3 倍。
AMD 还披露了最新的 AI 芯片路线图,采用CDNA 4架构的MI350系列明年上市,其中 MI355X 的 AI 峰值算力达到74PFLOPS,MI400 系列将采用更先进的 CDNA 架构。
更高的数据中心算力,离不开先进的网络解决方案。对此,AMD 发布了业界首款支持 UEC 超以太网联盟的 AI 网卡 Pensando Pollara 400和性能翻倍提升的Pensando Salina 400 DPU。
另一款新品是第五代 EPYC 服务器 CPU,被 AMD 称为“面向云计算、企业级和 AI 的全球最好 CPU”,采用台积电3/4nm 制程工艺,最多支持192 核、384 个线程。其中顶配 EPYC 9965 默认热设计功耗 500W,以 1000 颗起订的单价为 14813 美元(约合人民币 10 万元)。
与第五代英特尔至强铂金 8592+ 处理器相比,AMD EPYC 9575F 处理器的 SPEC CPU 性能提高多达2. 7 倍,企业级性能提高多达4. 0 倍,HPC(高性能计算)性能提高多达3. 9 倍,基于 CPU 的 AI 加速提高多达3. 8 倍,GPU 主机节点提升多达1. 2 倍。
自 2017 年重回数据中心市场后,AMD 一路势头强劲:其数据中心 CPU 收入市占率在 2018 年还只有2%,今年上半年已攀爬到34%,在全球覆盖超过 950 个云实例和超过 350 个 OxM 平台。
AMD 是唯一一家能够提供全套 CPU、GPU 和网络解决方案来满足现代数据中心所有需求的公司。
AI PC 芯片也迎来了新成员——AMD 第三代商用 AI 移动处理器锐龙 AI PRO 300 系列。它被 AMD 称作“为下一代企业级 AI PC 打造的全球最好处理器”。
一、旗舰 AI 芯片三代同堂:内存容量带宽暴涨,峰值算力冲 9.2PF
AI 芯片,正成为 AMD 业务增长的重头戏。
AMD 去年 12 月发布的 Instinct MI300X 加速器,已经成为AMD 历史上增长最快的产品,不到两个季度销售额就超过了10 亿美元。
今年 6 月,AMD 公布全新年度 AI GPU 路线图,最新一步便是今日发布的Instinct MI325X。在 7 月公布季度财报时,AMD 董事会主席兼 CEO 苏姿丰博士透露,AMD 预计其今年数据中心 GPU 收入将超过45 亿美元。
微软、OpenAI、Meta、Cohere、Stability AI、Lepton AI(贾扬清创办)、World Labs(李飞飞创办)等公司的很多主流生成式 AI 解决方案均已采用 MI300 系列 AI 芯片。
微软董事长兼 CEO 萨提亚·纳德拉对 MI300 赞誉有加,称这款 AI 加速器在微软 Azure 工作负载的 GPT-4 推理上提供了领先的价格/性能。
基于 Llama 3.1 405B 运行对话式 AI、内容生成、AI Agent 及聊天机器人、总结摘要等任务时,MI300 的推理速度最多达到英伟达 H100 的1. 3 倍。
新推出的MI325X进一步抬高性能,跑 Mixtral 8x7B、Mistral 7B、Llama 3.1 70B 等大模型的推理性能,比英伟达 H200 快20%~40%。
MI325X 拥有1530 亿颗晶体管,采用 CDNA 3 架构、256GB HBM3E内存,内存带宽达6TB/s,FP8 峰值性能达到2. 6PFLOPS,FP16 峰值性能达到1. 3PFLOPS。
由 8 张 MI325X 组成的服务器平台有2TB HBM3E内存;内存带宽达到48TB/s;Infinity Fabric 总线带宽为896GB/s;FP8 性能最高达20. 8PFLOPS,FP16 性能最高达10. 4PFLOPS。
相比英伟达 H200 HGX,MI325X 服务器平台在跑 Llama 3.1 405B 时,推理性能可提高40%。
从训练性能来看,单张 MI325X 训练 Llama 2 7B 的速度超过单张 H200,8 张 MI325X 训练 Llama 2 70B 的性能比肩 H200 HGX。
AMD Instinct MI325X 加速器或将于今年第四季度投产,将从明年第一季度起为平台供应商提供。
下一代MI350系列采用3nm 制程工艺、新一代CDNA 4 架构、288GB HBM3E内存,新增对FP4/FP6数据类型的支持,推理性能相比基于 CDNA 3 的加速器有高达35 倍的提升,有望在2025 年下半年上市。
MI355X加速器的 FP8 和 FP16 性能相比 MI325X 提升了80%,FP16 峰值性能达到2. 3PFLOPS,FP8 峰值性能达到4. 6PFLOPS,FP6 和 FP4 峰值性能达到9. 2PFLOPS。
8 张 MI355X 共有2. 3TBHBM3E内存,内存带宽达到64TB/s,FP16 峰值性能达到18. 5PFLOPS,FP8 峰值性能达到37PFLOPS,新增 FP6 和 FP4 的峰值性能为74PFLOPS。
三代 GPU 的配置显著升级:相比 8 卡 MI300X,8 卡 MI355X 的 AI 峰值算力提升多达7. 4 倍、HBM 内存提高多达1. 5 倍、支持的模型参数量提升幅度接近6 倍。
AMD 持续投资软件和开放生态系统,在AMD ROCm开放软件栈中提供新特性和功能,可原生支持主流 AI 框架及工具,具备开箱即用特性,搭配 AMD Instinct 加速器支持主流生成式 AI 模型及 Hugging Face 上的超过100 万款模型。
ROCm 6.2 现包括对关键 AI 功能的支持,如 FP8 数据类型、Flash Attention、内核融合等,可将 AI 大模型的推理性能、训练性能分别提升至 ROCm 6.0 的2. 4 倍、1. 8 倍。
此前 AMD 收购了欧洲最大的私人 AI 实验室Silo AI,以解决消费级 AI 最后一英里问题,加快 AMD 硬件上 AI 模型的开发和部署。欧洲最快的超级计算机 LUMI 便采用 AMD Instinct 加速器来训练欧洲语言版的大语言模型。
二、下一代 AI 网络:后端引入业界首款支持 UEC 的 AI 网卡,前端上新 400G 可编程 DPU
网络是实现最佳系统性能的基础。AI 模型平均有30%的训练周期时间都花在网络等待上。在训练和分布式推理模型中,通信占了40%-75%的时间。
AI 网络分为前端和后端:前端向 AI 集群提供数据和信息,可编程 DPU 不断发展;后端管理加速器与集群间的数据传输,关键在于获得最大利用率。
为了有效管理这两个网络,并推动整个系统的性能、可扩展性和效率提升,AMD 今日发布了应用于前端网络的Pensando Salina 400 DPU和应用于后端网络的Pensando Pollara 400 网卡。
Salina 400是 AMD 第三代可编程 DPU,被 AMD 称作“前端网络最佳 DPU”,其性能、带宽和规模均提高至上一代 DPU 的两倍;Pollara 400是业界首款支持超以太网联盟(UEC)的 AI 网卡。
Salina 400 支持400G吞吐量,可实现快速数据传输速率,可为数据驱动的 AI 应用优化性能、效率、安全性和可扩展性。
Pollara 400 采用AMD P4 可编程引擎,支持下一代 RDMA 软件,并以开放的网络生态系统为后盾,对于在后端网络中提供加速器到加速器通信的领先性能、可扩展性和效率至关重要。
UEC Ready RDMA 支持智能数据包喷发和有序消息传递、避免拥塞、选择性重传和快速损失恢复。这种传输方式的消息完成速度是 RoCEv2 的6 倍,整体完成速度是 RoCEv2 的5 倍。
在后端网络,相比 InfiniBand,以太网 RoCEv2是更好的选择,具有低成本、高度可扩展的优势,可将 TCO 节省超过50%,能够扩展100 万张GPU。而 InfiniBand 至多能扩展48000 张GPU。
三、服务器 CPU:3/4nm 制程,最多 192 核/384 线程
今年 7 月公布财报时,苏姿丰提到今年上半年,有超过1/3的企业服务器订单来自首次在其数据中心部署 EPYC 服务器 CPU 的企业。
第五代 EPYC 处理器 9005 系列(代号“Turin”)专为现代数据中心设计。
该处理器在计算、内存、IO 与平台、安全四大层面全面升级。
第五代 EPYC 拥有1500 亿颗晶体管,采用台积电3/4nm 制程、全新“Zen 5”及“Zen 5c”核心兼容广泛部署的 SP5 平台,最多支持192 核、384 个线程,8~192 核的功耗范畴为155W~500W。
它支持 AVX-512 全宽 512 位数据路径、128 PCIe 5.0/CXL 2.0、DDR5-6400MT/s内存速率,提升频率高达5GHz,机密计算的可信I/O和 FIPS 认证正在进行中。
与“Zen 4”相比,“Zen 5”核心架构为企业和云计算工作负载提供了提升17%的 IPC(每时钟指令数),为 AI 和 HPC 提供了提升37%的 IPC。
在 SPEC CPU 2017 基准测试中,192 核 EPYC 9965 的整数吞吐量是 64 核至强 8592+ 的2. 7 倍,32 核 EPYC 9355 的每核心性能是 32 核 6548Y+ 的1. 4 倍。
跑视频转码、商用 App、开源数据库、图像渲染等商用工作负载时,192 核 EPYC 9965 的性能达到 64 核至强 8592+ 性能的3~4 倍。
在处理开源的 HPC 密集线性求解器、建模和仿真任务时,EPYC 9965 的性能可达到至强 8592+ 性能的2. 1~3.9 倍。
达到相同性能,第五代 EPYC 所需的服务器数量更少,有助于降低数据中心的 TCO(总拥有成本)以及节省空间和能源。
例如,要达到总共 391000 个单位的 SPECrate 2017_int_base 性能得分,相比1000 台搭载英特尔至强铂金 8280 的服务器,现在131 台搭载 AMD EPYC 9965 的现代服务器就能实现,功耗、3 年 TCO 均显著减少。
通过优化的 CPU+GPU 解决方案,AMD EPYC CPU 不仅能处理传统通用目的的计算,而且能胜任 AI 推理,还能作为 AI 主机处理器。
相比 64 核至强 8592+,192 核 EPYC 9965 在运行机器学习、端到端 AI、相似搜索、大语言模型等工作负载时,推理性能提升多达1. 9~3.8 倍。
AMD EPYC 9005 系列的新产品是 64 核 EPYC 9575F,专为需要终极主机 CPU 能力的 GPU 驱动 AI 解决方案量身定制。
与竞争对手的 3.8GHz 处理器相比,专用 AI 主机的 CPU EPYC 9575F 提供了高达5GHz的提升,可将 GPU 编排任务的处理速度提高28%。
面向企业级 HPC 工作负载,64 核 EPYC 9575F 的 FEA 仿真和 CFD 仿真&建模的性能,可提升至 64 核至强 8592 的1. 6 倍。
EPYC 9575F 可使用其 5GHz 的最大频率提升来助力 1000 个节点的 AI 集群每秒驱动多达70 万个推理 token。同样搭配 MI300X GPU,与 64 核至强 8592+ 相比,EPYC 9575F 将 GPU 系统训练 Stable Diffusion XL v2 文生图模型的性能提升20%。
搭配 Instinct 系列 GPU 的 AMD EPYC AI 主机 CPU 型号如下:
同样搭配英伟达 H100,EPYC 9575F 可将 GPU 系统的推理性能、训练性能分别相比至强 8592+ 提升20%、15%。
与英伟达 GPU 系统适配的 AMD EPYC AI 主机 CPU 型号如下:
将 EPYC 用于计算与 AI 混合工作负载时,相比至强铂金 8592+,EPYC 9654+2 张 Instinct MI210 在处理 50% 通用计算 +50% AI 的混合任务时,每美元性能可提升多达2 倍。
四、企业级 AI PC 处理器:升级“Zen 5”架构,AI 算力最高 55TOPS
AI PC 给企业生产力、身临其境的远程协作、创作与编辑、个人 AI 助理都带来了全新转型体验。
继今年 6 月推出第三代 AI 移动处理器锐龙 AI 300 系列处理器(代号“Strix Point”)后,今日 AMD 宣布推出锐龙 AI PRO 300 系列。
该处理器专为提高企业生产力而设计,采用4nm 工艺、“Zen 5”CPU 架构(最多 12 核、24 个线程)、RDNA 3.5GPU 架构(最多 16 个计算单元),支持Copilot+功能,包括电话会议实时字幕、语言翻译、AI 图像生成等。
其内置 NPU 可提供50-55TOPS的 AI 处理能力。
40TOPS是微软 Copilot+ AI PC 的基准要求。相比之下,苹果 M4、AMD 锐龙 PRO 8040 系列、英特尔酷睿 Ultra 100 系列的 NPU 算力分别为 38TOPS、16TOPS、11TOPS。
与英特尔酷睿 Ultra 7 165H 相比,旗舰锐龙 AI 9 HX PRO 375 的多线程性能提高了40%,办公生产力提高了14%,支持更长续航。
锐龙 AI PRO 300 系列采用AMD PRO技术,提供世界级领先的安全性和可管理性,旨在简化 IT 运营及部署并确保企业获得卓越的投资回报率。
由搭载锐龙 AI PRO 300 系列的 OEM 系统预计将于今年晚些时候上市。
AMD 也扩展了其 PRO 技术阵容,具有新的安全性和可管理性功能。配备 AMD PRO 技术的移动商用处理器现有云裸机恢复的标准配置,支持 IT 团队通过云无缝恢复系统,确保平稳和持续的操作;提供一个新的供应链安全功能,实现整个供应链的可追溯性;看门狗定时器,提供额外的检测和恢复过程,为系统提供弹性支持。
通过 AMD PRO 技术,还能实现额外的基于 AI 的恶意软件检测。这些全新的安全特性利用集成的 NPU 来运行基于 AI 的安全工作负载,不会影响日常性能。
结语:AMD 正在数据中心市场攻势凶猛
AMD 正沿着路线图,加速将 AI 基础设施所需的各种高性能 AI 解决方案推向市场,并不断证明它能够提供满足数据中心需求的多元化解决方案。
AI 已经成为 AMD 战略布局的焦点。今日新发布的 Instinct 加速器、霄龙服务器 CPU、Pensando 网卡&DPU、锐龙 AI PRO 300 系列处理器,与持续增长的开放软件生态系统形成了组合拳,有望进一步增强 AMD 在 AI 基础设施竞赛中的综合竞争力。
无论是蚕食服务器 CPU 市场,还是新款 AI 芯片半年揽金逾 10 亿美元,都展现出这家老牌芯片巨头在数据中心领域的冲劲。紧锣密鼓的 AI 芯片产品迭代、快速扩张的全栈软硬件版图,都令人愈发期待 AMD 在 AI 计算市场创造出惊喜。