读懂DeepSeek开源周:一场技术普惠的嘉年华,极限提升大模型效率

Image

  文/腾讯云技术专家方天戟

  内容策划:刘子琪、郭晓静

  编辑:郑可君 

  在 2025 年开年,DeepSeek 的发布,在全社会造成了轰动。这是因为,DeepSeek 通过一系列技术革新,大大降低了生成式 AI 的研发与使用成本,使得生成式 AI 有望在近期走入千家万户,从而帮助全社会提升工作效率。

  2022 年,OpenAI 开发的 ChatGPT 被认为是具有革新意义的生成式 AI 工具,可以帮助用户提升工作效率;在 2025 年,国产生成式 AI——DeepSeek,被认为是比 ChatGPT 更优的生成式 AI 工具,在成本、能力和开放性方面均优于 ChatGPT,并在一定程度上影响到了金融市场。社会上甚至出现了一种观点,认为 DeepSeek 能够赋予计算机情感等构成人格的要素,甚至得出计算机很快将统治甚至取代人类的结论。

  事实上,稍有计算机与数学基础的读者,可以很容易地理解:无论是 DeepSeek,还是其他生成式 AI,对人类语言的“理解”与“生成”,实际上只是将其通过一定的算法,转化为一串数字(在计算机科学中可称为“向量”),再经过一系列算法转化为输出的内容。在这一过程中,计算机并不会拥有人类独有的“情感”与“人格”等要素,只是解决了一个略微复杂的数学计算问题。

  显然,将人类语言转化为“向量”,再生成输出的内容,需要非常复杂的计算机算法。如果完全由人类来编写这一算法,是不现实的。因此,工程师们将这些算法简化为一系列矩阵(所谓的“模型”与“参数”)的乘法,让计算机使用暴力穷举法尝试这些矩阵的值(也就是“调参”或“训练”,最终得到发布的“模型”。在得到“模型”后,让计算机基于这一“模型”和用户的输入,得到输出的内容,就是所谓的“推理”。

  目前,所有的生成式 AI,都是基于 Google 在 2017 年发布的论文《Attention is All You Need》实现的“Transformer”模型。Transformer 模型孵化出了以 ChatGPT 为代表的一系列生产式 AI,但其训练与推理所需要的海量计算资源,令个人用户和一般的企业用户都难以接受。特别地,即使是经济实力雄厚的大型政企用户,也有可能受到复杂的外部环境影响,在采购组建高性能集群的硬件时出现困难。这成为了使用生成式 AI 帮助全社会提升生产效率的重大障碍。

  DeepSeek 的出现改变了这一切。在过去的一周里,DeepSeek 为开发者公开发布了一系列非常有价值的创新成果。那么,它到底实现了哪些关键创新呢?为了系统解读 DeepSeek 开源周的贡献与突破,腾讯科技联合腾讯云、鹅厂技术派,特别邀约腾讯云技术专家方天戟在开源周进行到第二天的时候进行了解读。而本文是方天戟基于直播内容,在 DeepSeek 开源周结束后又补充的开源周后半部分,进行的系统性整理与解读,希望尽可能以通俗的语言呈现这些创新为业界带来的价值与影响。

Image

  DeepSeek 开源周,开源了哪些重要内容?

  DeepSeek 选择了 2025 年 2 月的最后一周作为“开源周”,公布了 FlashMLA(优化语句解析算法),DeepEP(优化多机协作机制),DeepGEMM(提升矩阵乘法效率),DualPipe(压榨计算机资源的手段),EPLB(实现生成不同领域内容)和 3FS(高性能存储)。同时,DeepSeek 还公开了一些研发过程中的分析数据。

  我们在文章开头提到过,无论是 DeepSeek,ChatGPT,还是其他的生成式 AI,本质上都是让计算机进行一系列矩阵运算。那么,想提高生成式 AI 算法的执行效率,就应当从三个方面着手:缩小矩阵规模,提高运算效率,减少等待时间。在过去精彩的一周里,DeepSeek 公布的这些核心技术,都是聚焦在这三个方面。

  1、FlashMLA:语言解析加速器

  我们知道,生成式 AI 的输入,一般是人类的自然语言。在 Transformer 模型中,将自然语言进行编码与分析的机制,就是所谓“Attention”机制——先将每个词编码为 512 个数字组成的“向量”,再使用Q,K,V三个矩阵对每个词和全文中其他所有词,进行关联分析。显然,随着输入长度的增加,总的计算量会以平方律上升,同时,还需要消耗宝贵的 GPU 内存,用于保存整句话中每个词的K和V矩阵。

  FlashMLA 针对这一问题的解决思路是,设法把K和V两个矩阵压缩,例如将矩阵中相对过于小的数,以及一部分为 0 的数去掉,来节约内存,减少计算工作量。进一步地,FlashMLA 还针对 Nvidia 的 H800 GPU 进行了优化,考虑到 H800 卡间通信带宽限制,减少了读写其他卡上数据的需求,避免了卡间通信带宽限制计算性能。

  在 FlashMLA 加持下,H800 单卡能发挥的 FP8 计算性能从 300T FLOPS 提升到了 580T FLOPS,并且把内存带宽压榨到了理论极限的 90%。那么,如何进一步提升计算的性能呢?

  2、DeepGEMM:跨时代的 AI 基石

  几乎所有的 AI 计算都离不开矩阵乘法。由于矩阵乘法可以分解为多组没有相互依赖关系的重复计算,工程师们定义了 GEMM(GEneral Matrix Multiply,通用矩阵乘法)算子,而 Nvidia 也在 cuBLAS 和 NVBLAS 这两种数学库中,基于自身的 GPU 实现了这一算子的并行运算。可以认为,GEMM 是包括 Transformer 模型在内的所有 AI 算法的基石,其重要程度堪比动力装置对机械化与工业化体系的意义。

  DeepSeek 对 GEMM 做了革命性的优化。DeepSeek 考虑到 Nvidia Hopper 系列 GPU 内部的 Tensor Core(专用的矩阵运算电路)可以支持 8-bit 浮点数计算,但精度不如 16-bit 和 32-bit 浮点数,DeepGEMM 将中间过程暂存为 32-bit 浮点数以提升精度,同时计算速度与 8bit 相差无几。

  值得注意的是,实现这一运算,需要绕开一切现有的开发库,直接写机器指令实现,其开源行为实际上对 Nvidia 的“护城河”——CUDA 生态,发出了直接的挑战。我们甚至可以认为,DeepGEMM 的意义,就如同蒸汽机-内燃机-电动机的迭代驱动历次工业革命那样,会驱使生成式 AI 技术进入一个普惠大众的时代,从而成为跨时代的 AI 基石。

  3、EPLB 和 DualPipe:驱动工业革命的效率大师

  社会科学工作者在分析美国崛起的原因时,往往提到 20 世纪初在美国出现的泰勒管理制度和福特生产流水线这两个概念。在工业生产中,泰勒管理制能让每个工作者充分发挥自己的专长,而福特生产流水线能避免人的工作时间浪费在等待中。EPLB 和 DualPipe 在 DeepSeek 中起到的作用就类似于泰勒管理制度和福特生产流水线。

  生成式 AI 的核心技术之一,是所谓“专家模型”。它的工作原理是,把计算机对自然语言理解的结果输入到描述“专家模型“的矩阵,经过一系列矩阵乘法运算,得到生成的答案。为了让专家模型在通信能力受限的 H800 GPU 集群上取得更好的效果,DeepSeek 使用的是 MoE 模型,也就是使用多个专注于特定领域的小型专家模型来生成内容——这类似于医院的不同科室,在初步识别患者的问题后让最匹配的专家进行诊疗。

  在医院中,不同科室有可能会有分工合作,各科室的繁忙程度也可能会有较大差异。那么,如果将密切合作的科室安排在同一楼层,同时,对繁忙的科室,多聘请一些专家坐诊,就可以有效减少患者就诊等待时间。EPLB 在设计时,就借鉴了这一思路,将频繁互动的几个专家模型放在同一个 GPU,从而减少卡间通信,同时,如果发现某些专家模型调用量显著多于其他专家模型,就多复制几个这些专家模型来扛住并发的计算。

  而 DualPipe 的作用则是,借鉴福特生产流水线的改进思路,在训练这些专家模型时,尽量减少流水线各个环节的等待时间(所谓的“流水线气泡”)。它的思路是,让两个任务进行交叉排布。当下一个计算任务在等待通信任务结束的时候,让计算机先执行其他的任务。具体而言,就是把训练过程中,求解方程的环节(所谓的“前向计算”),和验算反馈(所谓的“后向计算”)的环节,共用一条流水线。这样,在求解方程环节的计算任务,等待通信任务完成后才能继续执行的期间,让 GPU 进行验算反馈环节的计算,反之亦然。

  DeepSeek 在 AI 大模型训练与推理算法的工程化工作中,引入 EPLB 和 DualPipe,对业界的贡献,可以类比为泰勒管理制度和福特生产流水线对工业生产的贡献,实现了进一步地解放生产力和发展生产力。

  4、DeepEP:邃密群科的破壁者

  看过电影《横空出世》的读者们,一定会对“算盘打出原子弹”的情节记忆犹新。在缺乏大型计算机的制约下,我国的科技工作者们将复杂的核物理仿真计算,拆解为可分布式并行计算的任务,动员了数以千计的工作人员,使用算盘完成了多轮仿真计算,最终支撑了原子弹的成功研发。

  在多轮次的仿真计算中,一项重要的任务就是,将大家计算的结果收集汇总,作为下一轮计算的输入。在 AI 模型的训练算法中,这一任务被称为“AllReduce”。在 DeepSeek 开源 DeepEP 之前,这一任务需要依赖 Nvidia 开发的 NCCL(Nvidia Collective Communications Library,英伟达集合通信库)。

  DeepEP 实际上是对传统的 AllReduce 做了深度的定制和优化。首先,由于 DeepSeek 手头的 GPU 是通信带宽受限的 H800,因此,DeepEP 设法限制了对卡间通信资源的消耗量,让部分 GPU 作为中继节点,进行合并处理后,再把合并后的计算结果传输到其他 GPU,以避免不必要的通信开销。

  考虑到 GPU 在执行方程求解的任务时,如果切换到 AllReduce 任务,需要重新将指令和数据加载到缓存(Cache),DeepEP 还增加了一项机制,让 GPU 内的一些处理核心(SM,Streaming Multiprocessor)来专门处理这项任务,并动态调整承担 AllReduce 任务的核心数量。

  我们可以看出,DeepEP 打破了三大壁垒:首先是 GPU 通信的 NVLink 网(服务器内部)和 RDMA 网(服务器之间)的壁垒;其次是 GPU 内部 SM 分工的壁垒;最重要的一点是,DeepEP 通过直接对硬件编程的方式,打破了 Nvidia 垄断的集合通信库等技术壁垒。

  DeepEP 与戈壁滩上算盘打出原子弹的科技工作者们一样,是邃密群科的破壁者。

  5、FS:惧满溢,则思江海下百川

  计算,网络和存储,是构成计算机系统的三大基础支柱。3FS 的开源,也补上了 DeepSeek 所使用的大型分布式系统的最后一块拼图。

  以生成式 AI 为代表的机器学习算法,实质上是海量的矩阵运算。在运算过程中需要经常保存草稿(也就是“Checkpoint”)。数千块 GPU 卡并行保存 Checkpoint 数据的时候,对存储子系统的性能提出了严峻的考验。因此,业界出现了所谓的“并行高性能文件系统”,利用多台服务器分担存储数据的任务,也就是分布式存储。

  分布式系统需要解决的最重要问题之一,就是让系统关键性能,可以随服务器数量的增长,而接近正比例增长,特别是需要避免多个并行任务阻塞在单点。特别地,为了保证关键数据不丢失,需要保证一份数据能够写入多份冗余的存储介质,且数据内容保持一致。

  目前,业界有 LustreFS 等开源的并行文件系统,但在性能、高可用与一致性等方面依然有较大的改进空间。DeepSeek 研发的 3FS(Fire-Flyer File System,萤火虫文件系统)基于软硬件协同的思想,采用 RDMA 网络和 SSD 存储盘实现了自己的高性能并行文件系统。由于 RDMA 网络和 SSD 存储盘本身就可以通过 NVMe 协议来协同工作,且 RDMA 网络可以绕过远端 CPU 的中断处理,直接读取远端 SSD/内存中的数据,3FS 能够在 180 个存储节点构成的集群上,取得 6.6TiB/s 的吞吐性能,把并行文件系统的吞吐量压榨到了网络吞吐量理论值的 80% 以上,这是非常了不起的成就。这不禁让我们想起来初唐政治家魏征在《谏太宗十思疏》中的一句话:惧满溢,则思江海下百川。——如果担心存储系统成为瓶颈,就要让它像江海容纳来自众多河川的水一样。

Image

  为什么只有 DeepSeek 做到了?

  对机器学习与数学有一定认知的读者很容易理解,DeepSeek 在这一周里开源的几项技术,并不是非常难以实现的。那么,为什么只有 DeepSeek 做到了这些呢?

  从公开信息可以得知:DeepSeek 用于训练的 GPU 是限制了 GPU 卡间通信带宽的 H800,且数量只有 2048 张,比业界头部的大型企业有数量级的差距。而部署 DeepSeek 推理模型所需要的 GPU 资源数量,可以精简到消费级 PC 单机可运行的地步。DeepSeek 所做的工作,就是将 Transformer 模型进行优化,减少浪费,使其能够在受限的硬件资源上顺利运行。

  由于 DeepSeek 手头的 GPU 是通信带宽受限的版本,DeepSeek 针对这一点的改进就是 FlashMLA,EPLB 和 DeepEP。同时,在 DeepGEMM 和 DualPipe 的压榨下,DeepSeek 使用了 2048 张卡实现了万卡集群的训练效果。最后,3FS 进一步降低了训练过程中的存储开销。

  有人可能会问,DeepSeek 团队将付出了大量心血的成果,无保留地对全社会公开,这一利他行为的动机是什么呢?我们不妨将视线转向人文社科领域的书海寻求可能的答案。

  马克思在《关于费尔巴哈的提纲》中指出:“人的本质,是社会关系的总和。”在马克思做出这一论断后,又过了 100 多年,美国社会学家马斯洛提出,人的需求的最高层次是自我实现的需要,次之的是尊重的需要。几乎与马斯洛同一时代,在风云激荡的东半球,毛泽东主席也在《纪念白求恩》中写道:“我们大家要学习他毫无自私自利之心的精神。从这点出发,就可以变为大有利于人民的人。一个人能力有大小,但只要有这点精神,就是一个高尚的人,一个纯粹的人,一个有道德的人,一个脱离了低级趣味的人,一个有益于人民的人。”我们有理由相信,DeepSeek 将自身的工作成果向全社会无偿贡献出来,说明这是一个脱离了短期利益得失和其他低级趣味的团队,是为自我成就和尊重而努力奋斗的团队,是积极回馈社会的团队。

  DeepSeek 站在 Transformer 的肩膀上,让生成式 AI 技术得以普惠大众,同时也将自行研发的技术开源回馈社会。如果这样的正向循环得以持续,全社会能够得到的,不仅是基于 AI 技术的生产力提升,还能够通过这种价值观的传播,让大家更好地为共同的目标团结奋斗,让世界的将来更加美好。