全美TOP 5机器学习博士:痛心,实验室H100数量为0!同实验室博士用GPU得靠抢

  新智元报道

  编辑:编辑部

  全美 TOP 5 的机器学习博士痛心发帖自曝,自己实验室里 H100 数目是0!这也引起了 ML 社区的全球网友大讨论。显然,相比普林斯顿、哈佛这样动辄三四百块 H100 的 GPU 大户,更常见的是 GPU 短缺的「穷人」。同一个实验室的博士,甚至时常会出现需要争抢 GPU 的情况。

  全美 TOP 5 高校的机器学习博士,实验室却连一块 H100 都没有?

  最近,这位网友在 reddit 上发的这个帖子,立刻引发了社区大讨论——

  大家发现,普林斯顿、哈佛这样的「GPU 豪门」,手上的 H100 至少以三四百块打底,然而绝大多数 ML 博士,却连一块 H100 都用不上……

  不同学校、机构之间的 GPU「贫富差距」,竟然已经到了如此悬殊的地步?

  大部分实验室,比斯坦福还差多了

  两个月前,AI 教母李飞飞曾在采访中表示,斯坦福的自然语言处理(NLP)小组只有 64 块 A100 GPU。

  面对学术界如此匮乏的 AI 资源,李飞飞可谓是痛心疾首。

  而这位发帖的网友也表示,自己在攻读博士学位期间(全美排名前五的学校),计算资源是一个主要的瓶颈。

  如果能有更多高性能的 GPU,计算时间会显著缩短,研究进度也会快很多。

  所以,他的实验室里到底有多少 H100 呢?答案是——0。

  他向网友们发出提问:你们实验室里都有多少 GPU?能从亚马逊、英伟达那里拿到额外的算力赞助吗?

  年轻的研究者们纷纷自曝自己所在学校或公司的 GPU 情况,暴露出的事实,让所有人大为惊讶。

  1 张 2080Ti+1 张 3090,已是全部

  一位似乎是亚洲的网友表示,虽然自己的研究方向是计算机视觉(CV)并不是机器学习,但在 2019 年刚开始时,只能够使用一块 2080 Ti 显卡。

  2021 年,有机会使用一台配备 V100 和 RTX 8000 显卡的服务器。

  2022 年,获得了使用一块 3090 显卡的权限。

  2023 年,能够使用另一个实验室的一组服务器,这些服务器包括 12 块 2080 Ti、5 块 3090 和 8 块 A100 显卡。同年,还获得了一项计算资助,可以使用 A100 显卡三个月。

  2024 年,学校购买了一台配有 8 块 H100 显卡的服务器,并允许试用一个月。

  此外,在 2021 年到 2023 年期间,也可以从一个本地学术提供商那里按小时租用 GPU。

  除了 2080 Ti 和 3090 这两张显卡外,大多数这些资源都是共享的。

  题主问:这里的「a」就是字面意义上的「一个」么?

  网友表示,是的,就是这么艰苦……

  有人现身表示,自己可太惨了:没有显卡,没有 credits。因为所在大学无法提供帮助,只能让实习公司帮自己获得一些。

  一位 2022 年底毕业的博士也自曝称,实验室专用的服务器共搭载了差不多 30 块 GPU,其中每台服务器配有 4 张显卡。(由于购买时间不同,性能也参差不齐)

  不过,同一实验室里抢 GPU 的事情还是时有发生。

  对此,有网友总结道,0 GPU 很常见。

  理由也非常简单:我们并不需要开着法拉利来学车。而且在开始,机器学习的基础是线代、统计和编程,之后才是硬件流程的优化。

  而 GPU 严重匮乏的问题,在我国高校的实验室内也很普遍。

  甚至,有博主发帖称,某大学的课程竟要求学生自备算力设备。

  五人一组的学生,至少拥有 2 块 3090/4090,或者是 1 块 40G A100,才能完成课程要求的 LLM 训练任务。

  那么问题来了,为何高校自己不能多采购一些 GPU 呢?

  知友「网瘾大爷」表示,高校直接购买 GPU 非常不划算。LLM 训练参数规模增大,需要的是多机多卡,以及让卡之间串联的网络。

  不仅有学习成本、还有维护成本,这对于高校来说投入之大。所以比较常见的方式是,去租用服务器。

  清华计算机系在读博士孙恒提出了同样的问题,卡可以买,但问题是,放在哪?

  当然,有人在负重前行,自然也有人岁月静好。

  比如下面这些学校,相比起来就要「富裕」得多了。

  「H100,我们也就几百块吧」

  有网友透露,普林斯顿语言与智能研究所(PLI)和哈佛 Kempner 研究所拥有最大的计算集群,分别配备了 300 块和 400 块 H100 GPU。

  而这个信息,也得到了一位普林斯顿研究者的佐证——

  在普林斯顿,可以使用的集群有三种。

  - 小组集群有所不同,但对于 10 个人来说,32 块 GPU 的分配很合理

  - 部门集群的资源更多,不过也需要看具体的部门

  - 大学集群 Della 则拥有(128x2)+(48x4)个 A100 和(96x8)个 H100

  总之,普林斯顿和哈佛都可以说是显卡大户。

  此外,也有网友爆料说,UT Austin 拥有 600 块 H100。

  蒙特利尔大学的博士生表示,自己的实验室大约有 500 块 GPU,主要是 A100 40GB 和 80GB。

  德国亚琛工业大学的网友表示,学提供了一个包含 52 块 GPU 节点的计算集群,每个节点配备 4 块 H100 GPU。

  这些资源当然是所有院系共享的,其他一些机构也能使用。

  不过,即使是学生,每个月也会分配到一定的集群使用时间。如果你需要更多的计算时间,可以申请不同规模的专用计算项目。

  「我非常喜欢这个系统,能够使用它,对我来说是一次改变研究进程的机会。」

  对如此充沛的算力,题主表示非常羡慕。

  另一位欧洲的网友也表示,自己的实验室有大约 16 块实验室专用的 A100 GPU,并且还能通过几个不同的额外集群访问更多的 GPU。

  由于这些集群有很多用户,所以具体规模很难估计,但每个集群大约每年提供 12 万 GPU 小时的计算时间。

  不过,超过 80GB 的 GPU 内存需求是一个瓶颈。目前来说,总共能用的约为 5 块 H100。

  类似的,这位网友所在的实验室,也相当富裕:

  「我们实验室有 8 块 H100 和 8 块 L40S,专供 5 名博士生和 3 名博士后免费使用。」

  最后,截取一些「凡尔赛」网友的发言。

  比如,这位在云计算供应商工作的网友就表示,这个帖子很有趣,因为自己竟不知道 H100 是这么稀有。

  或者,从单位分不到显卡,那就干脆自己买一块。

  紧俏的 H100,为何如此重要

  最近,英伟达的市值一度突破 3.3 万亿美元,登顶全球第一。

  这背后最耀眼的明星,莫过于它的 H100 GPU 了。

  跟普通芯片不同的是,H100 内的 800 亿个晶体管排列在内核中,这些内核被调整为高速处理数据,而非生成图形。

  成立于 1993 年的英伟达,押注并行工作的能力有一天将使自己的芯片在游戏之外发挥价值,他们赌对了。

  在训练 LLM 时,H100 比前代 A100 快四倍,在回复用户提示时快 30 倍。对于急于训练 LLM 执行新任务的公司来说,性能优势至关重要。

  也正是因此,全世界生成式 AI 的浪潮,正在转化为英伟达的实际收入。而 H100 的需求如此之大,以至于许多客户不得不等待六个月才能收货。

  Nebius AI 的 IaaS 技术产品经理 Igor,探讨了 H100、L4、L40、A100、V100 这些最流行的芯片之间的差异,并确定了每种 GPU 模型表现最佳的工作负载。

  谈到芯片之间的差异之前,重要的是强调 Transformer 神经网络和数值精度的一些相关属性。

  数值精度的作用

  如果没有对 FP8 精度的硬件支持,英伟达的 H100、L4 和 L40 不可能取得巨大的成功,这对于 Transformer 模型尤其重要。

  但是,是什么让对 FP8 的支持如此重要呢?让我们深入了解一下。

  FP 是「浮点」的缩写,它是关于模型存储在 RAM 中,并在其操作中使用的数字的精度。

  最重要的是,这些数字决定了模型输出的质量。

  以下是一些关键的数字格式——

  FP64,即双精度浮点格式,是一种每个数字占用 64 位内存的格式。

  虽然这种格式未在机器学习中使用,但它在科学领域占有一席之地。

  FP32 和 FP16:长期以来,FP32 是所有深度学习计算的事实标准。

  然而,数据科学家后来发现,将模型参数转换为 FP16 格式,可以减少内存消耗并加快计算速度,而且似乎不会影响质量。

  结果,FP16 就成为了新的黄金标准。

  TF32,也是另一种至关重要的格式。

  在进入张量内核上处理 FP32 值的计算之前,这些值可以在驱动程序级别自动转换为 TF32 格式,而无需更改代码。

  显然,TF32 虽然略有不同,但能提供更快的计算速度。也就是说,可以通过模型在张量内核上解释 FP32 的方式进行编码。

  INT8:这是一种整数格式,不涉及浮点数。

  训练后,模型参数可以转换为其他占用内存较少的类型,例如 INT8。 这种技术称为训练后量化,可以减少内存需求并加快推理速度。 它为许多模型架构创造了奇迹,不过 Transformer 是一个例外。

  Transformer 无法在训练后进行转换,以降低推理的硬件要求。量化感知训练等创新技术确实在训练过程中提供了一种解决方法,但重新训练现有模型有可能成本高昂,而且极具挑战性。

  FP8:此格式解决了上述问题,尤其是 Transformer 模型。

  可以采用预训练的 Transformer 模型,将其参数转换为 FP8 格式,然后从 A100 切换到 H100。

  甚至我们可以在不进行转换的情况下做到这一点,并仍然获得性能,只是因为 H100 速度更快。

  借助 FP8,只需大约四分之一的显卡即可推断出具有相同性能和负载的相同模型。

  另外,使用 FP8 进行混合精度训练也很不错——这个过程会完成得更快,需要更少的 RAM,并且在稍后的推理阶段不再需要转换,因为模型的参数可能已经是 FP8 的参数。

  ML、HPC 和图形的关键 GPU 规格及性能基准

  下面让我们来讨论一下,GPU 规格的演变及其突出功能。

  请特别注意上图中的前两行:RAM 数量及其带宽。

  ML 模型必须紧密适合运行时环境可访问的 GPU。否则,我们将需要多个 GPU 进行训练。在推理过程中,通常可以将所有内容都安装在单个芯片上。

  注意 SXM 和 PCIe 接口之间的区别。英伟达的工作人员只是根据我们自己或我们的云提供商已有的服务器来区分它们。

  如果设置包括带有 PCI 插槽的标准服务器,并且不想为 GPU 直接连接到主板的专用机器(SXM)花钱,那么 H100 PCIe 就是我们的最佳选择。

  当然,它的规格可能比 SXM 版本要弱,但它与标准紧凑型服务器完全兼容。

  但是,如果我们想从头开始构建顶级集群,并且也能负担得起,那么 H100 SXM5 显然是更好的选择。

  各种 GPU 在训练和推理中的性能指标,则可以依据下图——

  图表源自 Tim Dettmers 的这篇著名文章《深度学习应该使用哪些 GPU:我在深度学习中使用 GPU 的经验和建议》

  H100 SXM 指标用作 100% 基准,所有其他指标均相对于此进行标准化。

  该图表显示,H100 GPU 上的 8 位推理,比相同 GPU 模型上的 16 位推理快 37%。这是由于硬件支持 FP8 精度计算。

  所谓「硬件支持」,是指将数据从 RAM 移动到张量核心进行计算的整个低级管线。在此过程中,各种缓存开始发挥作用。

  而在 A100 中,由于硬件级别不支持 FP8,此类 GPU 上的 8 位推理速度并不会更快。来自 RAM 的缓存仅以与 FP16 格式相同的速度处理数字。

  更详细的图表如下——

  你肯定注意到了,某些 RTX 显卡在 AI 任务中的结果也不错。通常,它们的内存比起数据中心专用卡要少,并且不支持集群,但它们的价格显然便宜很多。

  所以,如果计划用于内部实验的本地基础设施,也可以考虑这类 RTX 显卡。

  然而,GeForce 驱动程序 EULA 直接禁止在数据中心使用此类卡,所以任何云提供商都无权在服务中使用它们。

  现在,我们再比较一下图形和视频处理相关任务中的 GPU。以下是与此类用例相关的关键规范:

  我们需要再次关注 RAM 大小和带宽。另外,还要注意 RT 核心的独特性能指标,以及解码器和编码器计数,这些专用芯片负责压缩和解压缩视频源。

  「图形模式」行会指示 GPU 是否可以切换到面向图形的模式 (WDDM)。

  H100 完全没有这个功能;A100 有此功能,但也会受限,因此不一定实用。

  形成鲜明对比的是,L4 和 L40 配备了这种模式,因此它们被定位为适用于各种任务(包括图形和训练)的多功能卡。

  英伟达在有些材料中甚至首先将它们作为面向图形的卡进行营销。然而,它们也非常适合机器学习和神经网络训练和推理,至少没有任何硬性技术障碍。

  而用户来说,这些数字意味着 H100 变体以及 A100 都不适合以图形为中心的任务。

  V100 有可能充当处理图形工作负载虚拟工作站的 GPU。

  L40 是资源最密集的 4K 游戏体验无可争议的冠军,而 L4 支持 1080p 游戏。这两种卡还能以各自的分辨率渲染视频。

  总结

  我们可以得出下表,根据不同显卡的设计目的,展示了不同显卡的特性。

  该表中有两个主要用例类别:纯粹专注于计算的任务(「计算」)和包含可视化的任务(「图形」)。

  我们已经知道,A100 和 H100 完全不适合图形,而 L4 和 L40 则是为此量身定制的。

  乍一看,你可能会觉得 A100 或 L40 的推理能力同样出色。然而,有一些细微差别需要考虑。

  在「HPC」一列中,显示了是否可以将多个主机合并到单个集群中。

  在推理中,很少需要集群——但这取决于模型的大小。关键是确保模型适合主机上所有 GPU 的内存。

  如果模型超出了此边界,或者主机无法为其组合 RAM 容纳足够的 GPU,那么就需要 GPU 集群。

  L40 和 L4 的可扩展性受到单个主机功能的限制, H100 和 A100 则没有这个限制。

  我们应该在 ML 工作负载中选择哪种 GPU 呢?推荐如下——

L4:经济实惠的通用 GPU,适用于各种用例。它是一款入门级模型,是通往 GPU 加速计算世界的门户。 L40:针对生成式 AI 推理和视觉计算工作负载进行了优化。 A100:为传统 CNN 网络的单节点训练提供了卓越的性价比。 H100:BigNLP、LLMs 和 Transformer 的最佳选择。它还非常适合分布式训练场景以及推理。

  图形场景可分为三组:流式传输、虚拟桌面和渲染农场。如果没有视频输入模型,那么它就不是图形场景。这就是推理,而此类任务最好被描述为人工智能视频。

  卡可以处理加密的视频源,并且 A100 配备了硬件视频解码器来完成此类任务。这些解码器将馈送转换为数字格式,使用神经网络对其进行增强,然后将其传回。

  在整个过程中,显示器上不会出现任何视觉内容,因此虽然 H100 和 A100 可以熟练地训练与视频或图像相关的模型,但它们实际上并不产生任何视频。

  这就是另一个故事了。

  参考资料: