马斯克19天建成世界最强AI集群!10万块H100「液冷怪兽」即将觉醒

  新智元报道

  编辑:编辑部

  10 万块液冷 H100 正式开工,马斯克 19 天建成世界最强 AI 训练集群。

  凌晨4:20,大洋彼岸的最大超算训练集群开始轰鸣。

  「420」也是马斯克最喜欢玩的梗,象征着自由、不受约束和反传统。

  马斯克频繁把「420」用在他的产品定价,公司开会时间和星舰一发射时间上等等。

  网友也在评论区打趣马斯克超绝仪式感,不到4:20 不开工。

  在最新采访中,马斯克透露了更多关于新建超算和 xAI 模型进展:

  - Grok 2 上个月完成了训练,大约用了 15K H100

  - Grok 2 将于下个月发布,与 GPT-4 相当- Grok 3 正在新建 10 万块液冷 H100 超算上,开始训练- 预计 Grok 3 将在 12 月发布,「届时将成为世界上最强大的人工智能」

  10 万块液冷 H100,19 天完成搭建

  值得注意的是,这个全球最大的超算集群,大就大在拥有 10 万块 H100,还是液冷的那种。

  10 万块 H100 是什么概念呢?

  价格上来看,H100 GPU 作为 AI 的关键组件、硅谷的热门商品,据估计每块成本在 3 万到 4 万美元之间,10 万块 H100 就是一笔 40 亿的大单。

  而在全美 TOP 5 的高校机器学习博士曾发帖说,实验室 H100 数量为0,要用 GPU 得靠抢。

  李飞飞也在采访里表示,斯坦福的自然语言处理小组只有 64 块 A100 GPU。

  而马斯克一出手就是 10 万块,这个数字令评论区垂涎欲滴。

  算力上来看,算力大约是 OpenAI 用于训练 GPT4 的 25000 块 A100 的 20 倍左右。

  耗电上来看,仅仅是让这个超级计算中心维持运转,所需要的电力总功率就达到 70MW,相当于这是一座普通电厂的装机容量,可满足 20 万人的能源需求。

  今年 5 月,马斯克就曾表示,希望在 2025 年秋季前建成「超算工厂」。

  现在看来,为了加速超级集群的建设,他选择了购买当前一代的 H100 GPU,而不是等待新一代的 H200 或其他即将推出的基于 Blackwell 的 B100 和 B200 GPU。

  尽管市场预期 Nvidia 的新 Blackwell 数据中心 GPU 将在 2024 年底前上市,马斯克显然没有耐心等待。

  当前 AI 军备竞赛越发火热,唯快不破,谁能最快地推出产品就能迅速占领市场。

  xAI 作为一家初创公司,更是要是与其他巨头之战中先声夺人。

  在之前,马斯克与甲骨文的百亿大单就谈崩了,马斯克嫌弃甲骨文速度太慢,认为对方没有以可行的速度构建计算集群。

  而甲骨文则觉得 xAI 建超算选址承担不了电力的需求,随着百亿订单的谈判破裂, xAI 和甲骨文停止了讨论扩大现有合作的可能性。

  xAI 只得田纳西州孟菲斯市建设自己的人工智能数据中心,与甲骨文的合作破裂意味着 xAI 要自己动手单干,通过 10 万块 H100 构建独立的数据中心,以摆脱甲骨文等云提供商能力的限制。

  马斯克自己也表示,xAI 拥有世界最强的 AI 训练集群,可谓遥遥领先。

  世界最强 Grok-3 开训,年底发

  在马斯克最新一则采访中,披露了建立超算的一些细节。

  据大孟菲斯商会(Greater Memphis Chamber)主席 Ted Townsend 透露,马斯克只花了大约一周的时间就决定将 xAI 的新超级计算机建造在孟菲斯。

  Townsend 说,经过 3 月份的几天旋风式谈判之后,马斯克和他的团队选择了田纳西州的这座城市,因为这里有充足的电力和快速建设的能力。

  并且,仅仅花费了 19 天超算中心就建造完成,马斯克也在推文中赞扬了团队优秀的工作。

  Supermicro 公司也为 xAI 提供了大部分硬件支持,其 CEO Charles Liang 也在马斯克的推文下发表了评论,赞扬了团队的执行能力。

  如此之大的训练集群,目的就是为了训练 Grok 3。

  本月初,马斯克就宣布 8 月底推出 Grok 2,在 Grok-2 尚未发布的情况下,马斯克也透露了 Grok-3 的部分细节,为最强模型 Grok 3 造势。

  马斯克在今年 4 月接受挪威主权基金负责人 Nicolai Tangen 采访时说,Grok 2 需要大约 2 万张 H100 来进行训练。

  Grok 3 将于年底发布,可以预见,基于 10 万个 GPU 训练的 Grok 3 性能方面将比 Grok 2 更上一层楼。

  如此巨大的超算中心,自然需要大量人才和技术的支持,马斯克也继续在推特上招兵买马,让数据优势、人才优势和算力优势全部扩张到极致。

  参考资料:

  https://x.com/elonmusk/status/1815325410667749760

  https://x.com/tsarnick/status/1815493761486708993