ChatGPT算力消耗惊人,能烧得起的中国公司寥寥无几

  高性能 GPU 数量或性能不够的结果是,AI 推理和模型训练的准确度不足,即使做出类似的对话机器人,机器人的“智商”也会远低于 ChatGPT

  文吴俊宇

  编辑谢丽容

  国内云厂商高性能 GPU 芯片缺货,正在成为限制中国生成式 AI 诞生的最直接因素。

  2022 年 12 月,微软投资的 AI 创业公司 OpenAI 推出了聊天机器人 ChatGPT。这是生成式 AI 在文本领域的实际应用。所谓生成式 AI,是指依靠 AI 大模型和 AI 算力训练生成内容。ChatGPT 本质是 OpenAI 自主研发的 GPT-3.5 语言大模型。该大模型包含近 1800 亿个参数。

  微软的 Azure 云服务为 ChatGPT 构建了超过 1 万枚英伟达 A100GPU 芯片的 AI 计算集群。

  美国市场研究机构 TrendForce 在 3 月 1 日的报告中测算称,处理 1800 亿个参数的 GPT-3.5 大模型,需要的 GPU 芯片数量高达 2 万枚。未来 GPT 大模型商业化所需的 GPU 芯片数量甚至超过 3 万枚。更早前的 2022 年 11 月,英伟达在官网公告中提到,微软 Azure 上部署了数万枚 A100/H100 高性能芯片。这是第一个采用英伟达高端 GPU 构建的大规模 AI 算力集群。

  鉴于英伟达在高性能 GPU 方面的技术领先实力,在国内,云计算技术人士公认的一个说法是,1 万枚英伟达 A100 芯片是做好 AI 大模型的算力门槛。

  《财经十一人》了解到,目前国内云厂商拥有的 GPU 主要是英伟达中低性能产品(如英伟达 A10)。拥有超过 1 万枚 GPU 的企业不超过 5 家,其中拥有 1 万枚英伟达 A100 芯片的企业最多只有 1 家。也就是说,单是从算力这个衡量指标来看,国内能在短期内布局类似 ChatGPT 的选手十分有限。

  ChatGPT 看似只是聊天机器人,但这却是微软的 AI 算力、AI 大模型和生成式 AI 在消费市场的一次肌肉展示。在企业市场,这是云计算的新一轮增长点。微软 Azure ML(深度学习服务)已有 200 多家客户,包括制药公司拜耳、审计公司毕马威。Azure ML 连续四个季度收入增长超过 100%。这是微软云旗下云、软件、AI 三大业务中增长最快的板块。

  今年 2 月,包括阿里、百度等中国企业宣布将研发类 ChatGPT 产品,或将投入生成式 AI 的研发。在国内,AI 算力、AI 大模型和生成式 AI 被认为只有云厂商才有资格下场。华为、阿里、腾讯、字节跳动、百度都有云业务,理论上有跑通 AI 算力、AI 大模型和生成式 AI 应用的入场券。

  有入场券不代表能跑到终点。这需要长期高成本投入。GPU 芯片价格公开,算力成本容易衡量。大模型需要数据采集、人工标注、模型训练,这些软性成本难以简单计算。生成式 AI 的投资规模通常高达百亿元。

  多位云计算厂商技术人士、服务器厂商人士对《财经十一人》表示,高性能 GPU 芯片短缺,硬件采购成本、运营成本高昂,国内市场中短期商业化困难,这三个问题才是真正的挑战。他个人认为,具备资金储备、战略意志和实际能力的企业,暂时不会超过 3 家。

  芯片数量决定“智商”

  决定 AI 大模型“智商”的核心因素是三个,算力规模、算法模型的精巧度、数据的质量和数量。

  AI 大模型的推理、训练高度依赖英伟达的 GPU 芯片。缺少芯片会导致算力不足。算力不足意味着无法处理庞大的模型和数据量。最终的结果是,AI 存在智商差距。

  3 月 5 日,第十四届全国人民代表大会第一次会议开幕式结束后,科技部部长王志刚在全国两会“部长通道”接受媒体采访时评价,ChatGPT 作为一个大模型,有效结合了大数据、大算力、强算法。它的计算方法有进步,特别是在保证算法的实时性与算法质量的有效性上。“就像发动机,大家都能做出发动机,但质量是有不同的。踢足球都是盘带、射门,但是要做到梅西那么好也不容易。”

  英伟达是全球知名的半导体厂商,在数据中心 GPU 市场占据超过 90% 以上的份额。英伟达 A100 芯片 2020 年上市,专用于自动驾驶、高端制造、医疗制药等 AI 推理或训练场景。2022 年英伟达推出了性能更强的新一代产品 H100。A100/H100 是目前性能最强的数据中心专用 GPU,市面上几乎没有可规模替代的方案。包括特斯拉、Facebook 在内的企业,都利用 A100 芯片组建了 AI 计算集群,采购规模均超过 7000 枚。

  多位云计算技术人士对《财经十一人》表示,运行 ChatGPT 至少需要 1 万枚英伟达的 A100 芯片。然而, GPU 芯片持有量超过 1 万枚的企业不超过 5 家。其中,拥有 1 万枚英伟达 A100GPU 的企业至多只有 1 家。‍

  另有某大型服务器厂商人士对《财经十一人》表示,即使乐观估计,GPU 储备规模最大的企业也不超过 5 万枚,且以英伟达中低端数据中心芯片(如英伟达 A10)为主。这些 GPU 芯片分散在不同数据中心中,单个数据中心通常只配备了数千枚 GPU 芯片。

  此外,由于美国政府去年 8 月开始实施的贸易限制,中国企业早已无法获取英伟达 A100 芯片。现有 A100 芯片储备均是存货,剩余使用寿命约为 4 年-6 年。

  2022 年 8 月 31 日,英伟达、AMD 两家半导体企业旗下生产的 GPU 产品被美国列入限制范围。英伟达被限制的产品包括 A100 和 H100,AMD 受管制 GPU 产品包括 MI250。按照美国政府的要求,未来峰值性能等于或超过 A100 的 GPU 产品也被限制出售。(详情见《财经十一人》2022 年 9 月 1 日报道)

  中国企业目前能够获取的最佳替代品,是英伟达的 A800 芯片。A800 被视为是 A100 的“阉割版”。2022 年 8 月,A100 被禁止销售中国市场后,英伟达在当年三季度针对中国市场推出了特供的 A800 芯片。该产品计算性能与 A100 基本相同,但数据传输速度被降低了 30%。这会直接影响 AI 集群的训练速度和效果。

  不过,A800 芯片目前在中国市场也严重缺货。虽然是 A100“阉割版”,A800 京东官网定价超过 8 万元/枚,甚至超过 A100 官方定价(1 万美元/枚)。即使如此,A800 在京东官网仍是缺货状态。

  有云厂商人士对《财经十一人》表示,A800 实际售价甚至高于 10 万元/枚,价格还在持续上涨。A800 目前在浪潮、新华三等国内服务器厂商手中是稀缺品,一次只能采购数百片。

  GPU 数量不够或性能不够的结果是,AI 推理和模型训练的准确度不足。这会直接导致中国企业即使做出类似的对话机器人,机器人的“智商”会远低于 ChatGPT。国内云厂商高性能 GPU 芯片缺货,正在成为限制中国版 ChatGPT 诞生的最直接因素。

  成本高昂

  AI 算力和大模型是比云还要烧钱的吞金兽。

  即使有足量的高性能 GPU,中国云厂商接下来还要面临高昂的硬件采购成本、模型训练成本以及日常运营成本。面对上述成本,具备资金储备、战略选择和实际能力的企业不超过三家。

  OpenAI 能做出 ChatGPT,背后有微软提供资金和算力。2019 年微软向 OpenAI 投资 10 亿美元。2021 年微软再进行了一轮未透露金额的投资。今年 1 月,微软宣布将在未来数年陆续向 OpenAI 投资 100 亿美元。

  对云厂商来说,AI 算力和大模型需要面临高昂的硬件采购成本、模型训练成本以及日常运营成本。

  其一,硬件采购成本和智算集群建设成本。如果以 1 万枚英伟达 A800 GPU 为标准构建智能算力集群,在 10 万元/枚的价格标准下,仅 GPU 采购成本就高达 10 亿元。一台服务器通常需要 4 枚-8 枚 GPU,一台搭载 A800 的服务器成本超过 40 万元。国内服务器均价为 4 万-5 万元。一台 GPU 服务器的成本是普通服务器的 10 倍以上。服务器采购成本通常是数据中心建设成本的 30%,一个智算集群的建设成本超过 30 亿元。

  其二,模型训练成本。想要算法模型足够精准,需要进行多轮算法模型训练。有某外资云厂商的资深技术人士对《财经十一人》表示,ChatGPT 一次完整的模型训练成本超过 1200 万美元(约合 8000 万元)。如果进行 10 次完整的模型训练,成本便高达 8 亿元。GPU 芯片价格公开,算力成本相对容易衡量。但 AI 大模型还需要数据采集、人工标注、模型训练等一系列工作,这些软性成本难以简单计算。不同效果的模型最终成本也不同。

  其三,日常运营成本。数据中心内的模型训练需要消耗网络带宽、电力资源。此外,模型训练还需要算法工程师负责调教。上述成本也以亿元为单位计算。

  也就是说,进入 AI 算力和 AI 大模型的赛道,前期硬件采购、集群建设成本就高达数十亿元。后期模型训练、日常运营以及产品研发成本同样高达数十亿元。一家管理咨询公司技术战略合伙人对《财经十一人》表示,生成式 AI 的投资规模高达百亿元。

  微软大规模采购 GPU 组建智算集群,这在商业逻辑上行得通。2022 年微软在云计算基础设施的支超过 250 亿美元,而当年微软云营业利润就超过 400 亿美元。利润大于支出,大规模投资 AI 算力、大模型业务,这与微软的财务现状是相匹配的。

  微软的 AI 计算有产品、有客户、有收入,形成了新的增长点。微软的客户通常会在云上租赁数千枚高性能 GPU,进行语言模型学习,以此使用自己的启用生成式 AI。

  微软旗下包括 Azure ML 和 OpenAI。Azure ML 有 200 多家客户,包括制药公司拜耳、审计公司毕马威。Azure ML 连续四个季度收入增长超过 100%。微软云甚至已经形成了“云-企业软件-AI 计算”三条轮动增长的曲线。其中公有云 Azure 营收增速约为 30%-40%,软件业务营收增速约为 50%-60%,AI 算力营收增速超过 100%。

  中国企业用于云基础设施的资本支出有限,投资投资智算集群、AI 大模型需要从有限的预算中分走支出。更大的挑战是,中短期内不仅无法盈利,还要亏更多钱。

  科技公司的资本支出通常被用于采购服务器、建设数据中心、购置园区土地等固定资产。以亚马逊为例,2022 年资本支出 580 亿美元,超过 50% 用于投资云基础设施。《财经十一人》查阅阿里、腾讯、百度最近一个财年的资本支出发现,三家数据分别为 533 亿元、622 亿元、112 亿元。

  三家均未披露用于投资云基础设施的资本支出情况。假设三家企业与亚马逊相同,50% 的资本支出用于投资云基础设施,数据分别为 266 亿元、311 亿元、56 亿元。投资数十亿元对资本支出宽裕的企业来说可以承受,但对资本支出不足的企业来说,则是负担。

  国内宣布已建设智算集群的企业包括阿里云、华为、百度,但智算集群内 GPU 芯片数量不详。2022 年,主要云厂商均把提高毛利、减少亏损作为战略重点。在这个阶段采购高性能 GPU、建设智算集群需要巨额投入。不仅会加剧亏损,还需要依赖集团输血。这将考验企业管理层的战略意志。

  大模型没条件,先做小模型

  华为、阿里、腾讯、字节跳动、百度都有云业务,理论上有做出中国版 ChatGPT 的入场券。

  有云计算技术人士评价,有入场券的几家企业也会有实际的战略考量。比如,腾讯、百度、字节跳动有云也有大量数据,但云业务在亏损,长期投入的资金储备、战略意志存疑。华为靠自研昇腾芯片建立了大模型技术,但因“断供”影响无法获得英伟达的 GPU 芯片,而且作为硬件厂商缺少互联网公司的数据积累。

  由于上述限制,能实现 AI 大模型商业化的企业少之又少。最终同时具备资金储备、战略意志和实际能力的企业将聊聊无几。

  目前,没有一家中国云厂商像微软一样拥有数万枚 A100/H100 芯片。中国云厂商的高性能 GPU 算力目前暂时不足。一种更务实的观点是,中国云厂商即使真的获取 1 万枚英伟达高性能 GPU 后,也不应该简单投入到中国版 ChatGPT 这种大众的消费场景。

  算力资源稀缺时,优先考虑是投入行业市场,为企业客户提供服务。一家管理咨询公司技术战略合伙人对《财经十一人》表示,ChatGPT 只是对话机器人,商业应用场景展示暂时有限。用户规模越大,成本也就越高,带来的亏损也会越大。AI 算力和大模型如何在细分领域实现商业化,获取正向现金流才是关键。

  中国市场的 AI 算力、大模型的商业化尚处于起步期。目前国内自动驾驶、金融等领域的少数客户开始采用 AI 算力。比如,小鹏汽车目前已经采用阿里云的智算中心进行自动驾驶的模型训练。

  有数据中心产品经理对《财经十一人》表示,国内银行金融客户反欺诈已经大量运用模型训练技术,通常只需要租赁使用数百枚性能更低的 GPU 调教模型。同样是 AI 计算和模型训练,这是更低成本的解决方案。事实上,通用大模型无法解决行业具体问题,无论是金融、汽车、消费等各个领域都需要行业模型。

  中国暂时没有足够的高性能 GPU 做大规模 AI 模型训练,可以先在细分领域做小模型。AI 技术发展之快速超越了人们的认知,对中国公司来说,持续布局战略性发力才是根本之道。