智东西
编译陈骏达
编辑 Panken
智东西 7 月 18 日消息,据外媒报道,由于 AI 算力集群价格高企与大企业订单挤兑,许多美国高校正面临算力的严重短缺,这导致了高校 AI 研究的滞后与 AI 研究人才的流失。
高校的算力荒由来已久,连顶级高校和学术大牛们也被这一问题困扰。今年 5 月,斯坦福大学教授李飞飞称学术界正在面临 AI 计算资源的严重短缺,斯坦福大学的 NLP 实验室只有 64 块 GPU(英伟达 A100)。图灵奖得主杰弗里·辛顿(Geoffery Hinton)更是在学生求助时直言:“我不知道这个问题除了求政府之外还有什么办法。”
与之产生鲜明对比的是,Facebook 母公司 Meta 预计将在 2024 年底拥有算力相当于 60 万块英伟达 H100 的庞大算力集群,几乎是斯坦福 NLP 实验室集群的 10000 倍。
但斯坦福大学 NLP 实验室的这 64 块 GPU,在不少其它高校的学生看来已是天方夜谭了。实际上除了像普林斯顿大学、德国亚琛工业大学等少数顶尖院校外,不少高校甚至连 1 块英伟达 A100 GPU 也没有。
在 Reddit 论坛上的一则相关讨论中,有北美高校博士生反映小型高校只能获得多年前英伟达发布的 V100 GPU。而欧洲和亚洲的高校情况则更为严峻,有不少高校只能使用英伟达的消费级显卡做 AI 研究。即便这样,算力也极为短缺,有些学生必须自费购买显卡或者从英伟达、亚马逊云服务(AWS)等处申请算力补贴。
不少高校也在努力改变现状,比如通过校际合作建立共享计算集群,或是转而从事其它对算力要求更低的 AI 研究方向。
一、算力短缺人才流失,高校的 GPU 荒有多严重?
其实,在过去的很长一段时间里,高校一直处在 AI 研究的最前沿,有不少突破性的进展都是由高校的研究人员做出的。例如,2015 年,斯坦福大学的博士后雅沙·索尔·迪克斯坦(Jascha Sohl-Dickstein)便发明了全世界第一个扩散模型,这成为后续不少图片和视频生成模型的基础。
虽然高校的基础研究对于技术创新浪潮至关重要,但近期的生成式 AI 研究一直由私营公司主导。这主要是因为他们能够获得构建和训练类似 ChatGPT 和 Gemini 这样的大模型所需的算力和数据。
生成式 AI 研究是十分昂贵的。OpenAI 首席执行官萨姆·阿尔特曼(Sam Altman)曾估计,训练 GPT-4 的成本约为 1 亿美元。而 Meta 首席执行官马克·扎克伯格(Mark Zuckerberg)曾在 2024 年初宣布计划购买 35 万块英伟达 H100 GPU,将 Meta 的算力扩展到相当于 60 万块英伟达 H100 GPU 的水平。按照 H100 近 4 万美元的售价来算,这将是一笔百亿美元量级的大订单。
目前,全球没有任何高校能负担得起这种量级的 AI 算力基础设施。普林斯顿大学作为 CS 强校,拥有美国高校中最大的几个单一 AI 算力集群之一,但这一集群也仅有 300 块英伟达 H100 GPU,还是今年 3 月才正式引入的。
普林斯顿大学语言与智能中心主任桑吉夫·阿罗拉(Sanjeev Arora)在谈及这一问题时说道,“如果你没有算力,就没办法开展大规模研究,这样你连参与对话的资格都没有”。
在 Reddit 论坛上的一则相关讨论中,一位来自美国排名前 5 的机器学习实验室的博士生称,他们迄今为止连 1 块英伟达 H100 都没有。
▲来自美国排名前 5 的机器学习实验室的博士生的提问(图源:Reddit)
一位来自亚洲的博士生也面临着同样的困境。他自己使用的 GPU 大部分都是消费级的,并且只有一两块而非集群。他的学校直到最近才拥有了一个配备 8 块 H100 的的服务器,并且只能限时访问。这位博士生说,在他有幸使用 H100 GPU 进行训练的两周时间里,他取得的数据比之前半年收集到的数据还要多。
▲一位在亚洲从事 CV 研究的学生回忆自己曾使用过的一系列 GPU(图源:Reddit)
还有一位学生分享道,自己的学校没办法提供任何算力上的支持。他只能通过自己的实习公司获取 1000 美元 AWS 云算力额度,如果用这些额度来跑 8 块 H100 的集群,大概只能用 1 天,这种量级的算力根本做不出高质量研究。他还称这是第三世界国家搞 AI 研究的常态。
▲一位硕士生分享自己通过实习公司获取计算额度的经历(图源:Reddit)
而欧洲高校的算力资源也不容乐观。有位在德国上学的学生分享道,自己十分幸运,因为他的学校还能提供的 16 块 A100 GPU 和数十块其它型号的 GPU。而在欧洲,许多大学和研究实验室基本不提供算力支持。
▲一位欧洲学生对自己拥有的计算资源感到庆幸(图源:Reddit)
另一位来自德国亚琛工业大学的学生分享,他的学校拥有超过 200 块英伟达 H100 GPU,这引得许多网友的羡慕。但这些资源是所有学院共享的,还要与外部机构共用,如果需要较长的计算时间,需要特别申请。
▲德国亚琛工业大学学生分享学校算力情况(图源:Reddit)
来自产业界的人士对高校的 GPU 短缺情况感到意外。一名业界人士称,自己在一家主要的云计算提供商工作,日常经常接触 H100 GPU,为其开发和修复软件。还有另一位业界人士称,H100 等需求量较大的尖端 GPU 在添加到数据中心之前,通常就被大企业客户大量预订了,因此 H100 对大多数研究人员来说是“罕见的”。
▲产业界人士对高校 GPU 短缺感到意外(图源:Reddit)
在计算资源不足的情况下,进行长时间的训练是极为奢侈的。高校的 AI 算力集群往往需要提前几天甚至数周申请,即便是用上了,使用时长也有限制。许多较大的训练任务很难在一个使用周期内完成,研究人员还必须花额外的精力构建 checkpoint 和恢复代码。
计算资源的短缺也带来了高校人才流失的问题,那些有志于做生成式 AI 研究的学生转向了大公司。因为大型科技公司普遍拥有比高校多上成百上千倍的算力,这对 AI 人才来说极具吸引力。
二、建立算力联盟、转变研究方向,高校既不甘也不能落后
面临着 AI 研究落后和 AI 人才流失的危机,不少高校正在争取额外的算力,并将研究重点转向非算力密集型的 AI 研究领域。
哥伦比亚大学机械工程系主任霍德·利普森(Hod Lipson)称:“学术机构正在争先恐后地获得算力。”他还强调,虽然工业界和政府在 AI 研究中的参与很重要,但为了平衡这两股力量,学术界、开源开发者等其它人士也应该对这项技术的发展有发言权。
为缓解高校的算力紧缺问题,不少高校让政府参与到了算力集群的建设过程中。2024 年初,包括哥伦比亚大学、康奈尔大学、纽约大学和伦斯勒理工学院在内的 7 所大学和科研机构,联合纽约州政府与慈善机构创建了一个名为 Empire AI 的算力联盟。
▲Empire AI 的联盟成员(图源:Empire AI 官网)
这一算力联盟筹集了近 4 亿美元的资金。其中的 2.75 亿美元来自政府,剩余资金则来自参与联盟的 7 所高校和研究机构。他们将利用这笔资金建立一个先进的 AI 计算中心,而联盟成员间可以共享这些计算资源,同时也有效地分摊了持有成本。
谈及建立这一联盟的理由,纽约州州长办公室称,目前 AI 算力资源越来越集中在大型科技公司手中,他们对 AI 开发生态系统有巨大的控制权。因此,研究人员、公益组织和小公司被抛在了后面,这对 AI 安全和整个社会产生了巨大影响。
学术界和产业界也在积极开展合作,这在硅谷、西雅图和奥斯汀等美国的科技中心城市已经比较常见了。华盛顿大学计算机科学与工程学院副院长丹·格罗斯曼称,他们有一些项目允许学术研究人员也能在工业界工作。学术人员能获得更好的资源,而大学也还可以留住这些人才。
其实,有不少具有重要意义的 AI 研究对算力的要求并不高,比如 AI 可解释性研究、AI 计划和推理能力研究等。在算力限制下,大学研究人员开始做更有针对性的研究,确保学界不会完全被业界超越。
康奈尔大学计算与信息科学学院院长卡维塔·巴拉(Kavita Bala)称,高校可以减少对构建和训练大语言模型的投入,而更多地关注开发基于大语言模型的应用。这样的应用仍然可以是最前沿的,在独特的应用领域发挥巨大作用。
麻省理工学院教授阿尔曼多·索拉尔·莱萨马(Armando Solar-Lezama)的工作重点是利用 AI 进行代码开发,他认为从头开始构建大模型在学术界根本不可行。学生和研究人员可以专注于开发应用程序,甚至创建可用于训练大语言模型的合成数据。
索拉尔·莱萨马称自己学院的教授们也主动出资购买服务器和芯片,但资金并非唯一的问题。即便有资金,获得顶级的 GPU 也是十分困难的。
结语:高校 AI 算力荒持续,多方合作或有破局希望
在目前大型科技企业主导 AI 研究的现状下,高校的 AI 研究是对这些研究的有效补充。高校的研究者不会像企业内部的研究者那样,受财报、市场需求等短期因素的影响。他们若能获得更多的计算资源,或许能在那些企业不会关注、不愿关注的领域,做出有重大影响力的成果。
其实在过去几十年中,AI 一直是一个不被看好的研究领域,还不得不披上深度学习、机器学习的马甲。但正是因为高校中有诸如辛顿、杨立昆(Yann LeCun)和约书亚·本吉奥(Yoshua Bengio)这样持之以恒的研究者,几十年如一日地坚持相关研究,如今的 AI 热潮才有了实现的基础。
除了在纽约州有 Empire AI 这样的算力联盟之外,北美的不少高校和研究机构也开展了规模大小各异的跨机构合作,共享算力资源。2023 年底,中国的十余所院校也成立了中国高校算力联盟。或许这种合作能给高校的算力荒带来破局的希望。
来源:《华尔街日报》、Reddit