英伟达想再赢一次

图片来源@视觉中国

图片来源@视觉中国

  文甲子光年科技产业智库,作者|范文婧、赵健

  上个月,英伟达创始人兼 CEO 黄仁勋在演讲中兴奋地谈论 ChatGPT 带来的变化,感叹这是“人工智能的 iPhone 时刻”。

  而在昨晚英伟达的年度活动 GTC(GPU Technology Conoference)演讲中,黄仁勋又把“AI 的 iPhone 时刻”这句话重复了三遍。

  英伟达与 AI 的关系不可谓不密切。2012 年,Alex koshevsky、Elias suskaver 和 Jeff Hinton 的研究团队,在英伟达 Geforce GTX 580 上使用 1400 万张图片训练了 AlexNet 计算机视觉模型,可处理 262 千万亿次浮点运算。经过训练的模型以压倒性优势赢得了 ImageNET 挑战赛,并触发了深度学习的大爆炸。

  十年之后,相同的戏码再次上演。OpenAI 凭借 10000 片英伟达 GPU 芯片来训练 GPT-3 大语言模型,需要进行 323 x 10^21 次浮点运算,比 AlexNet 多出一百万倍,然后创造出了震惊世界,也震惊了黄仁勋自己的 ChatGPT。

  在 ChatGPT 以及生成式 AI 的热潮下,英伟达的股价节节攀升,今年以来涨幅超过 80%,市值接近 6500 亿美元,一举超过特斯拉。

  英伟达也把 AI 当做一次二次腾飞的机遇。2023 年初各大科技公司财报发布,英伟达提及 AI 75 次,超过谷歌、微软、Meta。本周为期四天的 GTC 活动包含了 650 多场会议,由众多研究者、开发者和行业领袖参与,其中仅生成式 AI 的主题会议就超过 70 场。

  黄仁勋曾热切地表示:“AI 正迎来有史以来最辉煌的时刻。新的 AI 技术和迅速蔓延的应用正在改变科学和各行各业,并为成千上万的新公司开辟新的疆域。这将是我们迄今为止最重要的一次 GTC。”

  英伟达确实没有让观众失望,在不到 80 分钟的演讲中,黄仁勋发布了四款 AI 推理芯片,包括针对生成式 AI 图像处理、大模型处理的芯片;发布了三个大模型云服务,分别适用于文本、图像和生物研究;发布了超级计算机,以及针对场景优化的应用 100 个、更新功能的工业元宇宙 Omniverse。

  作为一家以 GPU 为核心的公司,英伟达不满足于只提供算力,早已布局 AI 的各个领域。十年之前的深度学习浪潮让英伟达赢了第一次,十年之后的生成式 AI 浪潮,英伟达还会继续赢第二次吗?

  01 100 个场景的算力加速

  生成式 AI 时代更加需要英伟达 GPU 的算力。黄仁勋首先展示了英伟达加速计算能力的更新。

  除了底层的芯片,英伟达早在 2006 年就推出了 CUDA 生态,以帮助用户通过简单编程来使用 GPU。针对不同的应用、场景,英伟达会做相应的适配和优化,也即“加速库”。

  现有的 300 个加速库和 400 个 AI 模型覆盖了量子计算、数据处理、机器学习等广泛的领域,已经有数千款应用被优化。

  而这次的 GTC 上,英伟达又更新了 100 个场景。

  这些场景包括,在 CAE 软件中完成流体力学(CFD)的计算、助力量子计算研究平台(cuQuantm)、优化数据库中的搜索(Spark-Rapids)、优化捡取与配送难题 PDP(配送多个地点最短路程计算)等,并且已经在客户实际体验中获得了验证。

  除此之外,英伟达原有多个推理 SDK 也有更新,包括在推理时针对指定 GPU 进行优化的 TensorRT、用于数据中心深度学习框架加速的 Triton,以及用于机器视觉的 CV-CUDA、用于视频处理的 VPF 等。

英伟达的 100 个加速库场景(部分)

  值得一提的是,一直不掺和芯片制造的英伟达,这次通过一个特别的方式“参与”了一下。

  芯片制造对精度的要求极高,一些产品的精度甚至是细菌的千分之一,与人类 DNA 链的尺寸相似。“光刻”是芯片制造最重要的环节之一,它指的是通过光学技术在晶圆上成像,以达到设计及性能预期。目前,它的精度已经可以达到 3 纳米,也即“3 纳米制程”。

  这样的光刻技术也需要大量的计算,而且是芯片设计和生产中消耗计算量最大的部分,每年需要百亿的 CPU 工作小时,芯片制造商每年的投资预计 2000 亿美元。

  英伟达本次与台积电、ASML、Synopsys 合作,推出计算光刻库——cuLitho。这个由芯片制造、光刻机、EDA 和算力四个领域 Top1 企业合作的产品,已经筹备了整整四年,将光刻计算加速了 40 倍,从原来处理完一个掩膜版的 2 周缩短到了 8 小时。

  台积电将在 6 月开始验证 cuLitho。

  02 AI 超级计算机与 DGX Cloud 云服务

  英伟达的加速计算始于其 AI 超级计算机 DGX,这是大语言模型背后的动力引擎。

  2016 年,全球首款 DGX 由黄仁勋亲手交付给 OpenAI,此后《财富》100 强企业中有一半都安装了 DGX,DGX 成为 AI 研究的必备工具。

  DGX 配有 8 个 H100 GPU 模组。H100 设计了一个专用的模块来支持 transformer 架构——ChatGPT 的底层架构。这在 GPU 领域是开创性的。

  H100 在去年 GTC 发布,是目前地表最强 GPU。8 个 H100 协同工作,通过 NVLINK Switch 彼此相连,组成了一个巨型 GPU,实现全面无阻塞通信;计算结构是 AI 超级计算机最重要的系统之一,400Gbps 超低延迟的英伟达 Quantum-2 InfiniBand 具有网络内的计算功能,可将成百上千个 DGX 节点连接为一台 AI 超级计算机。

  黄仁勋激动地表示:“NVIDIA DGX H100 是全球客户构建 AI 基础设施的蓝图,已经全面投入生产。”

  微软宣布 Azure 将向其 H100 AI 超级计算机开放私人预览版,AWS、Google Cloud、Oracle 等云厂商,戴尔、联想等服务器厂商也将很快开放服务。

  DGX 最初用作 AI 研究,但现在正在扩展到更多的应用场景,黄仁勋将其称为“现代 AI 工厂”。

  为了让客户更轻松、更快地享受英伟达 AI 服务,英伟达通过与微软 Azure、谷歌 GCP、甲骨文 OCI 合作,推出英伟达的 AI 云服务(NVIDIA DGX Cloud),为客户提供端到端的 AI 服务。

  甲骨文将成为英伟达 AI 云的首个云合作伙伴。英伟达宣布有 50 家早期企业客户,覆盖消费互联网和软件、医疗保健、媒体和娱乐、金融服务。

  03 英伟达大模型,AI 行业的代工厂

  黄仁勋表示,ChatGPT、Stable Diffusion、DALL-E 和 Midjourney 唤醒了世界对生成式 AI 的认知,并两次提到这是“AI 的 iPhone 时刻”,ChatGPT 也是世界上增长最快的应用程序。

  如今,每个人都是程序员,而生成式 AI 就是新的计算平台。就像过去的 PC、互联网、移动设备和云一样,生成 AI 将重塑几乎所有行业。

  黄仁勋表示,这个行业需要一个像台积电一样的“AI 代工厂”来自定义大模型,而英伟达要扮演这个角色。

  今天,英伟达宣布成立“NVIDIA AI Foundations(英伟达 AI 基础大模型)”,这是一项云服务,面向需要构建、改进和操作自定义大型语言模型和生成 AI 的客户,这些模型和生成 AI 使用其专有数据和特定领域的任务进行训练。

  英伟达 AI 大模型包含“语言、视觉和生物学”三大模型。

  Nvidia Nemo 是“本文-本文”的语言生成模型,模型参数有 80 亿、430 亿、与 5300 亿三种类型。从创建专有模型到运营,英伟达的 AI 专家将给予全程的指导合作。利用 Nemo,企业可以快速生成大模型,用来总结财务文件、创建特定品牌或根据写作风格撰写电子邮件。

  Picasso 是一个视觉语言模型,用于构建和部署点生成 AI 驱动的图像、视频和 3D 应用程序。借助在 Nvidia dgx 云上运行的 Nvidia Picasso 服务,企业可以简化构建自定义生成 AI 应用程序所需的培训、优化和推理。黄仁勋宣布,gettyimages、Shutterstock 将采用英伟达 Picasso 服务,Adobe 将与英伟达共同打造新一代的生成式 AI 模型。

  第三个大模型 Bionemo 的领域是生物学。药物研发是一个 2 万亿美元的产业,其中有 2500 亿美元投入了研发,而 Bionemo 包含可用于蛋白质结构预测、蛋白质生成、蛋白质性质预测、分子生成、分子对接等各个流程的模型,帮助研究人员使用其专有数据创建、微调和服务自定义模型,来节省药物研发宝贵的时间与资金。

  在数百家新的 AI 制药初创公司之中,英伟达已经积累了至少 7 家公司,作为 Bionemo 大模型的早期用户。


黄仁勋总结道,英伟达大模型是一个“云服务和代工厂”,用于构建自定义语言模型与生成式 AI。

  04 四款芯片配置、一体化架构的推理平台,性能提升 10 倍

  自十年前 Alexnet 以来,深度学习开辟了巨大的新市场——自动驾驶、机器人技术、智能音箱等,并重塑了人们购物、消费新闻和享受音乐的方式。而这只是冰山一角。

  随着生成式 AI 掀起新的机遇浪潮,AI 正处于转折点,使得推理工作负载呈指数级增长。AI 现在可以生成各种数据,包括语音、文本、图像、视频和 3D 图形、蛋白质到化学物质。

  设计一个云数据中心来处理生成式 AI 是一个巨大的挑战。一方面,理想情况下最好使用一种加速器,因为这使得数据中心具有弹性,能够处理不可预测的流量高峰和低谷;但另一方面,没有一个加速器能以最优的方式处理算法、模型、数据类型和大小的多样性。

  而今天,英伟达发布了新的“兼具加速功能和弹性”的推理平台——四种配置、一个体系架构、一个软件栈。

  英伟达一口气推出了四款新的芯片,第一款为 AI 视频芯片 L4。L4 是一款针对视频的云推理芯片,功能主要集中于视频解码和转码、频内容审核、视频通话等,例如在视频通话过程中的背景替换、重新打光、增加眼神交流、语音转录和实时语言翻译等。

  性能方面,在 AI 视频领域,一台配备 8 个 L4 的服务器可以取代 100 多台双插槽 CPU 服务器。目前,谷歌云平台已成为首批使用英伟达 AI 云技术的企业之一。

  同样是图像领域,推理芯片 L40 主要用于 Omniverse、图形渲染和生成式 AI,包括文本到图像和文本到视频等。L40 的主要应用场景对标的是在 2018 年推出、至今仍是推理芯片主流的 T4。根据英伟达的介绍,L40 的性能是 T4 的 10 倍,这让 L40 在处理上述任务时都更加高效。

  通过 L40,AI 编辑软件 Runway 让用户可以轻松地通过几个笔触就从视频中删除一个对象,或者改变视频的背景或前景。相信目前流行的 AI 图片生成平台 Midjourney、Stable Diffusion、DALL-E 等都可以通过 L40 创造更多的可能性。

  可以看到,虽然同为针对图像的 AI 推理芯片,L4 关于云端的视频场景,而 L40 则更通用,可以实现所有与图像相关的场景优化。

  针对如 ChatGPT 等大模型,英伟达推出了针对大模型的芯片——H100 NVL。

  大模型对内存和计算方面的需求较高,也需要很高容量的横向扩展能力。目前,能够处理拥有 1750 亿参数的 GPT-3 等大型语言模型的只有 A100,而 GPT-4 等参数量更大的模型则需要更多 A100 的堆叠。性能方面,一台 8 卡的 H100 NVL 的速度是目前标配 8 卡 A100 服务器的 10 倍。这不仅意味着速度的提升,也将降低大模型公司在算力方面的成本。

  最后,AI 计算离不开大数据,针对海量数据的存储、查询与推理,英伟达推出了存算一体超级芯片 Grace-Hopper。它由 Grace CPU 和 Hopper GPU 连接而成,拥有一个 900GB/秒的高速接口。目前,CPU 会存储和查询巨型数据库,然后把结果传输到 GPU 里进行推理,这需要花费一定的时间。相较于 CPU 和 GPU 之间传统的通过 PCIE 连接,在 Grace 中查询嵌入并传输到 Hopper 的速度快了七倍。Grace Hopper 可以用来处理大型数据集,比如适用于推荐系统和大型语言模型的 AI 数据库。

  05 “工业元宇宙”Omniverse

  本届 GTC 的最后一个环节,是英伟达的“工业元宇宙”Omniverse。

  Omniverse 是一个工业数字化平台,最早在 2019 年推出,旨在搭建数字化和物理世界之间的桥梁,它让各个行业在投入实际生产之前先以数字化方式设计、建造、运营和优化物理产品和工厂。

  Omniverse 的用途之一是建立虚拟工厂,在那里所有的机器都是数字化的。

  黄仁勋介绍道,半导体行业正在投资 5000 亿美元建造 84 个新晶圆厂,2030 年汽车制造商将建造 300 家工厂来生产 2 亿辆电动汽车,电池制造商正在建造 100 多家特大型工厂,物流行业在全球数十亿平方英尺的仓库之间辗转运输货物。

  虚拟工厂可以为全球工厂节省数十亿美元,亚马逊机器人是英伟达 omniverse 的代表客户之一。本次 GTC,omniverse 在几十个领域迎来了更新。

  目前,已经有近 30 万创作者和设计师下载了 omniverse。它不是一个工具,而是一个 USD 网络和共享数据库,也是一种与各行各业使用的设计工具相连的基础结构,可以连接、合成和模拟使用行业领先工具创建的 3D 资产。

  Omniverse 的发展壮大依赖于开放的生态系统。Omniverse 目前已经连接到 Bentley Systems LumentRT、西门子、NX、罗克韦尔、Unity 等,汽车行业中沃尔沃、通用、梅德赛斯-奔驰、捷豹路虎、宝马、路特斯、丰田、Lucid 等汽车制造商也在使用 Omniverse 开展工作。其中,宝马汽车基于 Omniverse 在匈牙利建造了第一座数字孪生工厂,将在 2025 年开业。

  今天, 英伟达还宣布了专门为运行 Omniverse 而设计的系统。第一款是由英伟达 Ada RTX GPU 和英特尔最新 CPU 驱动的新一代工作站,将从三月份开始在 Boxx、戴尔、惠普和联想上市;第二个是针对 Omniverse 优化的新型 Nvidia ovx 服务器,将由戴尔、惠普、Quantn、技嘉、联想和 SuperMicro 提供。

  最后,英伟达还推出 Omniverse Cloud 的云服务,支持即时、安全地访问托管的 Omniverse Cloud API。英伟达正在与微软合作,将 Omniverse 云服务引入全球各个行业。同时,英伟达正在将 Omniverse 云连接到 Microsoft 365 生产力套件,包括 Teams、OneDrive、SharePoint 和 Azure IoT 数字孪生服务。

  今年的 GTC 时长只有 80 分钟,比去年的 140 分钟短了近一半,但重要程度却完全不逊色。

  从三款大模型到四款 AI 推理芯片,以及优化的 100 个应用场景、更新功能的工业元宇宙 Omniverse,这些产品里,哪个让你最激动?