阿里云全面升级GPU云服务,AI大模型推理性能可提升100%

  7 月 19 日,阿里云推出全面升级的 GPU 云服务,通过全新优化 GPU 套件,多 GPU 推理服务性能可最大提升 100%。针对调用 GPU 算力最常用的容器技术,阿里云推出 ACK 云原生 AI 套件,帮助开发者及企业更高效地开发和部署 AI 应用,加速大模型应用落地。

  随着 AI 大模型的体量变大、应用变广,单 GPU 已难以承载推理应用的全部需求,多 GPU 推理时代已经到来。如何在 GPU 资源紧缺的当下,实现 GPU 高效互联,是提升多 GPU 推理性能的关键。阿里云通过进一步优化底层的 AI 通信加速库 DeepNCCL,让 GPU 云服务在推理场景下有更好的性能表现:在同等硬件环境下,Token 输出吞吐至少提升 14%,首 Token 时延降低 15%。通过深度优化,推理加速性能也提升显著,Token 处理能力提升 100%,相同的资源可以支持 2 倍的业务需求。

  用 Kubernetes 容器集群技术调用 GPU 算力,已成为运行 AI 大模型任务的主流选择。ACK 容器服务可提供自动化编排及 GPU 高效管理和调度的能力,让模型部署、扩展变得更简单。为进一步提升 AI 应用运维效率,阿里云推出 ACK 云原生 AI 套件,可实现 Kubernetes 在 GPU 调度和细粒度共享、AI 任务调度、训练数据加载以及大模型推理服务启动等关键领域的能力增强和加速,相较开源均有大幅能力提升。比如,针对 AI 任务频繁加载远程存储数据的需求,ACK 云原生 AI 套件可提升训练数据读取性能 30% 以上,降低大模型推理服务冷启动时延 70% 以上。

  在全球累计超过 1000 万活跃用户的国产 AI 绘画工具海艺 AI,就是通过 ACK 调用阿里云 GPU 云服务的先行者。此前,用户通过海艺 AI 生成一张图片平均耗时 20 秒,遇到队列等待延迟可上升至分钟级;采用阿里云 GPU 云算力及 ACK 容器服务后,海艺 AI 的模型切换完全无感,推理耗时降低至 3.95 秒,整体性能提升至少 50% 以上。

  在最新的 Forrester 全球 AI 基础设施解决方案研究报告中,阿里云综合产品能力指标位居全球第二,已成为中国 AI 大模型的公共底座。零一万物、百川智能、智谱 AI、昆仑万维、vivo、复旦大学、巨人网络等大批企业和机构在阿里云上训练大模型,并通过阿里云对外提供服务;小鹏汽车、联想、德勤、微博、完美世界、喜马拉雅等已接入阿里云通义大模型,在阿里云上为消费者和客户提供丰富的 AI 应用服务。