银行智算中心部署浪潮AIStation,模型训练效率提升7倍

  随着金融数字化转型加速推进,银行需要提供更高质量、更快速的金融服务,对银行智算中心的能力提出了更高要求和挑战。多样化智能计算场景需要多元化的算力供给,如巨量化模型、数据和应用规模需要巨量算力,不同尺度作业需要灵活且精细化算力管理。随着计算集群规模不断激增,以及异构计算资源、高性能网络快速发展,如何满足不同 AI 负载针对网络、存储、异构算力等需求,是银行面临的关键问题。

  浪潮信息在与某大型国有银行的合作中发现,当前银行智算中心主要支持在线推理服务,应用场景近 1000 种,但同时缺乏大规模分布式、大模型训练算力基础设施所需的资源管理和开发平台,导致某些业务的模型迭代周期较长。同时由于业务部门分散,缺乏有效的算力统一管控平台。

  浪潮智能业务生产创新平台 AIStation 通过不断的技术创新与实践,将大规模 GPU 并行计算优化能力与 AI 算力池化智能化调度结合起来,成功将典型 AI 模型的训练周期由 1 周缩短为 1 个工作日,支持银行 AI 业务场景快速上线,已在大型国有银行落地。本文将阐述浪潮如何在具体业务场景下帮助银行智算中心快速构建 AI 生产创新平台,实现高性能、高可靠、高扩展。

  全生命周期管理的AIStation台,助力银行业务创新

  完备的任务全生命周期管理能更好地支持银行智算中心,帮助开发者快速使用算力,协助管理者管好资源,实现业务快速创新。

  AIStation 平台提供了作业全生命周期管理,能够让开发者跟踪作业状态、为训练优化提供必要的信息、分析平台资源使用率状态、帮助制定资源使用率提升方案。同时提供完备、高效的异构计算资源管理,从数据加速、网络优化、业务系统无缝对接等维度保障银行业务,实现开发者便捷无感知的开发模式和管理者高效可控的管理模式。

   

  l  便捷高效异构计算管理,充分发掘算力价值

  目前异构人工智能芯片发展迅速,越来越多银行智算中心正在从传统架构迁移至异构算力架构,但面临异构芯片种类多、管理复杂、开发门槛高等难题。

  针对异构算力资源接入与管理,AIStation 平台建立了加速卡管理模型,可以实现零业务代码修改和异构算力资源接入、配额管理、算力使用的配置化流程,以及异构加速卡的类型识别、算力识别。同时提供报表统计、监控告警功能,使平台管理员能够获取异构算力的健康状态及使用情况,可以通过配置化的方式实现异构算力资源的接入和管理。目前,AIStation 已经适配了超 20 款当前市场主流不同架构的加速卡,具有良好的适配性和通用性,能够充分满足不同业务场景对银行智算中心的算力要求。

   

  l  镜像分发加速,降低分布式任务的环境准备时间

  通常情况下,计算集群在为训练任务分配了资源后,节点将准备环境(如下载作业镜像),此时加速卡算力资源处于完全空置状态。尤其是分布式作业涉及多个计算节点并发下载镜像,对镜像仓库产生较大压力,导致镜像下载较慢甚至失败,严重浪费了算力资源。

  AIStation 提供了镜像 P2P 分发加速功能,能在无需新增硬件的情况下实现镜像分发加速。镜像仓库仅提供一次下载带宽,镜像加速系统即可在计算节点缓存镜像数据,并为其他计算节点的镜像下载提供数据服务,同时提供节点数线性相关的镜像网络总带宽,有效降低了分布式任务的环境准备时间。实测证明可将耗时降低至原来的1/2。

  此外,AIStation 具有节点数据缓存功能,可以仅进行一次性存储系统读取,依靠本地高速磁盘消除网络传输时延,极大提高了存储 IOPS,加速训练效率,能够将典型 AI 模型的训练周期由 1 周下降为 1 个工作日。并且 AIStation 在缓存机制基础上提供了缓存生命周期管理,在磁盘使用率不高时尽可能缓存数据,同时实现数据亲和性调度。

  大规模分布式作业的另一大挑战是异常故障处理。由于分布式任务使用了更多的资源,因而更容易受到硬件、网络等故障的影响,进而引发训练中断。一般来说,分布式任务异常处理需要人工介入操作,时效性无法保障,并且还需要一定的人工经验判断任务失败的具体原因和解决方法,对算法人员的要求较高。AIStation 平台提供了完备的故障检测识别、任务容错的机制,在故障发生时能够识别当前故障类型,对于通过重启即可恢复的故障(如加速卡故障、网络故障等),平台自动触发训练任务的重提。AIStation 通过自动化流程,提高了故障处理效率,节省了集群机时资源,提高了资源利用率。

  l  领先网络方案,实现GPU资源灵活调度

  银行智算中心网络构建方案目前有很多,其中 RoCE 网络基于以太网协议实现 RDMA,可以复用已有数据中心的网络设备,从而降低集群搭建成本。基于 RoCE 的网络方案,需要充分考虑 GPU 资源的协调调度,实现物理主机 GPU 的共享使用,来满足训练任务任意 GPU 数的需求,同时也需将 RDMA 网卡透传到容器内,以满足跨节点 GPU 的 RDMA 通信需求,但是目前还没有一个有效的解决方案。

  浪潮提出基于 RoCE 网卡虚拟化和网络互通性管理相结合的解决方案,实现了在容器云平台上对 RoCE 网络的快速接入适配,同时降低网络适配难度。方案已部署到某大型国有银行的实际生产环境中,帮助客户解决了 GPU 资源碎片的问题,实现 RoCE 网络下 GPU 资源灵活调度分配,实际效果超出了客户预期。

  l  RoCE网卡虚拟化:对于 AI 训练网络,存在多种实现网络设备共享的方案,例如 MacVLAN、Calico、Flannel、SR-IOV 等。考虑到 RoCEv2 实现 RDMA 通信的机制,我们选择了 SR-IOV 技术,通过 SR-IOV 将宿主机的物理 RoCE 卡(PF)虚拟化为多个 RoCE 网卡(VF),实现了一对多的场景要求。

  l  网络拥塞控制:基于 AI 平台运行训练任务时,任意节点 GPU 都可以与其他节点 GPU 进行通讯,这必然会出现网络流量 “多打一”的场景。为了保证 RDMA 网络高带宽、低延时,必须解决拥塞问题实现无损传输。AIStation 提供交换机测、宿主机侧、容器侧的流控管理配置,从而避免网络拥塞导致训练性能下降。

  l  网络互通性管理:目前大部分 AI 训练任务都是基于 NCCL 提供训练加速,但基于 NCCL 架构的方案,只会关注本机的 GPU 与本地 RDMA 网卡信息,并不会考虑是否与远端的 RDMA 网卡能正常通信。RoCEv2 是基于 UDP 协议实现 RDMA 通信,此时需要发送端和接收端的 RoCE 网卡都能够正常通信,否则不同节点 GPU 无法基于 RoCEv2 实现 RDMA 通信。AIStation 基于自研的网络互通性管理功能,保证了集群中任意 GPU 间互通性。

  性能测试表明,在浪潮 AIStation 平台容器内基于不同网卡进行通讯时,在不同的数据包大小下,性能和时延都没有损失。针对银行业务特点,AIStation 测试了大规模图像类别训练任务,采用 ResNet50 并使用 ILSVRC 2012 数据集测试加速比,结果显示大规模分布式训练的加速比达 94% 以上,性能优异。同时物理主机 RDMA 网卡能够透传到容器并能够基于 RoCEv2 完成 RDMA 通信,在有多个 RoCE 网卡时,能够根据 GPU 与高性能网卡的拓扑关系、NCCL 亲和性等选择最优的 RoCE 网卡进行跨节点通信。

  l  强大的平台对接能力,实现用户业务无缝对接

  银行业务具有多样化和精细化的特点,在进行 AI 业务时一般需要多个系统支撑与协同,包括数据采集系统、数据处理系统、AI 开发训练系统、模型管理系统、推理服务系统、运营管理系统等。虽然内部通用平台能够把各个系统整合起来,但 AI 开发训练系统中的 AI 资源管理、AI 单机和分布式训练任务全生命周期管理、异构算力管理等方面能力是欠缺的,很难达到 AI 业务需求。

  针对银行内部复杂的系统、业务流程,AIStation 平台提供了通用的 AI 业务调用接口能力,以达到简化流程和整合能力的目的。同时兼容异构资源任务,让银行无需关心底层资源部署和连接情况,把精力放在业务处理上。AIStation 平台提供了涵盖任务、数据全生命周期管理、集群资源监控和报表的全能力域 API 接口,帮助管理者掌握集群运行情况。同时平台 API 管理实现了全程加密传输以保证数据安全。通过丰富、完备且安全的 API 接口,AIStation 能够快速与银行已有系统集成,让银行快速拥有专家级 AI 算力基础设施管理能力。

  总结

  浪潮 AIStation 在某大型国有银行的实践中取得了显著的示范效果。通过以上关键技术实现了 GPU 间通信性能大幅提升,减少节点间网络通信开销,提升整体处理性能,有效降低总能耗。同时可以减少机柜占用,提高集群算力密度,实现基础资源降本增效。助力构建高性能、高可靠、可扩展的软硬件系统架构,实现 AI 训练场景下算力资源的统一管理与智能化调度。

  浪潮 AIStation 为银行前沿的大规模人工智能模型开发训练和场景应用打下了坚实的技术基础。未来,浪潮信息将继续通过全栈智算能力赋能金融 AI 业务创新,推进金融数字化转型和数字经济高质量发展。