为解决智算中心超大规模算力集群算力可用率低、国产技术成熟度低、大规模组网效率存在瓶颈、运营运维复杂等问题,提出了一种基于云计算技术构建智算中心万卡集群的系统。采用18432块神经网络处理单元(neural processing unit,NPU)卡和优化后的基于以太网的远程直接内存访问(remote direct memory access,RDMA)网络构建云化的智算中心万卡集群,结合软件定义网络(software defined network,SDN)技术实现RDMA网络租户隔离,实现了链路负载均衡误差小于10%,集群All-Reduce带宽达35 GB/s以上。采用优化后的分布式存储协议,实现模型断点恢复时长缩短为原来的1/2。验证结果表明,经过软硬件协同优化,国产化的NPU万卡集群不仅能够满足千亿参数大模型训练的需求,未来更可以支撑万亿参数大模型训练任务。
暂无评论