随着大模型的高速发展,智算需求的增长速度远超芯片性能提升速度,计算集群方案和“DC as a Computer”概念应运而生,数据中心网络变得尤为重要。在大模型训练和推理时,集群对网络系统的稳定性要求极高。针对大模型业务特点,结合主流集...
详细信息
随着大模型的高速发展,智算需求的增长速度远超芯片性能提升速度,计算集群方案和“DC as a Computer”概念应运而生,数据中心网络变得尤为重要。在大模型训练和推理时,集群对网络系统的稳定性要求极高。针对大模型业务特点,结合主流集群网络技术,研究了训练场景下的超大规模组网、超高吞吐和超稳定的新一代智算中心网络技术,以及推理场景下通过SDN+SRv6可编程算网一体智能调度和切片技术构建高品质的入算网络,并研究了DC间协同训练的技术难点和应对方案。
暂无评论