全调度以太网（GSE），中国智算网络新标准

投稿
APP
微信扫一扫获取更多

全调度以太网（GSE），中国智算网络新标准

萝卜看点

2024-08-13 00:00:00

智能计算技术的迅猛发展推动了人工智能（AI）领域持续进步。研究表明，在模型规模达到特定阈值后，AI的潜力方能充分展现。当前，AI模型的参数量呈指数级增长，全球已诞生数个参数高达万亿级别的模型，而十万亿级别的巨擘也即将登场。以GPT-4为例，其参数规模较前代GPT-3提升十倍，达到惊人的1.8万亿参数量。中国自主研发的大型AI模型如盘古和悟道，参数规模亦跨过万亿门槛。

AI训练过程中，大规模计算集群扮演着不可或缺的角色。特斯拉首席执行官埃隆·马斯克宣布，其社交平台X的AI团队已启动第三代大语言模型Grok-3的训练工作。这一集群采用液冷H100 GPU，共计10万块，堪称全球顶级的人工智能训练平台。

高效AI训练的实现，高性能网络连接至关重要。传统以太网的“Push”流量模式易引发网络拥堵，影响GPU效能；相比之下，RoCE网络在带宽和延迟方面表现优异，但面临流量HASH极化问题。业界亟需一种具备“零丢包”、“高吞吐”、“低时延”的无损智算网络设备。

全球商用智算网络技术主要分为IB（InfiniBand）网络和RoCE（RDMA over Converged Ethernet）网络两大阵营。为优化智算网络性能，新兴技术如UEC（Ultra Ethernet Consortium）网络和GSE（Global Scheduling Ethernet）网络应运而生。

GSE网络，作为中国自主创新技术的代表，专为大规模AI训练集群定制。依托PKTC容器技术，GSE实现了精良的网络负载均衡，通过DQSQ信令申请调度，网络性能提升至95%以上。其纯网侧解决方案兼容国产GPU集成网卡，简化端侧网卡配置，有效解决不同AI模型训练过程中的网络参数调整难题，加速训练优化周期。

GSE技术体系兼容标准以太网，通过引入标准协议头，实现多厂家设备间的无缝互联，构建开放生态系统。此举不仅推动了国内AI产业链的繁荣发展，也为智算产业创新注入活力。

锐捷网络携手GSE生态合作伙伴，旨在构建中国AIGC智算网络新标准。GSE网络在转发架构上的创新，突破了传统以太网性能瓶颈，扩展了智算网络应用边界，满足国产化智算集群需求，为用户带来提升智算效率、优化运维体验及促进生态解耦的三大核心价值。