智能计算技术的迅猛发展推动了人工智能(AI)领域持续进步。研究表明,在模型规模达到特定阈值后,AI的潜力方能充分展现。当前,AI模型的参数量呈指数级增长,全球已诞生数个参数高达万亿级别的模型,而十万亿级别的巨擘也即将登场。以GPT-4为例,其参数规模较前代GPT-3提升十倍,达到惊人的1.8万亿参数量。中国自主研发的大型AI模型如盘古和悟道,参数规模亦跨过万亿门槛。
AI训练过程中,大规模计算集群扮演着不可或缺的角色。特斯拉首席执行官埃隆·马斯克宣布,其社交平台X的AI团队已启动第三代大语言模型Grok-3的训练工作。这一集群采用液冷H100 GPU,共计10万块,堪称全球顶级的人工智能训练平台。
高效AI训练的实现,高性能网络连接至关重要。传统以太网的“Push”流量模式易引发网络拥堵,影响GPU效能;相比之下,RoCE网络在带宽和延迟方面表现优异,但面临流量HASH极化问题。业界亟需一种具备“零丢包”、“高吞吐”、“低时延”的无损智算网络设备。
全球商用智算网络技术主要分为IB(InfiniBand)网络和RoCE(RDMA over Converged Ethernet)网络两大阵营。为优化智算网络性能,新兴技术如UEC(Ultra Ethernet Consortium)网络和GSE(Global Scheduling Ethernet)网络应运而生。
GSE网络,作为中国自主创新技术的代表,专为大规模AI训练集群定制。依托PKTC容器技术,GSE实现了精良的网络负载均衡,通过DQSQ信令申请调度,网络性能提升至95%以上。其纯网侧解决方案兼容国产GPU集成网卡,简化端侧网卡配置,有效解决不同AI模型训练过程中的网络参数调整难题,加速训练优化周期。
GSE技术体系兼容标准以太网,通过引入标准协议头,实现多厂家设备间的无缝互联,构建开放生态系统。此举不仅推动了国内AI产业链的繁荣发展,也为智算产业创新注入活力。
锐捷网络携手GSE生态合作伙伴,旨在构建中国AIGC智算网络新标准。GSE网络在转发架构上的创新,突破了传统以太网性能瓶颈,扩展了智算网络应用边界,满足国产化智算集群需求,为用户带来提升智算效率、优化运维体验及促进生态解耦的三大核心价值。