随着智能计算技术的发展,研究揭示了人工智能(AI)在经过大量训练后展现出的强大能力。这一发现促使AI模型的参数规模持续扩大,当前已有多款万亿级参数的AI模型在全球范围内涌现,而十万亿级参数的巨兽也即将登场。比如,GPT-4的参数量较GPT-3翻了十倍,达到了惊人的1.8万亿参数。国内方面,盘古和悟道等大型模型同样搭载了过万亿的参数。
在AI训练的领域里,构建高效的大规模计算集群是关键所在,集群内部需要强大的网络连接以确保各个节点之间的通信效率和整体性能。然而,现有网络技术在处理大规模AI计算时遇到了一系列挑战,包括网络拥堵和数据同步过程中资源的无效消耗。面对这些问题,行业正寻求创新,旨在打造能够实现“零丢包”、“高吞吐”与“低时延”的无损智算网络设备。
市场上的智算网络技术主要分为两大阵营:以英伟达为首的IB(InfiniBand)网络占据主导地位,尽管其技术成熟,但相对封闭;而RoCE(RDMA over Converged Ethernet)网络则在传统计算领域应用广泛,但在智算网络中面临着流量HASH极化等挑战。
为解决上述问题,业界探索了一系列新兴技术。例如,UEC(Ultra Ethernet Consortium)网络由Linux基金会联合全球科技企业共同创立,旨在改良以太网技术以适应AI计算需求。与此同时,中国移动携手产业界推出的GSE(Global Scheduling Ethernet)网络,则标志着中国自主智算网络技术的诞生。
GSE网络专为大规模AI训练集群而设,其特点包括:
锐捷网络正积极融入GSE生态系统,共同制定中国的AIGC智算网络新标准。GSE网络设备在转发架构上进行了创新,突破了传统以太网性能瓶颈,扩展了应用场景,满足了国产化智算集群网络需求,为客户带来了提升智算效率、优化运维体验和构建开放生态的三大价值。