在智算时代的大潮中,生成式AI的蓬勃发展激增了对算力的需求,尤其是随着AI模型参数量的激增,大规模AI计算已步入“万卡”时代。这一阶段,计算能力的不足与高昂的训练成本成为了亟待解决的关键问题。其中,传统网络架构的低效性是导致多节点间通信效率低下的主要原因。在基础模型的训练过程中,网络通信往往占据总训练时间的20%至40%,在梯度与参数同步阶段尤其浪费宝贵的算力资源。
为提升大规模AI计算的通信效率,新一代的网络解决方案应运而生。浪潮信息推出了面向生成式AI的X400超级AI以太网交换机,这款产品是国内首个支持NVIDIA Spectrum-X平台技术的产品,融合了X400与BlueField-3 SuperNICs,形成了端网协同的X400超级AI以太网方案。这一创新方案将万卡GPU训练性能提升了1.6倍,实现了与专用网络架构媲美的网络性能,确保用户能够构建出最理想的网络基础设施,显著加速AI模型的迭代与业务创新。
X400超级AI以太网专为AI大模型打造,针对生成式AI的特性,优化了网络通信效率,大幅提升了GPU资源的利用率,将训练时长中的网络通信占比降至最低。通过创新的端网协同技术,该方案在性能、可扩展性、稳定性和用户体验方面,完美解决了AI大模型训练网络建设中面临的挑战,实现了AI业务的最佳效率。同时,该方案采用开放架构,遵循S3IP-UNP规范设计,实现软硬件分层解耦,构建网络开放生态,加速了客户的业务创新进程。
X400超级AI以太网方案采用了X400与智能网卡的协同调度,通过自适应路由、报文保序、可编程CC等技术,构建了一个零丢包、无阻塞的全链路交换网络,实现了机间互联性能400Gbps,有效带宽从传统60%提升至95%,性能较传统RoCE方案提升1.6倍。这种优化不仅极大提高了网络带宽利用率,还降低了长尾时延,显著增强了网络的稳定性和可靠性。
浪潮信息通过其独特的Auto ECN拥塞控制技术,实现了对网络流量的精准调控,优化了FCT(往返时间),整体缩短了30%,最大化了GPU的利用率。同时,X400超级AI以太网方案与NCCL通信库无缝衔接,提供了最高性能的支持,无需对NCCL通信库进行修改和优化,简化了AI大模型训练过程中的网络配置复杂性。
面对超大规模算力需求的挑战,X400超级AI以太网方案在端口密度和弹性拓展能力上表现出色,支持高达数十万卡级别的GPU系统,二层组网下可连接1024台GPU服务器,支持8K张GPU卡;三层组网下,可扩展至64000台GPU服务器,最大支持512K张GPU卡,适应各种规模的组网需求,为业务创新提供了强大的助力。
在稳定性方面,X400超级AI以太网方案集成了系统级高可用技术,通过智能防护单元、网络监控模块以及多种高精度遥测技术,实现了从底层链路到系统级的全面监控。在硬件层面上,它能够对关键部件进行冗余备份,对关键硬件信号进行监控和故障隔离,同时,通过路径重选机制,自动隔离潜在的故障链路,实现毫秒级的故障自愈,确保了AI网络的极致稳定。
为了应对日益增长的网络管理与配置需求,X400超级AI以太网方案延续了以太方案的兼容性和性价比优势,提供了简洁高效的部署流程,实现一键式自动化部署,模型特征自适应网络配置,将部署周期从数周缩短至数天,加速业务上线。同时,通过智能运维平台,直观识别潜在风险与故障,确保业务连续性,显著提升了整体运营效率。
综上所述,浪潮信息的X400超级AI以太网解决方案,通过其卓越的性能、稳定性与灵活性,为智算中心客户带来了速度、效率与经济性的全面提升,实现了AI模型训练与业务创新的高效、稳定与低成本运行,为智算中心客户打造了更快、更好、更省的网络业务体验。