X400超级AI以太网，基于Spectrum-X大幅提升万卡GPU训练性能

投稿
APP
微信扫一扫获取更多

X400超级AI以太网，基于Spectrum-X大幅提升万卡GPU训练性能

刘小丽

2024-07-23 00:00:00

图灵汇官网

智算时代下生成式AI的算力革命与浪潮信息X400超级AI以太网的崛起

在智算时代的大潮中，生成式AI的蓬勃发展激增了对算力的需求，尤其是随着AI模型参数量的激增，大规模AI计算已步入“万卡”时代。这一阶段，计算能力的不足与高昂的训练成本成为了亟待解决的关键问题。其中，传统网络架构的低效性是导致多节点间通信效率低下的主要原因。在基础模型的训练过程中，网络通信往往占据总训练时间的20%至40%，在梯度与参数同步阶段尤其浪费宝贵的算力资源。

为提升大规模AI计算的通信效率，新一代的网络解决方案应运而生。浪潮信息推出了面向生成式AI的X400超级AI以太网交换机，这款产品是国内首个支持NVIDIA Spectrum-X平台技术的产品，融合了X400与BlueField-3 SuperNICs，形成了端网协同的X400超级AI以太网方案。这一创新方案将万卡GPU训练性能提升了1.6倍，实现了与专用网络架构媲美的网络性能，确保用户能够构建出最理想的网络基础设施，显著加速AI模型的迭代与业务创新。

高效网络，为AI大模型定制

X400超级AI以太网专为AI大模型打造，针对生成式AI的特性，优化了网络通信效率，大幅提升了GPU资源的利用率，将训练时长中的网络通信占比降至最低。通过创新的端网协同技术，该方案在性能、可扩展性、稳定性和用户体验方面，完美解决了AI大模型训练网络建设中面临的挑战，实现了AI业务的最佳效率。同时，该方案采用开放架构，遵循S3IP-UNP规范设计，实现软硬件分层解耦，构建网络开放生态，加速了客户的业务创新进程。

高性能网络，重塑AI训练格局

X400超级AI以太网方案采用了X400与智能网卡的协同调度，通过自适应路由、报文保序、可编程CC等技术，构建了一个零丢包、无阻塞的全链路交换网络，实现了机间互联性能400Gbps，有效带宽从传统60%提升至95%，性能较传统RoCE方案提升1.6倍。这种优化不仅极大提高了网络带宽利用率，还降低了长尾时延，显著增强了网络的稳定性和可靠性。

自动化拥塞控制，优化网络性能

浪潮信息通过其独特的Auto ECN拥塞控制技术，实现了对网络流量的精准调控，优化了FCT（往返时间），整体缩短了30%，最大化了GPU的利用率。同时，X400超级AI以太网方案与NCCL通信库无缝衔接，提供了最高性能的支持，无需对NCCL通信库进行修改和优化，简化了AI大模型训练过程中的网络配置复杂性。

超大规模算力，灵活拓展

面对超大规模算力需求的挑战，X400超级AI以太网方案在端口密度和弹性拓展能力上表现出色，支持高达数十万卡级别的GPU系统，二层组网下可连接1024台GPU服务器，支持8K张GPU卡；三层组网下，可扩展至64000台GPU服务器，最大支持512K张GPU卡，适应各种规模的组网需求，为业务创新提供了强大的助力。

极致稳定，确保业务连续性

在稳定性方面，X400超级AI以太网方案集成了系统级高可用技术，通过智能防护单元、网络监控模块以及多种高精度遥测技术，实现了从底层链路到系统级的全面监控。在硬件层面上，它能够对关键部件进行冗余备份，对关键硬件信号进行监控和故障隔离，同时，通过路径重选机制，自动隔离潜在的故障链路，实现毫秒级的故障自愈，确保了AI网络的极致稳定。

一站式自动化部署，提升运营效率

为了应对日益增长的网络管理与配置需求，X400超级AI以太网方案延续了以太方案的兼容性和性价比优势，提供了简洁高效的部署流程，实现一键式自动化部署，模型特征自适应网络配置，将部署周期从数周缩短至数天，加速业务上线。同时，通过智能运维平台，直观识别潜在风险与故障，确保业务连续性，显著提升了整体运营效率。