在人工智能领域,随着大型模型参数量与训练数据集的激增,传统GPU算力已无法满足需求,行业焦点转向了系统架构革新。底层网络技术成为关键突破点,多家企业正加速研发,推动AI网络竞争态势日益激烈。
在近期举办的“2024开放计算中国峰会”上,英伟达网络高级总监宋庆春分享了AI网络四项核心技术:端到端RDMA流量动态路由、AI云业务性能隔离、网络计算与网络数字孪生。
为了提升生成式AI或AI负载的云环境网络效能,英伟达推出全新网络平台——NVIDIA Spectrum-X。此平台并非单一产品,而是由Spectrum-4以太网交换机、BlueField-3 DPU、LinkX线缆及模块和配套软件组成的全方位解决方案,旨在增强云端生成式AI的扩展能力。
Spectrum-X的核心创新在于动态路由机制。在现代数据中心,通用算力占据主导地位,但随着生成式AI云的兴起,发展需求转向更强算力与更高灵活性。英伟达的AI以太网络通过端到端RDMA流量动态路由,显著提升了数据传输效率,实现端网协同,有效减轻网络拥堵。
性能隔离技术也是关键。AI云环境中,多租户并发运行多种应用和任务,性能隔离技术基于先进拥塞控制机制,确保任务间互不干扰,防止AI应用的Incast通信引发的网络拥堵影响其他应用性能。该技术已在InfiniBand平台上实现,并被英伟达引入Spectrum-X,实现以太网云内的业务性能隔离。
网络计算采取分布式协同计算模式,通过在多个网络节点间分配计算任务,实现数据分散存储,增强数据安全与可靠性,同时采用高速数据传输技术,高效处理大规模数据。网络计算有效解决了生成式AI云面临的资源利用率、长尾问题与多任务挑战。
网络数字孪生技术是对物理网络的虚拟复刻,基于数据、模型与接口进行分析、诊断、仿真与控制,实现与物理网络的实时互动映射。借助数字孪生网络平台,网络运营商能预演解决方案,降低实施风险,结合大数据处理与建模技术,实现现状评估、历史诊断与未来预测,支持网络预测性运维。对于规模庞大的AI云,构建数字孪生虚拟数据中心能预先配置、调试、优化与测试,有效降低成本。