发展AI网络面临的四个关键技术

11:00

在人工智能领域，随着大型模型参数量与训练数据集的激增，传统GPU算力已无法满足需求，行业焦点转向了系统架构革新。底层网络技术成为关键突破点，多家企业正加速研发，推动AI网络竞争态势日益激烈。

在近期举办的“2024开放计算中国峰会”上，英伟达网络高级总监宋庆春分享了AI网络四项核心技术：端到端RDMA流量动态路由、AI云业务性能隔离、网络计算与网络数字孪生。

为了提升生成式AI或AI负载的云环境网络效能，英伟达推出全新网络平台——NVIDIA Spectrum-X。此平台并非单一产品，而是由Spectrum-4以太网交换机、BlueField-3 DPU、LinkX线缆及模块和配套软件组成的全方位解决方案，旨在增强云端生成式AI的扩展能力。

Spectrum-X的核心创新在于动态路由机制。在现代数据中心，通用算力占据主导地位，但随着生成式AI云的兴起，发展需求转向更强算力与更高灵活性。英伟达的AI以太网络通过端到端RDMA流量动态路由，显著提升了数据传输效率，实现端网协同，有效减轻网络拥堵。

性能隔离技术也是关键。AI云环境中，多租户并发运行多种应用和任务，性能隔离技术基于先进拥塞控制机制，确保任务间互不干扰，防止AI应用的Incast通信引发的网络拥堵影响其他应用性能。该技术已在InfiniBand平台上实现，并被英伟达引入Spectrum-X，实现以太网云内的业务性能隔离。

网络计算采取分布式协同计算模式，通过在多个网络节点间分配计算任务，实现数据分散存储，增强数据安全与可靠性，同时采用高速数据传输技术，高效处理大规模数据。网络计算有效解决了生成式AI云面临的资源利用率、长尾问题与多任务挑战。

网络数字孪生技术是对物理网络的虚拟复刻，基于数据、模型与接口进行分析、诊断、仿真与控制，实现与物理网络的实时互动映射。借助数字孪生网络平台，网络运营商能预演解决方案，降低实施风险，结合大数据处理与建模技术，实现现状评估、历史诊断与未来预测，支持网络预测性运维。对于规模庞大的AI云，构建数字孪生虚拟数据中心能预先配置、调试、优化与测试，有效降低成本。

利空

利好

首页 - 快讯 - 快讯详情

登录

微信扫一扫：分享