百度智能云重磅宣布:将点亮昆仑芯三代三万卡集群

图灵汇官网

近日,百度智能云成功启动了昆仑芯三代万卡集群,这标志着国内首个自主研发的万卡集群正式投入使用。预计未来还将有更大规模的3万卡集群上线。这一进展不仅增强了百度自身的技术实力,也为中国的科技界、互联网行业以及AI产业带来了新的机遇。

万卡集群的优势显著,不仅为百度提供了强大的计算能力,还推动了成本优化。在行业内,降低大型模型的使用成本一直是一个重要目标,而算力不足是造成成本高的主要原因之一。通过自主研发的芯片和大规模集群的建设,百度不仅解决了自身的算力问题,还为行业提供了新的解决方案。

从算力的角度来看,超大规模并行计算能力使得训练效率大幅提升,万卡集群大大缩短了训练周期,满足了AI应用快速迭代的需求。同时,它还能支持更大规模的模型和复杂的任务,包括多模态数据,促进了诸如Sora类应用的发展。此外,万卡集群具备多任务并发处理能力,通过动态资源分配,可以在一个集群内同时训练多个轻量级模型,通过优化通信和容错机制,进一步降低了训练成本。

随着国产大模型的兴起,万卡集群正逐步从单一任务的算力消耗转向最大化集群效能。通过模型优化、提高有效训练率和动态资源配置,智能调度任务,将训练、微调和推理任务混合部署,从而提升了集群的整体利用率,降低了单位算力的成本。

百度的百舸AI异构计算平台4.0(以下简称“百舸平台”)在万卡集群的建设过程中起到了关键作用。该平台突破了硬件扩展性的瓶颈,如卡间互联的拓扑限制,避免了通信带宽成为瓶颈。同时,通过创新的散热方案解决了万卡集群的能效和散热问题。在分布式训练优化方面,采用了高效的并行化任务切分策略,使集群的MFU(内存利用率)提升到了58%。

在稳定性和可靠性方面,百舸平台提供了容错和稳定性机制,避免了因单卡故障率增加而导致的万卡集群有效性大幅下降,确保了有效训练率达到98%。针对机间通信带宽需求,建设了超大规模的高性能网络,优化了拓扑结构,降低了通信瓶颈,带宽有效性达到了90%以上。

在多芯混合训练方面,百舸平台展示了强大的资源整合能力,能够统一管理不同地点、不同规模的异构算力,构建起多芯资源池。当业务提交工作负载时,平台会自动进行芯片选型,选择性价比最高的芯片来运行任务,从而最大化地利用集群的剩余资源,实现高达95%的万卡多芯混合训练效能。

此外,百舸平台还提供了全面的故障诊断手段,能够快速自动侦测到导致训练任务异常的节点故障。百度自研的BCCL(百度集合通信库)能够快速定位故障并提供自动化容错能力,将故障恢复时间从小时级降低到分钟级,极大提高了集群的可靠性和可用性。

最近,花旗银行发布了一份研究报告,指出DeepSeek、百度等中国模型展现了高效且低成本的优势,将加速全球AI应用的开发,并推动2025年人工智能应用的拐点到来。中国工程院院士、清华大学计算机系教授郑纬民也表示,构建国产自主万卡系统虽然充满挑战,但“至关重要”。

本文来源: 图灵汇 文章作者: 陈绍冰