摩尔线程夸娥智算中心扩展至万卡规模,具备万 P 级浮点运算能力
朱景尧
2024-07-04 00:00:00
图灵汇官网
摩尔线程发布AI旗舰产品夸娥智算集群解决方案,从千卡规模升级至万卡级
概览
摩尔线程公司宣布其AI旗舰产品——夸娥(KUAE)智算集群解决方案实现了从千卡级别到万卡规模的显著扩展。这一突破标志着该平台迈出了关键一步,旨在构建一个国产通用加速计算平台,其性能强大到足以支撑万亿参数级别的复杂大模型训练需求。
核心特性
- 万卡万P级性能:夸娥智算集群提供单集群规模超过万卡的计算能力,浮点运算速度达到惊人的10Exa-Flops,同时配备PB级别的超大显存容量、超高速卡间互联带宽以及节点互联总带宽,确保了高效的数据处理和传输。
- 稳定训练:夸娥万卡集群拥有卓越的可靠性,平均无故障运行时间超过15天,最长可实现大模型训练长达30天以上,且周均训练有效率高达99%,显著超越行业平均水平。
- 高效训练:通过在系统软件、框架、算法等层面的一系列优化,夸娥万卡集群实现了大模型训练的高效率,最高MFU(衡量大模型训练效率的通用指标)可达60%。
- 生态兼容性:该解决方案支持各种大模型架构与模态,包括LLM、MoE、多模态、Mamba等。基于MUSA编程语言和全面兼容CUDA能力的Musify自动化迁移工具,使得新模型的迁移更加便捷高效。
应用案例
摩尔线程已规划并启动了三个万卡集群项目,包括青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目及广西东盟万卡集群项目,旨在推动不同领域的技术创新与应用发展。
结语
摩尔线程的夸娥智算集群解决方案的升级,不仅提升了AI计算的效能,也为大模型训练提供了强大的硬件支持,预示着在AI领域的新篇章即将开启。