在2024年的华为开发者大会上,华为云CTO张宇昕揭示了其下一代云基础设施——CloudMatrix。这款创新技术方案旨在攻克当前云计算系统在大型模型训练与应用中面临的“算力瓶颈”、“内存限制”及“能效障碍”等问题。
张宇昕阐述,CloudMatrix颠覆了传统数据中心的构建与算力分配模式,由以CPU为主导的层级结构转变为多源算力均衡互联的体系。通过高速互联网络协议,包括CPU、NPU、GPU在内的所有算力资源实现全面连接与整合,将单一计算能力升级为矩阵级算力,引领智能计算时代的崭新篇章。
华为云作为业界独树一帜的厂商,率先采用了对等架构超节点技术,展现出卓越的性能与稳定性。据透露,与行业标准相比,华为云的超节点在计算能力方面实现了50倍的增长,大模型检查点的恢复时间缩短至10分钟内,万卡集群的线性度超过95%,远超市场平均水平。
值得注意的是,基于盘古大模型5.0的实际测试结果,CloudMatrix在相同算力环境下,模型训练效率比传统服务器集群架构提升了68%。这有力证明了CloudMatrix在云原生基础设施领域的技术领先地位。