浪潮信息赵帅:开放计算创新 应对Scaling Law挑战

图灵汇官网

在2024年的开放计算中国峰会上,浪潮信息的服务器负责人赵帅聚焦于智能时代背景下,开源模式与开放计算如何驱动人工智能领域的创新。他强调,面对AI基础设施的迅速扩张需求,数据中心应采取开放创新策略,加速算力系统、管理与基础设施的全方位升级,以促进AI产业革新。

开源与开放策略在AI创新中扮演着关键角色。随着生成式AI的迅猛发展,数据中心的全面创新变得至关重要。全球范围内的开放协作加速了AI技术的创新与普及,共同构建了一个充满活力的智能世界。开源大模型能力不断增强,生态体系不断壮大,引领了从模型开发、应用到产业化的整体推进。当前,基础模型普遍选择开源路径,超过八成的AI项目依赖开源框架,开源模型下载量突破三亿次,催生了三千多个新模型。

硬件开放对构建AI算力生态同样不可或缺。面对AI算力需求的激增,全球众多企业投身于新型AI芯片研发。开放加速模组(OAM)的引入,提供了一个统一平台,简化了算力芯片的适配与兼容,大幅降低了成本,加速了算力部署与迭代。目前,逾九成的高端AI芯片遵循OAM规范设计,浪潮信息推出的开放加速计算平台NF5698G7与主流AI加速芯片实现了兼容。

AI时代,算力呈现多样化发展趋势,以满足AIGC、云计算、大数据等复杂计算需求。除了GPU,CPU、FPGA、ASIC等芯片均向多样化与专用化方向演进。AI算力已渗透至各行各业,融入每个计算设备之中。通用服务器CPU不仅要处理大数据与关键计算任务,还需承担AI应用重任,为通用服务器带来前所未有的机遇。

然而,应用范式的变化促使CPU处理器展现出多样化发展,包括x86、ARM、RISC-V在内的不同架构与协议标准的不统一,以及AI推理所需的高并行计算特性,对CPU总线互联带宽、内存带宽及容量提出更高要求,对硬件开发、固件适配、部件测试构成挑战。

为加速芯片向算力系统的转变,提供更快、更优的算力支撑,构建智算时代的统一底座成为迫切需求。2024开放计算中国峰会上,开放算力模组(OCM)规范正式发布,首批成员涵盖多家知名机构与企业。该规范旨在建立基于处理器的标准化算力模组单元,实现服务器主板平台的深度解耦与模块化设计,兼容不同架构的多代处理器芯片,以适应多样化的应用场景,推动算力产业快速发展。

OCM规范标志着国内首个服务器计算模组设计规范的诞生,产业界合作伙伴将基于此规范,共同打造标准化的算力模组单元,构建开放合作、融合创新的产业生态,为用户带来更多通用性强、绿色高效、安全可靠的算力选项。

在智算时代,算力、算法与数据成为驱动AI发展的三大支柱。自Transformer架构兴起以来,大模型的性能与参数量、计算能力、数据量之间的协同效应显著,构成了大语言模型的第一性原理——Scaling Law。为应对这一原理,智算中心需采取开放理念,加速算力系统的全方位扩展,以满足大模型的算力需求。

智算中心在算力方面需兼顾单机系统性能提升与大规模AI组网需求。开放加速模组与开放网络支持高规格加速卡与大OAM domain互联。在管理层面,需解决跨平台适配与模块化架构的挑战,通过开源固件平台实现管理扩展。在基础设施层面,数据中心面临智能算力扩展挑战,需借助开放标准与生态实现基础设施的扩展,满足快速建设与高算力/高能耗支撑需求。

开放计算为数据中心的全方位扩展搭建了快速传播至整个产业链的桥梁。开放加速模组、开放网络、开放固件解决方案及开放标准与生态共同促进了算力、管理与基础设施的扩展。开放计算在智算时代至关重要,作为构建全向扩展能力的核心驱动力,将加速智算时代的创新与人工智能的发展。

本文来源: 图灵汇 文章作者: 慧慧聊区块