华为云发布EMS弹性内存存储服务 打破大模型训练瓶颈

图灵汇官网

在华为开发者大会(HDC 2024)上,华为云CTO张宇昕公开发布了EMS弹性内存存储服务,旨在解决大模型训练与推理领域内的“内存墙”难题——即单个神经处理单元(NPU)的高带宽内存(HBM)容量局限,这一障碍长期以来阻碍了人工智能算力的有效利用。

华为云EMS的独特之处在于它在NPU卡与持久化存储之间增设了一层弹性内存存储,结合其专利技术Memory Pooling以及显存扩展、算力卸载和以存代算三大策略,成功突破了内存瓶颈。具体实施如下:

  • 显存扩展:在大模型推理过程中,因模型规模庞大,通常需要多块NPU卡来装载模型参数进行推理,但NPU的算力利用率并不高。通过EMS,模型参数被分层存储于显存与EMS中,仅需一半的NPU卡就能存放万亿参数级的大模型,实现NPU部署数量减少50%的目标。

  • 算力卸载:大模型推理包含模型计算与KV相关计算两部分,其中,KV相关计算占用了大量显存资源。EMS将这部分计算步骤卸载至EMS,而模型计算则继续在NPU中执行,此举使AI推理性能提升达100%。

  • 以存代算:在大模型推理中,为了节约显存空间,历史对话的KV缓存往往不会被保存,导致后续推理需要重复计算,引发首Token时延超过1秒的问题。通过将历史KV缓存存储在EMS中,供后续推理直接调用,优化后的推理首Token时延降至0.2秒以内,显著提高了效率,优化幅度达到80%。

目前,华为云已上线EMS弹性内存存储服务,向开发者及客户提供应用。

本文来源: 图灵汇 文章作者: 曾兆隆