华为云发布EMS弹性内存存储服务打破大模型训练瓶颈

曾兆隆

2024-06-21 00:00:00

在华为开发者大会（HDC 2024）上，华为云CTO张宇昕公开发布了EMS弹性内存存储服务，旨在解决大模型训练与推理领域内的“内存墙”难题——即单个神经处理单元（NPU）的高带宽内存（HBM）容量局限，这一障碍长期以来阻碍了人工智能算力的有效利用。

华为云EMS的独特之处在于它在NPU卡与持久化存储之间增设了一层弹性内存存储，结合其专利技术Memory Pooling以及显存扩展、算力卸载和以存代算三大策略，成功突破了内存瓶颈。具体实施如下：

显存扩展：在大模型推理过程中，因模型规模庞大，通常需要多块NPU卡来装载模型参数进行推理，但NPU的算力利用率并不高。通过EMS，模型参数被分层存储于显存与EMS中，仅需一半的NPU卡就能存放万亿参数级的大模型，实现NPU部署数量减少50%的目标。
算力卸载：大模型推理包含模型计算与KV相关计算两部分，其中，KV相关计算占用了大量显存资源。EMS将这部分计算步骤卸载至EMS，而模型计算则继续在NPU中执行，此举使AI推理性能提升达100%。
以存代算：在大模型推理中，为了节约显存空间，历史对话的KV缓存往往不会被保存，导致后续推理需要重复计算，引发首Token时延超过1秒的问题。通过将历史KV缓存存储在EMS中，供后续推理直接调用，优化后的推理首Token时延降至0.2秒以内，显著提高了效率，优化幅度达到80%。

目前，华为云已上线EMS弹性内存存储服务，向开发者及客户提供应用。