MLPerf Storage v1.0深度解析：浪潮信息AI存储性能测试的领先之道

投稿
APP
微信扫一扫获取更多

MLPerf Storage v1.0深度解析：浪潮信息AI存储性能测试的领先之道

陈克芳

2025-01-02 12:25:02

图灵汇官网

导读

MLCommons 是一个致力于推动全球 AI 系统发展的顶级工程联盟，汇集了谷歌、斯坦福大学等众多顶尖企业和研究机构。作为创始成员之一，浪潮信息自2020年起积极参与其中，共同探索AI技术的无限可能。最近，在MLCommons的子项目MLPerf Storage v1.0性能基准评测中，浪潮信息再次展示了其在AI存储领域的卓越实力。

MLPerf Storage v1.0评测概述

MLPerf Storage v1.0评测旨在全面评估AI系统在终端、边缘和云端等场景下的训练、推理、存储及安全性。此次评测分为封闭赛道和公开赛道两大类。浪潮信息选择了封闭赛道，这意味着需要严格遵守既定配置和代码规范，以确保所有提交结果的公平性和可比性。公开赛道则提供了更多的灵活性，以便展示新的方法或功能。

浪潮信息的贡献

MLPerf Storage v1.0工具是一个开源工具，可以从GitHub下载。浪潮信息在此次测试中发现并提出了CosmoFlow模型提交规则中的问题，这些问题最终促使社区对规则进行了修改。这一行动不仅体现了浪潮信息的积极参与，还展示了其作为国内参与社区工具构建的先驱厂商的实力。

代表性测试模型

MLPerf Storage v1.0评估采用了三种具有代表性的测试模型：3D-UNet模型（用于图像分割领域）、CosmoFlow模型（用于高性能计算领域）和ResNet50模型（用于图像分类领域）。这些模型的选择确保了评估结果的客观性和准确性。

核心概念

模拟加速器：通过引入虚拟GPU/TPU等加速器，提供无需实际硬件加速器的测试环境，旨在降低成本、保证公平性，同时提升测试效率。
加速器利用率（AU）：衡量模拟加速器在基准测试过程中的利用效率。
主机节点：运行MLPerf存储基准代码的机器，类似于AI训练集群中的计算服务器。主机节点的性能与配置对存储系统的测试结果具有重要影响。

提交规则

MLPerf Storage的提交规则旨在确保测试结果的统一性和可比性。主要规则包括：

单主机提交规则：所有提交结果必须满足AU在3D-UNet和ResNet50上达到90%，在CosmoFlow上达到70%及以上。同时，禁止使用主机节点缓存。
多主机提交规则：在多主机测试环境中，每个主机节点的模拟加速器数量必须一致，且所有主机的测试运行参数也必须保持一致。

测试结果分析

MLPerf Storage的核心要求包括加速器利用率（AU）需达到90%或70%以上，以及“最大加速卡数”。这意味着在固定AU阈值下，存储系统需要支撑的单节点最大加速卡数及多节点下每个客户端的最大加速卡数。时延的降低意味着在相同时间内能够供给的数据量增多，从而支持更多的加速卡。

网络利用率的重要性

在客户端与存储侧网络连接带宽一定的情况下，单次IO时延的降低将直接导致每秒钟能够提供的文件数量增多，进而提升客户端实际表现的带宽。浪潮信息的网络利用率数据表明，在AU达到90%以上时，其网络利用率达到了72%，相比之下，其他供应商的解决方案整体网络利用率仅维持在50%左右。这表明浪潮信息的解决方案在成本效益方面具有显著优势。