MLCommons 是一个致力于推动全球 AI 系统发展的顶级工程联盟,汇集了谷歌、斯坦福大学等众多顶尖企业和研究机构。作为创始成员之一,浪潮信息自2020年起积极参与其中,共同探索AI技术的无限可能。最近,在MLCommons的子项目MLPerf Storage v1.0性能基准评测中,浪潮信息再次展示了其在AI存储领域的卓越实力。
MLPerf Storage v1.0评测旨在全面评估AI系统在终端、边缘和云端等场景下的训练、推理、存储及安全性。此次评测分为封闭赛道和公开赛道两大类。浪潮信息选择了封闭赛道,这意味着需要严格遵守既定配置和代码规范,以确保所有提交结果的公平性和可比性。公开赛道则提供了更多的灵活性,以便展示新的方法或功能。
MLPerf Storage v1.0工具是一个开源工具,可以从GitHub下载。浪潮信息在此次测试中发现并提出了CosmoFlow模型提交规则中的问题,这些问题最终促使社区对规则进行了修改。这一行动不仅体现了浪潮信息的积极参与,还展示了其作为国内参与社区工具构建的先驱厂商的实力。
MLPerf Storage v1.0评估采用了三种具有代表性的测试模型:3D-UNet模型(用于图像分割领域)、CosmoFlow模型(用于高性能计算领域)和ResNet50模型(用于图像分类领域)。这些模型的选择确保了评估结果的客观性和准确性。
MLPerf Storage的提交规则旨在确保测试结果的统一性和可比性。主要规则包括:
MLPerf Storage的核心要求包括加速器利用率(AU)需达到90%或70%以上,以及“最大加速卡数”。这意味着在固定AU阈值下,存储系统需要支撑的单节点最大加速卡数及多节点下每个客户端的最大加速卡数。时延的降低意味着在相同时间内能够供给的数据量增多,从而支持更多的加速卡。
在客户端与存储侧网络连接带宽一定的情况下,单次IO时延的降低将直接导致每秒钟能够提供的文件数量增多,进而提升客户端实际表现的带宽。浪潮信息的网络利用率数据表明,在AU达到90%以上时,其网络利用率达到了72%,相比之下,其他供应商的解决方案整体网络利用率仅维持在50%左右。这表明浪潮信息的解决方案在成本效益方面具有显著优势。
浪潮信息在AI存储领域的成功,主要归功于其产品场景化定制能力和成熟的AI场景解决方案能力。这些优势使其能够在保持高加速器利用率的同时,最大化网络利用率,有效减少资源浪费,更好地支持AI应用场景。
MLPerf Storage评测标准的核心在于检验各厂商解决方案在保持高加速器利用率的前提下,能否在性能与资源利用之间找到最佳平衡点。浪潮信息凭借其卓越的产品性能和成熟的解决方案,展示了其在AI存储领域的强大竞争力,为客户提供了一流的数据存储支持。