数驱未来:宏杉科技智算中心AI存储解决方案

图灵汇官网

AI:革新科技与产业的引擎

人工智能,作为驱动下一轮科技革命与产业变革的关键技术,正在成为塑造高质量生产力增长的主导力量。预期在未来两年,AI大模型将全面渗透50%以上的行业应用场景,引领广泛的智能化转型。数据,作为AI产业链的基石,其规模与品质直接决定了AI智慧计算的广度与深度。

AI大模型全生命周期涵盖四大关键环节:

  1. 数据收集:数据来源多样,兼容NFS、SMB、S3等存储协议,构建超大规模、灵活适应的“数据仓库”。

  2. 数据预处理:面对数据的复杂性和无序性,需构建能够灵活应对混合IO负载与多变读写模式的存储架构。

  3. 模型训练:高效加载数据至GPU进行运算,对存储性能有严苛要求,包括高IOPS、高带宽、低延迟,确保训练过程的流畅与高效。

  4. 推理应用:快速加载大量模型文件,每个文件大小从数十GB到上百GB不等。在同时启动数十个推理任务的情况下,总数据量可达几十至上百TB,对读取效率提出挑战。

核心环节:模型训练,对存储系统性能提出极高要求。为确保训练任务按时完成,实现数据快速加载、GPU无阻塞操作、Checkpoints(AI大模型训练过程中的状态快照)快速保存与恢复,存储系统通常需要提供数百GB/s的带宽与千万级的IOPS处理能力。

以自然语言处理(NLP)在大型预训练模型GPT3中的Checkpoints保存为例,175B参数规模对应着约3TB的Checkpoints文件,要求在30秒内完成保存,意味着写入带宽需达到100GB/s。因此,构建高性能、高度可扩展的数据存储基础至关重要。

宏杉科技,深耕数据存储领域多年,凭借其MC27000-MOFS高性能分布式并行存储系统与MacroDisk智能盘柜,为AI大模型的研究与应用提供了坚实的支持。

MC27000-MOFS,提供高效运行引擎,通过构建基于传统HDD硬盘的海量数据资源池,支持NFS/CIFS/HDFS协议的互访与多节点并发读写,加速数据导入与处理。其单集群单文件系统容量可达1000PB,文件数量高达千亿级,满足AI智慧计算的海量数据处理需求。

模型训练推理阶段,MOFS系统提供全NVMe介质的高性能资源池,通过部署增强型客户端,融合客户端切片、MPI-IO、RDMA网络、小文件聚合等先进技术,单节点混合读写性能可达30GB/s以上,实现数据的高效处理与流畅传输。

MacroDisk智能盘柜,为稳定存储提供坚实底座。在Lustre/GPFS等并行文件系统的基础上,通过集成NVMe over ROCE+INOF、NVMe over FC高速数据传输方式,单套设备提供200万IOPS与80GB/s的带宽。采用双控制器Active-Active架构,确保数据高效读写与访问。集成磁盘监控、慢盘检测、磁盘诊断等功能,实现磁盘健康状态的实时监控与精准维护。CRAID3.0技术的应用,采用22+3或23+2的比例配置数据硬盘与校验硬盘,保障数据安全,同时实现高达92%的空间利用率。

随着国家政策的持续推动与技术趋势的加速发展,AI智慧计算正步入高效、智能、安全的新时代。作为一站式数据存储解决方案提供商,宏杉科技紧跟行业步伐,以技术创新赋能AI产业的“新蓝海”,助力AI领域的前沿探索与广泛应用。

本文来源: 图灵汇 文章作者: 杨春莉