青云科技与中科加禾达成战略合作,携手国产 AI 算力产业提升

图灵汇官网

青云AI智算平台革新算力管理架构,以本地资源管理视角优化AI基础设施运作,实现动态算力调控,以适应多样化的业务需求,显著提升整体使用效率与管理效能。青云科技新近推出的AI智算平台2.0版本,全面整合云原生技术,贯穿AI基础设施到开发、训练、推理的全链路高效管理。

平台升级,重塑算力管理体验

青云AI智算平台2.0采用统一集群管理模式,高效调度NVIDIA、国产GPU等多元算力资源。无论是在高速IB、RoCE网络构建还是并行文件存储集群管理上,平台提供覆盖物理机至容器的全面管理服务。新版平台支持共享、单卡、多卡、多节点算力调度,用户依据实际业务需求弹性申请,大幅增强算力资源利用效率。

新增多项监控功能,如节点、任务、容器组、高速网络、GPU监控等,青云AI智算平台2.0提供从硬件故障到资源使用情况的全程监控,及时识别并解决潜在问题。同时,平台支持自定义告警配置,通过邮件、企微、webhook等多渠道通知,确保用户实时掌握AI基础设施运行状态。

在算力调度基础上,青云AI智算平台2.0提供自定义镜像仓库,内置TensorFlow、PyTorch、MPI、DeepSpeed等常用计算框架,支持一键创建开发环境、分布式任务,自动挂载并行文件存储等AI业务流程。用户只需上传代码,即可快速启动多机多节点分布式训练,系统自动调度GPU资源执行计算任务,任务完成后自动释放资源。

依托青云公有云与AI算力云的运营经验,青云AI智算平台2.0实现规格定价、在线充值、购买产品的全流程自助服务管理,减少运营团队的技术投入与管理时间,加速算力中心资源销售,提升运营效率。

解决多地多中心运维难题

在某大型国企的跨省多地建设智算中心项目中,青云AI智算平台2.0展现出卓越的资源统一管理、按需调度及高效运维能力。

该项目旨在跨省多地建立智算中心并统一运营。面对复杂挑战,平台凭借先进资源管理技术,整合CPU、GPU、HPC算力、多元存储系统等资源,统一管理异构服务器、存储、网络设备,实现资源无缝对接与智能调度,构建高效协同的算力资源网络。

平台采用标准化、流程化运维管理,显著降低运营成本,提高整体效率。提供资源规范化、可视化的管理,支持多租户模式下的精确资源分配,以及计量计费、客户管理等全套服务运营功能,为项目搭建跨地域统一运维体系。

借助青云AI智算平台2.0,大规模智算基础设施项目不仅聚焦资源调度与运维,更注重应用落地与技术兼容性。平台的分布式调度与管理能力,结合开放的应用框架与模型服务,为算法开发至模型部署的全过程提供有力支持,加速创新想法转化为产品。

当前部分智算中心已竣工,各区域智算中心作为Sub Zone对外提供通用、高性能及智能算力,为最终用户提供丰富资源、按需扩展与智能调度的环境,有效降低算力使用成本,大幅提升创新效率。

通过青云AI智算平台2.0,企业能够轻松应对AI算力建设与运营挑战,实现高效、灵活的AI算力管理,降低成本,增强市场竞争力。

本文来源: 图灵汇 文章作者: 马齐齐