对话阿里云吴结生:AI时代,云上高性能计算的创新发展

图灵汇官网

导读:

  • 阿里云智能集团副总裁吴结生预测,到2027年,云端HPC市场规模将超过140亿美元,比本地服务器市场增长两倍多。
  • 云计算模式下的高性能计算具有弹性、异构计算兼容性、快速部署和平台化数据处理生态等优势。
  • 为此,阿里云推出了E-HPC平台,同时支持AI作业和传统HPC作业,满足多样化负载需求。
  • 阿里云灵骏集群采用HPN 7.0网络架构,提升大规模模型训练中的计算效率和稳定性。

改写内容

阿里云智能集团副总裁吴结生预测,到2027年,云端HPC市场规模将超过140亿美元,比本地服务器市场增长两倍多。

随着云计算的发展,高性能计算(HPC)逐渐从实验室走向实际应用。阿里云智能集团副总裁吴结生预测,到2027年,云端HPC市场规模将超过140亿美元,远超本地服务器市场。

云计算模式下的高性能计算具有弹性、异构计算兼容性、快速部署和平台化数据处理生态等优势。

云计算模式下的高性能计算具有四大显著优势:首先是弹性能力,通过云的方式可以灵活地分配和调用大规模资源,从而为企业提供更高的算力;其次是异构计算的兼容性,可以通过云平台整合不同类型的算力资源;第三是快速部署能力;最后是平台化的数据处理生态,这使得企业能够更加高效地管理和处理数据。

为此,阿里云推出了E-HPC平台,同时支持AI作业和传统HPC作业,满足多样化负载需求。

为了满足企业对高性能计算日益增长的需求,阿里云推出了E-HPC平台。该平台不仅支持传统的HPC作业,还能处理AI作业,满足不同场景下的多样化负载需求。

除此之外,阿里云灵骏集群采用HPN 7.0网络架构,提升大规模模型训练中的计算效率和稳定性。

阿里云灵骏集群采用了HPN 7.0网络架构,大幅提升了大规模模型训练中的计算效率和稳定性。这种架构优化了计算资源的使用,提高了模型训练的整体效率。

未来,云计算厂商需不断创新,提供多元化产品组合,帮助企业在不同负载场景中落地应用,实现智能化创新。

云计算厂商需要不断创新,提供多样化的产品组合,以满足企业在不同应用场景中的需求。通过这些创新,企业能够在业务扩展的同时,充分利用云计算带来的优势,实现智能化创新。

Hyperion Research预计,云端HPC市场的增长速度将是本地服务器市场的两倍多,到2027年,云端HPC市场规模预计将超过140亿美元。

据Hyperion Research预测,云端HPC市场的增长速度将是本地服务器市场的两倍多,到2027年,云端HPC市场规模预计将超过140亿美元。

原先HPC(高性能计算)“高高在上”,几乎只应用在高精尖科研领域,但随着以AI为代表的新一代数字技术的应用,HPC也在更多行业有了“大展拳脚”的机会,在企业侧的应用场景也越来越多。

过去,高性能计算主要应用于科研领域,但现在随着AI等新一代数字技术的应用,HPC正在更多行业中发挥作用,特别是在企业应用场景中越来越广泛。

从HPC到Cloud HPC

在吴结生看来,高性能计算的应用已经扩展到了多个行业,并且其负载正呈现出多样化发展的趋势。他指出,许多行业,如自动驾驶、生命科学、工业制造和半导体芯片等领域都在应用高性能计算。

传统模式下,HPC因其独特的定位、复杂的架构以及极高的运维难度,造成了成本高昂,且适配业务发展特性较差,这让很多企业“望而却步”。

传统模式下的HPC由于其独特的定位、复杂的架构以及高昂的运维成本,导致其难以适应企业的业务发展需求,使得很多企业望而却步。

而当企业对于高性能计算的需求不断增加时,如何让更多企业“用得起”和“用得好”高性能计算成为行业面临的难题。

随着企业对高性能计算的需求不断增加,如何让更多企业能够负担得起并有效利用高性能计算成为行业面临的重大挑战。

这时候,云计算就承担起了让HPC被更多企业,更便捷应用的重任。

云计算的出现解决了这一难题,通过云平台,企业可以更便捷地使用高性能计算,大大降低了使用成本和复杂性。

谈及Cloud HPC的优势时,吴结生告诉钛媒体APP,以云计算的模式应用高性能计算,具备了四个显著的优势:

吴结生指出,云计算模式下的高性能计算具有以下四个显著优势: - 弹性能力:通过云的方式,可以灵活地分配和调用大规模资源,从而为企业提供更高的算力。 - 异构计算兼容性:可以整合不同类型的算力资源,增强计算能力的兼容性。 - 快速部署能力:用户可以迅速部署所需的计算资源。 - 平台化的数据处理生态:提供了更高效的管理和处理数据的工具。

以汽车研发为例,汽车研发的过程中需要用到仿真计算,仿真计算在预处理的过程中会产生数据,计算的过程中也会产生大量数据,如何将处于不同位置的数据“挪动”,整合到一起,就成为了传统HPC时代的难题。

例如,在汽车研发过程中,仿真计算需要处理大量的数据。如何有效地整合这些分散的数据,成为传统HPC面临的一大难题。

Cloud HPC的出现很好地解决了这个问题。

Cloud HPC通过弹性高性能计算集群和并行文件存储系统,消除了数据移动的需求,提高了整个系统的效率,从而加快了产品研发进程。

云上的高性能计算,具备借助整个云平台,将包括计算、存储、网络和一些安全方面的能力叠加起来的优势。

云上的高性能计算通过整合云平台的各项功能,包括计算、存储、网络和安全等方面,实现了更高的整体效率。

从目前应用趋势上来看,用户对于算力的需求是多样化的。这种情况下,显然单一的计算架构已经不能满足所有用户的需求。

目前,用户对算力的需求呈现多样化趋势。单一的计算架构已无法满足所有用户的需求,需要多样化的解决方案。

“算力目前遇见的核心问题就是:计算架构的单一性与算力需求多样性之间的矛盾。”

中国工程院院士邬江兴曾表示,算力需求是多样性的,面对不同的场景、计算环境、任务类型和性能需求,需要不同的算力架构。单一的计算架构已经无法满足多样化的算力需求。

这样的算力困境同样发生在高性能计算领域。

高性能计算领域同样面临着算力需求多样化的问题。吴结生认为,企业需要通过多样化的产品、系统架构和技术方案,来满足不同负载对计算能力、存储性能和网络带宽等方面的差异化需求。

从需求侧出发,根据不同的业务场景,以及场景下算力的耦合度和数据的密集度可以大致划分为松耦合、紧耦合。

根据不同的业务场景和算力的耦合度及数据的密集度,可以将应用场景大致划分为松耦合和紧耦合两大类。在松耦合场景下,用户对延迟要求不高,但对性价比有较高要求。在紧耦合场景下,则需要高性能的网络连接能力。

在松耦合场景下,用户对于延迟的要求不是很高,对算力的类型也没有要求(比如对CPU代系没有强要求)。但是,该场景下,用户对性价比的要求更高,他们需要以更低的成本,更高的弹性,实现算力的全局调度。

在松耦合场景中,用户对延迟要求不高,但对性价比有较高要求。阿里云通过创新性的CIPU架构,提供E-HPCInstant服务,满足用户对弹性的需求。

吴结生以制药行业为例分享了具体松耦合场景中的架构经验。

吴结生以制药行业为例,分享了具体的松耦合场景架构经验。制药行业需要高吞吐量的弹性计算资源,阿里云提供的智能调度系统能够确保任意时刻提供10万核以上的资源保障,优化大并发下的计算和存储性能,显著提高药物研发效率。

在紧耦合场景下,大多业务场景都存在计算任务多、规模大、计算时间紧张等特点,这种场景更为适合Cloud HPC。

在紧耦合场景下,业务场景通常具有计算任务多、规模大、计算时间紧张等特点。在这种场景下,Cloud HPC更具优势,能够利用云资源的大规模和并行计算能力,满足企业对高性能计算的需求。

针对此,阿里云推出了高性能计算平台E-HPC平台,可以同时提交AI作业和传统HPC的作业。

阿里云推出的E-HPC平台可以同时提交AI作业和传统HPC作业,满足多样化负载需求。在资源管理层面,E-HPC平台同时管理HPC的Slurm集群和AI的ACK(K8s)集群,作业管理则根据作业类型将AI作业和HPC作业分别投递到相应的集群上运行。

以汽车行业为例,目前的研发周期需要效率非常高,本地HPC集群硬件资源老化,严重影响业务进度,并且业务流程割裂:线下前后处理与线上求解计算的流程割裂,数据挪动频繁。

以汽车行业为例,研发周期需要极高的效率,但本地HPC集群的硬件资源老化,严重影响业务进度。此外,业务流程割裂,线下前后处理与线上求解计算的流程割裂,频繁的数据挪动增加了复杂性。

如果建一个1000台机器这样的一个超算集群,传统方式肯定是几个月。那么今天在云上10万核的需求我们可以在不超过一天之内建好。

如果在本地建设一个拥有1000台机器的超算集群,传统方式至少需要几个月的时间。但在云上,同样的需求可以在一天内完成部署。

并且客户可以利用云的资源规模去做弹性的资源分配。在云上可以获取丰富的以及最新代际的算力形态,满足各种不同工作任务的负载需求。

客户可以利用云的资源规模进行弹性分配,并且在云上可以获取最新的算力形态,满足各种不同工作任务的负载需求。

在吴结生看来,E-HPC高性能计算服务落地过程中最大的挑战是任务的计算实例之间需要紧耦合的通信。

吴结生认为,E-HPC高性能计算服务落地过程中最大的挑战在于任务的计算实例之间需要紧耦合的通信。阿里云通过CIPU作为底层物理资源的连接器,统一管理底层物理资源,提高计算效率,进而加速IO效率,通过eRMDA网络大幅提升紧耦合的HPC工作负载性能。

除此之外,吴结生告诉钛媒体APP,E-HPC还通过多层次的网络拓补感知与弹性扩容的能力,快速弹出网络拓扑上靠近的ECS计算集群,适应紧耦合HPC作业极致性能要求。

吴结生指出,E-HPC还通过多层次的网络拓扑感知与弹性扩容能力,快速弹出网络拓扑上靠近的ECS计算集群,以适应紧耦合HPC作业的极致性能要求。

AI时代,云上HPC如何更好用?

吴结生认为,AI的快速发展将彻底改变所有行业的格局。大模型的训练场景是传统HPC在云上的一种重新复兴。大模型的训练需要稳定的高性能算力,并且需要弹性拓展的推理算力,以及数据处理的速度和弹性能力,以提高资源利用率并降低成本。

当前大模型的预训练需要集群化,构建万卡甚至更大的集群,且整个集群需要是一个庞大的“整体”,若其中一台机器出问题,都会造成训练中断。

大模型的预训练需要集群化,构建包含数万张GPU卡的庞大集群。一旦其中一台机器出现问题,就会导致整个训练过程中断。

为了实现上述所描述的“相同步伐”,阿里云灵骏集群采用HPN 7.0的网络架构,通过一系列的创新来支持更大的规模、更优的效率和更高的稳定性。

为了实现高效的“相同步伐”,阿里云灵骏集群采用了HPN 7.0的网络架构,通过一系列创新,支持更大规模、更优效率和更高稳定性。

这样的“相同步伐”也对存储能力提出更高的要求。

大规模的模型训练过程中,频繁的中断成为一个常见问题。为了满足客户的需求,阿里云提供了高性能的并行文件系统CPFS,确保训练和推理的超高性能和成本优化。

无论是松耦合、紧耦合,还是极致紧耦合,面对多元化算力需求,CIPU是阿里云基础设施的基石,是差异化竞争力的主要来源之一。

无论是松耦合、紧耦合还是极致紧耦合场景,面对多元化算力需求,CIPU是阿里云基础设施的重要组成部分,也是其差异化竞争力的关键来源之一。通过CIPU架构,阿里云能够实现零虚拟化开销,提高CPU和GPU资源的利用率,并通过硬件加速提升IO和存储性能。

当下,每一家公司都是一个数据公司,很快每一家公司都会是一家数据+AI的公司。

吴结生认为,每家公司都已经成为了数据公司,未来还将成为数据+AI的公司。云计算和高性能计算将在这一转型过程中发挥关键作用。

云计算提供的规模化、高性能、可扩展的算力与存力,会帮助企业在进行业务规模的扩展的同时,应对好数据规模的扩展,充分使用好AI模型以及基于模型的各类应用。

云计算提供的规模化、高性能、可扩展的算力和存储能力,将帮助企业应对业务规模扩展的同时,更好地管理和利用数据,充分发挥AI模型及其应用的优势。

本文来源: 互联网 文章作者: 佚名
    下一篇