人工智能的战场,正从 " 云端算力垄断 " 转向 " 终端智能觉醒 ",这是一场更多人能参与、更多变数存在的普遍竞争。
过去数月,大模型行业的认知快速刷新,在 DeepSeek 之前,终端设备受制于功耗、散热和存储空间,只能运行轻量化模型,而且效果和体验并不好。当 DeepSeek 通过 " 小参数大智能 " 的技术路径,将百亿级模型压缩进终端芯片时,整个行业开始意识到,端侧 AI 的底层逻辑已发生质变。
从资本市场上相关概念股业绩表现和走势也可窥见一斑。端侧 AI 概念龙头移远通信、美格智能业绩表现亮眼,广和通市场关注度同步提升。其中,移远通信预计 2025 年一季度归母净利润 2 亿元,同比增长 265.19%,主要受益于物联网需求复苏及车载、AIoT 场景的拓展,边缘计算模组及大模型技术加速落地。美格智能预计一季度净利润范围取中值为 4600 万元,同比增长 611%,高算力 AI 模组在智能汽车、无人机等领域出货量激增,海外业务占比提升至 32%。广和通虽未明确披露一季度净利润,但其股价区间涨幅达 25.11%,显示市场对其 5G 模组及车载业务前景的乐观预期。
从云端算力来看,头部大模型厂商的门槛是万卡集群,甚至十万卡集群也在规划,大模型开始趋于集中,但这部分头部厂商的预训练需求不会缩减,反而会增加。与此同时,更多 AI 公司正在投入后训练、推理算力的布局,产业逐渐达成共识,未来 AI 算力特别是推理算力会出现千倍的增长,网络带宽会出现百倍增长,存储需求也会出现千倍增长。
2025 年或是端侧 AI 的爆发元年,算力行业加速竞逐推理算力。
DeepSeek 效应,大模型重心转向推理
" 端侧 AI 目前处在一个最好的时代 ",爱簿智能 CEO 孙玉昆表示,我们认为大模型的开源给端侧和边缘 AI 的发展带来了巨大的发展机遇。从端侧芯片的发展来看,不管是算力还是内存带宽都有创新和提升,从模型能力来看,适合端侧运行的模型能力突飞猛进,端侧智能会越来越好,从 AI 普及水平来看,越来越多的人正在使用端侧和边缘部署大模型的推理,个性化需求越来越多,这些需求在端侧也更容易得到满足。
DeepSeek 的模型迭代(如 V1 到 V3)仍遵循 Scaling Law,通过增加参数规模(如从千亿到万亿级)和训练数据量提升性能。这一路径在早期 AI 发展中普遍存在,例如 GPT 系列模型的参数爆炸式增长。但随着模型规模接近物理极限(如算力、数据获取瓶颈),单纯依赖参数扩张的边际收益递减,技术重心逐渐转向推理优化和多模态应用,典型代表就是 DeepSeek-R1 通过模型蒸馏降低推理成本。
DeepSeek 推出的 NSA(NativeSparseAttention)机制,通过优化稀疏注意力机制与硬件适配能力,显著提升了长上下文任务的训练和推理速度。在保持与完全注意力模型相当性能的前提下,NSA 降低了预训练成本,并在指令推理任务中表现更优。这一技术进展为复杂任务的端侧部署提供了可能性。
阿里云智能集团资深副总裁、公共云事业部总裁刘伟光表示,阿里云开发新模型最重要的两个方向,一个在 Reasoning 推理,一个在全模态融合。在推理方面,大模型未来一定会向越来越强的推理能力演化,强化学习不断提升思维链的能力,伴随着模型内生的任务规划、工具使用能力不断增强,大模型会越来越智慧,可以不断思考更难更高问题,完成更复杂任务,这是一个重要方向,
" 特别需要强调一下强化学习,2025 年我们发现一个新的重要趋势,很多客户都在利用更为强大的基础大模型做基于强化学习的后训练,同时强化学习后训练反过来为推理提供重要能力补充,我相信未来会有更多客户基于强化学习做后训练,基于更强大的基模会开发出更新的、更有价值的 AI 原生应用以及 AI Agent。" 他说。
中科曙光方面对钛媒体 App 表示,DeepSeek 正在引发算力产业链式反应,不仅大大激发了模型后训练、推理环节算力需求,加快改变 AI 算力结构,同时也有助于打破市场对高算力 GPU 的路径依赖,为国产 GPU 加速卡带来重大机遇。
无论是面向云端智算中心,还是面向端侧的大模型一体机,针对 GPU 加速卡进行软硬件协同设计优化,实现芯片 - 算法 - 模型深度耦合,已成为 AI 基础设施的重要创新方向。
" 今年已经是 AI 大模型商业应用元年了。" 京华信息科技股份有限公司副总裁李思伟认为," 去年我们很纠结,行业存在一个‘不可能三角’。我们想用大模型更好的智能,就需要付出比较大的成本做部署和训练,但是央国企等客户优先考虑的是安全问题,想要安全就必须私有化部署,私有化部署成本又受不了,部署小参数的模型又有一点鸡肋。前两年我们为客户所做的 AI 项目都会遇到这样的问题,很多项目因此拖延到现在。"
为什么 DeepSeek 在 B 端或者 G 端落地受政府和企业的欢迎,就是因为解决了 " 不可能三角 " 的问题,但 DeepSeek 的应用还是有很多门槛,比如安全问题,国产化技术路线等,这不是通过简单部署可以一次性解决的问题,目前很多一体机遍地开花,但一体机一般只能服务于一个应用或者一个业务。
端侧 AI,越接近上层应用问题越多
基础设施的稳定和高效,是端侧 AI 生态赖以生长的基础。大模型仍处于产业发展的早期阶段,技术的演进呈现出上下影响、交替迭代的趋势,AI 应用爆发对模型性能和模型之下的基础设施,以及 AI 应用开发工具,都提出了非常高的要求,这三大均处于高速演进过程当中,
以中科曙光为例,2025 年 2 月,中科曙光推出 DeepAI 深算智能引擎方案,集成了 GPU 开发工具套件、AI 基础软件栈和大模型应用开发平台,目的是为了让国产 AI 算力更适用、更好用,赋能从十亿级模型端侧推理到千亿级模型云端训练全场景需求。
通过全面兼容 CUDA、Rcom 双栈生态,DeepAI 深算智能引擎支持 2000+ 算子,对标 CUDA 的算子覆盖度已超 99%,并可通过手动算子优化、编译优化和汇编指令级优化,国产 GPU 单卡训推性能提升可达 1 倍以上。
刘伟光表示,全世界的大语言模型几乎以每两周为一个时间单位演进,基础模型仍然是整个 AI 应用生态最核心的引擎,通过提供深度的推理能力、多模态理解和交互能力,支持多样化、高质量服务,基于不同类型尺寸模型满足复杂、轻型以及更多探索型需求。
" 很多客户在探索 AI 应用过程中发现,支撑大语言模型的基础设施能力,特别是推理服务能力,是保障 AI 应用服务顺畅、平滑、稳定、高效运行的重要基础设施,云计算也在慢慢为 AI 所改变,让所有 AI 训练、推理、应用能够在云基础设施上进行更稳定平滑高效运行。"
他还表示,当模型能力足够强大,AI 应用呼之欲出的时候,更多客户需要更完整、更完备的工具链基于模型进行 AI 应用开发,AI 开发工具是连接大语言模型和真实应用的重要桥梁,客户需要功能齐全、生态丰富、灵活部署的工具,加速应用开发。
中科曙光 DeepAI 深算智能引擎也内置了 DAP 企业级全栈 AI 应用开发平台,提供多模型开放纳管、高性能推理服务、知识融合增强、智能体可视化编排、智能数据分析等功能,企业客户在国产 AI 算力底座可一站式跑通 DeepSeek、阿里 QwQ 等大模型应用。
孙玉昆认为,面向 AI 的开发者面临着两大核心挑战:一是算力不足,成本高。好的模型可能需要万卡或者更大规模的集群,现在海外算力基本上不行,国内算力生态还在共同培养。二是开发工具链支持不足,开发环境配置复杂。端侧和云端的环境不统一,难以满足大模型、智能体等应用快速迭代的需求。
他补充表示,部署开发环境流程烦琐,很多初学者就倒在了做人工智能开发的第一关,大模型都是基于 Linux 开源又稳定的系统服务器训练出来的,很多人工智能的开发框架基于 Linux 开发,在实际开发中,开发者首先是要完成跨平台开发,通常需要在其他操作系统上通过虚拟化方式运行 Linux,这个过程就会面临很多问题,比如安装配置复杂,兼容性问题,工具链和依赖库的版本差异,这些工具不好导致的问题,不仅增加了开发的复杂性,开发者也消耗了很多无谓的精力。
此外,即使开发者辛万苦地把环境配置好了,但性能和原生 Linux 相比也有差异,不仅是 CPU 计算性能,GPU 的模型训练也有一些损失,用 Windows 电脑做小模型训练的性能不达标,用原生 Linux 系统则能实现更高的性能水平,所以做人工智能开发必须掌握 Linux。
爱簿智能也推出了自己的 AIBOOK 算力本,该产品以 50TOPS 端侧算力为核心,有意将 AI 算力本和市场已有的 AI PC 区分开。
在孙玉昆看来,不同于 AIPC,AI 算力本是基于原生 Linux 开发环境的端侧 AI 开发工具,与市面主流 AIPC 的主要差异包括基于 Linux 内核的 AI 原生操作系统,预装了各种实用 AI 应用,还预置了编程开发环境和工具,做到 AI 的 " 开箱即用 ",同时具备 " 端云一体 " 的 AI 算力,端侧是指 AIBOOK 本地计算,云侧是摩尔线程夸娥云计算,端云一体组合覆盖从大模型部署到应用、微调及训练的 AI 开发全场景。
云还是端,没有绝对的好与坏
算力在云还是在端,取决于客户的业务需求,相较于以往端侧推理的限制,目前大量高质量小模型的涌现,让推理工作负载再次受到关注,云端算力和终端算力生态将长期持续演进,两者并不矛盾,更多是扮演大模型产业的不同角色,不少厂商也在布局端云一体。
杰文斯悖论告诉我们,技术效率提升反而会刺激需求扩张。例如,DeepSeek 通过 FP8 混合精度训练、动态稀疏算法等技术将单次训练成本降低 53%(至 557.6 万美元),但头部企业因此增加并行实验次数(从年均 3 次跃升至 28 次),反而推高全球算力芯片采购量。类似现象在能源领域也曾出现(如蒸汽机效率提升后煤炭消耗激增)。在 AI 领域,推理成本降低将加速应用场景泛化(如金融、医疗、智能制造),最终导致算力总需求增长。
黄仁勋在英伟达 GTC2025 上表示:ChatGPT 是靠预测下一个 tokens、大概率出现幻觉的生成式 AI,而现在已经走进了 Deep Research、Manus 这样的 agentic AI 应用,上一个 token 是下一个 token 生成时输入的上下文、是感知、规划、行动的一步步推理,由于每一层计算都不同,所需要的 tokens 会百倍增长。推理模型需要更多的计算,因为模型更复杂。R1 的尺寸是 6800 亿个参数,它的下一代版本可能有数万亿个参数。Agentic AI 应用是无数次调用类似 DeepSeek-R1 做推理的过程,需要的计算只会更多。
高通发布的白皮书也提到,AI 推理功能在终端侧的广泛普及赋能打造了丰富的生成式 AI 应用和助手。文档摘要、AI 图像生成和编辑以及实时语言翻译现在已成为常见功能。影像方面的应用可以利用 AI 进行计算摄影、物体识别和实时场景优化。
这之后迎来了多模态应用的发展,这类应用结合多种数据类型(文本、视觉、音频和传感器输入),以提供更丰富、更具情境感知能力且更加个性化的体验。高通 AI 引擎结合了定制 NPU、CPU 和 GPU 的能力,能够在终端侧优化此类任务,使 AI 助手能够在不同沟通模式间切换,并生成多模态输出。
智能体 AI(Agentic AI)是下一代用户交互的核心。AI 系统能够通过预测用户需求,并在终端和应用内主动执行复杂工作流,进行决策和管理任务。一些实时 AI 处理任务的智能体,可在终端侧安全运行,同时依靠个人知识图谱准确定义用户偏好和需求,无需依赖云端。
爱簿智能看好 AI 端侧的发展。但认为不会颠覆云计算主导的 AI 开发范式,孙玉昆提到,端云协同是未来的主流趋势,AI 计算正经历从纯云端向 " 云 - 边 - 端 " 协同的范式转移,5G、边缘计算等技术使分布式计算延迟降低到可接受范围,端侧 AI 芯片算力已达 50TOPS 及以上,可承担更复杂任务,而模型压缩技术(如蒸馏、量化)使 7B 这类小参数模型在端侧达到接近云端 13B 模型的能力水平。
" 通过轻量化模型突破端侧算力瓶颈,结合端云一体架构实现能力的弹性扩展,正在定义 AI 算力的新范式。在这一架构下,用户将获得 AI 的‘无缝体验’,日常场景由端侧快速响应,复杂任务延伸至云端,二者协同工作升级智能体验。" 他说
刘伟光则表示,AI 应用构建方式非常多样化,既可以在公共云上进行开发部署,阿里云也支持本地化服务,为了更好服务本地服务,特别满足部分政企客户监管性要求,阿里云推出了百炼专署版,支持一云多芯异构计算等客户需求,
他表示,从算力资源到组件调用,直接影响 AI 实际应用的效果,阿里云内部提出了全栈 AI,不仅是大模型,也不仅是云下技术架构层,包含底层的异构算力、模型服务平台、百炼平台,以及上面所有面向客户服务,技术架构层面计算资源需求日益增长,GPU 需求增长速度远远高于传统 CPU 增长,遍布全球 AI 计算集群会成为未来新的刚需,这些集群支持大规模的训练任务,并且同时满足实时的推理应用的需求。
来源:钛媒体