AI大模型的能力比拼或许不再拘泥于“堆算力”

图灵汇官网

在当今的大模型时代,如果你询问一位AI从业者哪家公司的大模型更为出色,他可能会提到“看这家公司在训练上投入了多少算力”。更简洁的说法可能是“看看他们有多少块英伟达的算力芯片”。

这种说法并不完全错误,因为无论是开源还是闭源的大模型,其核心技术都源自谷歌研究团队于2017年发布的《Attention is All You Need》论文中的“Transformer模型”。例如,特斯拉的自动驾驶系统FSD和OpenAI的ChatGPT都是基于这个模型进行产品化开发的。可以说,目前市面上所有正在运行的AI大模型都是“Transformer模型”的变种。

正如电影《邪不压胜》中的经典台词所说:“都是同一个师傅教的,破不了招啊。”如今的AI大模型市场也面临着类似的挑战。既然难以在“内核”上实现多样化,那么只能通过大量且快速的数据训练来提升“经验值”,从而实现升级。

据报道,仅在2023年,OpenAI在训练GPT-4时就使用了25000块型号为A100的英伟达GPU。此外,OpenAI还拥有至少40万块英伟达的GB200芯片和H100芯片。甲骨文CEO拉里·埃里森也曾提到,在一次与特斯拉CEO马斯克的饭局上,他向英伟达老板黄仁勋“乞求”提供足够的算力芯片。

如果行业发展继续依赖“堆算力”的方式,整个行业将很难发生变革。然而,打破现状的创新终会出现。例如,中国初创企业DeepSeek开发的大语言模型(LLM)DeepSeek-V3在近期引发了国际上的广泛关注。该模型在技术性能、开源模式和成本效益方面获得了高度评价。

根据测评机构Artificial Analysis的独立分析,DeepSeek-V3在文本理解、编码、数学和学科知识等方面的表现超越了Meta的Llama 3.1-405B和阿里巴巴的Qwen 2.5-72B等开源模型,并在性能上与世界顶尖的闭源模型OpenAI的GPT-4和Anthropic的Claude 3.5 Sonnet不相上下。DeepSeek-V3在中文处理、编码和数学计算方面的优势,使其在教育和科研领域具有巨大潜力。

可以说,DeepSeek-V3的能力已经超过了诸多开源对手,例如Meta公司的Llama-3.1模型和阿里巴巴的Qwen2.5模型。尽管顶级闭源模型通常在能力上优于开源模型,但DeepSeek在代码生成和数学运算等方面展现出了非凡的实力。

此外,DeepSeek-V3的开发和训练成本也显著低于其他大模型。OpenAI创始成员之一安德烈·卡帕蒂强调了这种高效的模式:通常需要1.6万到10万个GPU的集群来训练一个高性能模型,而DeepSeek仅用了2048个GPU在57天内就完成了训练,总成本约为557.6万美元,仅为其他主流模型(如GPT-4)的十分之一。

具体而言,DeepSeek-V3模型只用了2048块英伟达H800显卡,两个月的时间就训练出了一个拥有6710亿参数的超大规模模型,训练成本约为550万美元。相比之下,如果由其他硅谷公司完成同等能力的模型,通常会选择最高端的英伟达显卡,而不是相对便宜的H800显卡。此外,他们至少需要1.6万块高端显卡才能达到类似水平,远远无法像DeepSeek那样仅用2000块H800显卡完成任务。

从算力角度来看,V3的训练耗费仅为同等规模的硅谷公司模型的十一分之一。而在成本上,Meta的同等能力模型训练花费高达数亿美元,完全无法与DeepSeek的性价比相比。

盘古智库的专家胡延平认为,DeepSeek-V3的成功更多地证明了行业大模型路线的可行性。尽管与通用大模型相比还有差距,但我国产业界对于AI大模型的发展路径本来就倾向于“产业化落地”,因此行业大模型与实际应用的匹配度更高,更适合我国对于AI赋能各行业的需求。

值得一提的是,DeepSeek-V3发布后的一段时间内,英伟达的股价也出现了波动。有华尔街分析师认为,DeepSeek-V3的推出,使得市场对AI大模型“堆算力”的发展模式产生了质疑。

本文来源: 图灵汇 文章作者: 汪红羽