在7月7日的信息化百人会年度研讨会上,中国工程院院士、清华大学计算机科学与技术系教授郑纬民分享了人工智能领域的重要洞察。他指出,当前AI大模型正从单一模态向多元模态演进,应用场景广泛,导致算力需求激增,且长期处于供不应求状态。
大模型的生命周期涵盖了模型研发、训练、精调以及推理等多个阶段,每个环节都离不开强大的算力支持。郑纬民强调,算力成本高昂,以GPT-4为例,其训练成本高达2亿美元,每月研发成本更是达到了200万美元,其中,用于训练的1万块英伟达A100显卡的费用占据了主要部分。模型推理的每日开销也高达70万美元。
在探讨算力生态时,郑纬民提出了国产AI芯片系统的三个关键点:
英伟达GPU系统:凭借出色的硬件性能和良好的编程生态,但因政策限制未能在中国市场大规模推广,导致供需矛盾。
国产AI芯片系统:近年来,国内多家公司如上海天数智芯、沐曦MetaX等在AI芯片领域取得了显著进展,芯片设计与制造技术不断进步。然而,用户对国产系统的接受度较低,主要是由于国产生态系统的不完善。郑纬民指出,一个“好”的生态系统意味着能够轻松地将原有基于英伟达CUDA架构的AI软件移植至国产系统,且迁移过程高效便捷。
超级计算机系统:尽管全国有14个国家级超算中心,但实际利用率不高。通过软硬件协同设计,利用国产超级计算机进行大模型训练,可以实现成本节约,与英伟达集群相比,成本可节省约82%。
在存储方面,郑纬民着重强调了其在整个大模型生命周期中的重要性,特别是在AI推理过程中,优化存储系统能显著提升性能,减少硬件投入。
为了推动国产AI芯片的发展,郑纬民提出需要在多个层面进行优化,包括但不限于编程框架、并行加速、通信库、算子库、AI编译器、编程语言、调度器、内存分配系统、容错系统、存储系统等。他指出,如果国产AI芯片的性能达到国际水平的60%,再辅以完善的软件生态系统,就能满足市场需求,提供令人满意的用户体验。
随着国内AI芯片创业公司的涌现,如天数智芯、沐曦、摩尔线程、百度昆仑芯等,市场期待在软件生态构建上取得突破,以吸引更多用户。尽管英伟达等国际巨头仍在中国市场占据主导地位,但国产AI芯片正面临机遇,通过优化硬件设计和软件生态,有望在未来提供更具竞争力的产品和服务。
综上所述,人工智能领域的算力挑战与国产芯片生态的建设成为当前研究和发展的重点。通过持续的技术创新和生态优化,国产AI芯片有望在全球竞争中占据一席之地。