8月11日至16日,第62届国际计算语言学年会在泰国曼谷成功举办。此次会议汇集了全球计算语言学与自然语言处理领域的专家学者,共同探讨前沿研究与技术进展。云天励飞大模型团队的论文《Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding》被大会录用为Findings长文,展示了团队在大模型应用方面的阶段性研究成果。
ACL年会作为计算语言学与自然语言处理领域的顶尖学术会议,由国际计算语言学协会主办,每年在CCF推荐会议列表中被评为A类会议。云天励飞团队的入选论文,提出了一种名为SPACE的创新推理引擎,旨在加速大型语言模型的推理过程,同时保证推理质量和效率。
SPACE引擎全称为Smart Parallel Auto-Correct Decoding,其核心在于结合半自回归推理与自动修正解码技术,实现大模型推理速度的显著提升。相较于传统自回归方案,SPACE引擎在提升推理速度的同时,保证了推理结果的准确度,尤其适用于各种类型的大模型。
面对大模型推理中的速度与精度难题,SPACE引擎通过“半自回归监督微调”与“自动修正解码”两大关键技术,实现了大模型在一次推理过程中生成多个结果,并同步完成验证。这一方案不仅适用于任何大模型,还有效解决了自回归方案与非自回归方案各自的局限性。
SPACE引擎采用“半自回归监督微调”技术,使大模型在推理时能够自我提出候选答案,通过自动修正解码算法快速验证这些答案的准确性。此机制不仅提高了推理效率,还保证了结果的高质量。相较于依赖于小模型的“投机解码”方案,SPACE引擎无需额外训练辅助模型,且能够充分利用GPU等硬件资源,实现高效的并行计算。
在包括60亿至700亿参数量在内的多种主流大语言模型上,SPACE引擎展现出卓越的加速效果。与结合其他加速技术(如continue batching、flash attention、KV cache、quantization等)时,其性能进一步提升。实验结果证明,SPACE引擎在加速大模型推理的同时,维持了良好的准确率。
随着大模型技术的快速发展,其应用范围正逐步拓展至各行各业。云天励飞不仅在硬件层面推出了边缘推理芯片DeepEdge10和IPU-X6000加速卡,支持语言、视觉、多模态等多种大模型的高效运行,还在算法层面创新推出了SPACE引擎,加速大模型的推理过程。通过自主研发的大模型云天天书,云天励飞已在智慧政务、城市治理、智慧安防、智慧交通、智慧商业、智慧教育等多个领域实现落地应用,积极探索行业标杆的打造。
云天励飞致力于在大模型相关技术的研发与应用推广方面取得更多突破,以期为计算语言学与自然语言处理领域带来更多创新成果,促进技术的普及与应用,助力大模型技术更好地服务于社会各个层面。