昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

图灵汇官网

开源大模型Skywork-MoE:性能与经济性的双优选择

发布日期:2024年6月3日

昆仑万维公司宣布开源Skywork-MoE,一款性能强劲且推理成本更低的2千亿稀疏大模型。Skywork-MoE基于Skywork-13B模型的中间检查点扩展而成,是首个完整应用MoE Upcycling技术的开源千亿级MoE大模型,同时也是首个能够利用单台4090服务器进行推理的开源千亿级MoE大模型。

开源链接

  • 模型权重技术报告全部开放,免费商用,无需申请。

模型架构

  • 属于天工3.0研发系列的中档模型(Skywork-MoE-Medium),参数总量为146B,激活参数量22B,包含16个Expert,每个Expert大小为13B,每次激活时选择其中的2个Expert。
  • 天工3.0还训练了其他两档MoE模型(75B的Skywork-MoE-Small与400B的Skywork-MoE-Large),但未包含在此次开源中。

模型能力

  • Skywork-MoE在相同激活参数量(20B)下的性能行业领先,接近70B的密集模型,显著降低了推理成本,达3倍之多。相比DeepSeekV2,Skywork-MoE的参数规模更小,却达到了相近的能力水平。

技术创新

  • 解决MoE模型训练难题及泛化性能问题,Skywork-MoE采用了两种训练优化算法:
    • Gating Logits归一化操作:在Gating层的token分配逻辑处引入归一化操作,增强对top-2 Expert的置信度。
    • 自适应的Aux Loss:动态调整aux loss的超参数,保持专家间Token分布的平衡与差异化,提升模型性能和泛化能力。

训练基础设施

  • 针对大规模分布式训练MoE模型的挑战,Skywork-MoE提出了关键并行优化设计,实现千卡集群下38%的训练吞吐率。
    • Expert Data Parallel:提出了一种新的并行方案,有效解决大规模分布式训练MoE的并行痛点。
    • 非均匀流水并行:优化Layer划分与重计算方式,提高计算与显存负载的均衡性,增强训练效率。

MoE专有知识

  • 通过Scaling Laws实验,探索影响Upcycling和从零开始训练MoE模型的关键因素,提供实用的训练经验与Know-how。

4090推理

  • Skywork-MoE是当前唯一能在8台4090服务器上进行推理的开源MoE大模型。在FP8量化下,使用首创的非均匀Tensor Parallel并行推理方法,Skywork-MoE能够在合适批量大小内实现2200 tokens/s的吞吐量。

总结

Skywork-MoE的开源发布旨在为社区提供更多MoE训练经验与知识,包括模型结构、超参数选择、训练技巧与推理加速等,共同探索在降低训练与推理成本的同时,构建更大更强模型的可能性,为人工智能领域的进步贡献力量。

本文来源: 图灵汇 文章作者: 吴昊