阿里史上最大规模开源发布,报道称其性能超GPT-4o 、Llama-3.1

图灵汇官网

阿里巴巴今日宣布了其史上最庞大的开源发布计划,推出了一系列创新模型,旨在满足个人、企业以及各类设备的多样化需求。此次发布的模型包括基础模型Qwen2.5、专攻编码任务的Qwen2.5-Coder以及专注于数学问题解决的Qwen2.5-Math。

这些模型涵盖了从0.5B到72B不等的多种参数配置,覆盖了广泛的应用场景,从个人学习到企业级应用,再到移动设备和桌面电脑。对于希望简化部署过程的用户,阿里巴巴还提供了旗舰模型Qwen-Plus和Qwen-Turbo的API接口,方便用户快速集成生成式AI功能。

在性能测试中,Qwen2.5-72B模型在多个国际认可的基准测试平台上表现出色,尽管其参数量仅为720亿,但其性能却在多个测试指标上超越了Meta的Llama-3.1(拥有4050亿参数),以及Mistral的Large-V2(指令微调模型)。即便是未经指令微调的基础模型,其性能也超越了Llama-3-405B。

阿里巴巴的旗舰模型Qwen-Plus在性能上与闭源模型GPT4-o和Claude-3.5-Sonnet相匹敌。此外,Qwen2.5系列还引入了140亿和320亿参数的新模型,即Qwen2.5-14B和Qwen2.5-32B。在指令微调模型的性能测试中,Qwen2.5-14B和Qwen2.5-32B在多数基准测试中均优于谷歌的Gemma2-27B和微软的Phi-3.5-MoE-Instruct,仅在少数测试中略逊于GPT-4o mini。

自CodeQwen1.5发布以来,用户已通过该模型完成了各种编程任务,包括代码调试、解答编程问题以及提供代码建议。最新推出的Qwen2.5-Coder-7B模型在多项测试基准中超越了其他知名且参数较大的模型。

不久前,阿里巴巴还发布了数学模型Qwen2-Math,此次发布的Qwen2.5-Math模型在更大规模的数据集上进行了预训练,包括由Qwen2-Math生成的合成数据,并新增了对中文的支持。Qwen2.5-Math-72B在多项性能指标上超越了Qwen2-Math-72B指令微调版本和著名闭源模型GPT4-o。

从测试数据来看,即使是参数较小的模型,在高质量数据和优化架构的支持下,也能在性能上超越高参数模型,这在能耗和环境部署方面具有显著优势。阿里巴巴此次发布的Qwen2.5系列充分展现了小参数模型的强大潜力。

Qwen2.5系列支持多语言环境,包括但不限于中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文等29种主流语言。相较于Qwen2,Qwen2.5系列的预训练数据量大幅增长至18万亿tokens,远超Meta最新开源Llama-3.1的15万亿tokens,成为当前训练数据量最大的开源模型之一。在MMLU基准测试中,Qwen2.5系列模型的性能显著提升,尤其是在知识获取和理解能力上,表现更为出色。

Qwen2.5模型在生成符合人类偏好的响应方面表现出色,与Qwen2-72B-Instruct相比,Qwen2.5-72B-Instruct的Arena-Hard分数提升了33%,MT-Bench分数提高了0.23。在数学能力方面,融合了Qwen2-math技术的Qwen2.5模型在MATH基准测试中的得分大幅提升,从52.9/69.0跃升至75.5/83.1。此外,Qwen2.5在指令跟踪、生成长文本、理解结构化数据以及生成结构化输出等方面均有显著改进,并对系统提示的多样性和聊天机器人角色扮演能力的实施与设置更加灵活。

请注意,本文中的所有测试数据均来源于Qwen项目,若发现侵权行为,请及时联系删除。

本文来源: 互联网 文章作者: 韦琳颖
    下一篇

导读:图灵汇 10 月 3 日消息,OpenAI 在 10 月 1 日举办的 DevDay 活动日中,宣布推出了 Whisper large-v3-turbo 语音转录模型,共有 8.09 亿参数,