超越先前最佳,阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型

图灵汇官网

导览

8月13日,阿里巴巴旗下的通义千问项目宣布开源了一组名为Qwen2-Audio的音频系列模型,包括Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct两款。这款大型音频语言模型具备接收多种音频信号的能力,并能依据语音指令执行音频分析或直接生成文本反馈,支持两种音频交互模式。

交互模式详解

  • 语音聊天:用户可与模型进行自然流畅的语音交流,无需额外文本输入。
  • 音频分析:用户在互动时能提供音频和文本指令,以实现对音频内容的深入分析。

性能验证

模型的效能已在一系列基准数据集上得到了验证,其表现超越了以往最优模型的标准。

Qwen2-Audio 性能概览

此图展示了Qwen2-Audio的整体性能概览,直观呈现了其在多个评估维度上的卓越表现。

本文来源: 互联网 文章作者: 杨正
    下一篇

导读:根据洛图科技的数据显示,2023年中国消费级监控摄像头市场销量达到5343万台,同比增长10.9%,其中线上市场的销量为2663万台,占到全渠道的49.9%。小米、乔安、萤石分列中国市场的前三名