摘要:生成式AI大模型正深度重塑媒体行业的内容创作与传播模式,引发了一场“百模大战”。面对众多选择,媒体从业者与内容创作者如何明智挑选合适的AI大模型?针对这一挑战,每经新闻集结了30余位资深记者、编辑与科技工程师,历时两个月,对主流大模型在财经新闻工作场景中的表现进行了全面评测。本文揭示了国产大模型的崛起态势,特别推荐了零一万物Yi-Large,其在财经新闻标题创作、微博新闻写作、文章差错校对及财务数据计算与分析等多个场景中表现出色。
随着生成式AI大模型的兴起,它们不仅改变了内容创作的方式,更为媒体行业的传播效率与质量带来了革命性的提升。面对当前市场上琳琅满目的大模型产品,媒体从业者与内容创作者面临着如何选择最适合自身需求的AI工具的关键决策。为解决这一困惑,每经新闻成立了一个由30多位优秀记者、编辑和子公司每经科技工程师组成的“每日经济新闻大模型评测小组”,深入评测了主流大模型在财经新闻工作场景中的实际表现与能力。
经过详尽的评估,评测小组发布的《每日经济新闻大模型评测报告》(第一期)指出,国产大模型正加速追赶国际同行,其中零一万物Yi-Large以其出色的表现脱颖而出,在财经新闻标题创作、微博新闻写作、文章差错校对、财务数据计算与分析等关键场景中成绩优异。相较于GPT 4.0等国际大模型,在某些特定任务中甚至超越了后者,特别是在财经新闻标题创作方面,表现尤为突出。
评测结果显示,国产大模型在多个任务上展现出与国际大模型竞争的实力。例如,商汤商量SenseChat-5、字节豆包Doubao-pro-32k和百度ERNIE 4.0等模型在信息提炼准确性和重要新闻点的突出上,与谷歌Gemini 1.5 Pro等国际大模型不相伯仲。在微博新闻写作场景中,百度文心ERNIE 4.0、商汤SenseChat-5等国产大模型与Anthropic Claude 3 Opus并列第一,展示了在本土社交媒体平台上的卓越表现。而在财务数据计算与分析场景中,国产大模型如幻方求索DeepSeek-V2、百川智能Baichuan4展现出强大的数据处理能力。
评测还揭示了不同大模型在特定场景和任务上的专长与局限。例如,谷歌Gemini 1.5 Pro在财经新闻标题创作和文章差错校对上表现出色,但其在微博新闻写作场景中排名相对靠后。Anthropic Claude 3 Opus、幻方求索DeepSeek-V2、百川智能Baichuan4等模型则在数据计算能力上展现出优势。
值得注意的是,评测中发现大模型在跨语言环境下的表现存在差异。国产大模型在中文语境下显示出更强的适应性与本土化优势,特别是在微博写作场景中,能够更精准地把握平台特性与用户偏好。然而,大模型在跨语言环境中的适应性问题仍然存在,这也是未来研究与优化的重点方向之一。
《每日经济新闻大模型评测报告》旨在为用户提供在工作、学习、生活等场景中选择最合适大模型的指导。评测结果表明,国产大模型在多个任务上展现出与国际大模型竞争的实力,特别是零一万物Yi-Large在财经新闻领域的出色表现值得高度关注。未来,“每日经济新闻大模型评测小组”将持续深入探索大模型的潜力,为用户提供更多基于实际应用场景的专业评测报告,共同推动AI技术在媒体行业的应用与发展。
我们诚邀广大用户参与此次评测项目,分享您的使用体验与需求,帮助我们提供更加贴合实际应用的大模型评测服务。请通过每经新闻App的“个人中心”-“意见反馈”栏目,留下您的想法和具体需求。您的参与将助力我们共同探索大模型的无限可能性,推动行业创新与发展。