谁是最强“AI记者”？每日经济新闻大模型评测报告（第1期）发布

投稿
APP
微信扫一扫获取更多

谁是最强“AI记者”？每日经济新闻大模型评测报告（第1期）发布

2024-06-25 16:55:45

大模型在媒体行业的革新与选择指南

摘要：生成式AI大模型正深度重塑媒体行业的内容创作与传播模式，引发了一场“百模大战”。面对众多选择，媒体从业者与内容创作者如何明智挑选合适的AI大模型？针对这一挑战，每经新闻集结了30余位资深记者、编辑与科技工程师，历时两个月，对主流大模型在财经新闻工作场景中的表现进行了全面评测。本文揭示了国产大模型的崛起态势，特别推荐了零一万物Yi-Large，其在财经新闻标题创作、微博新闻写作、文章差错校对及财务数据计算与分析等多个场景中表现出色。

随着生成式AI大模型的兴起，它们不仅改变了内容创作的方式，更为媒体行业的传播效率与质量带来了革命性的提升。面对当前市场上琳琅满目的大模型产品，媒体从业者与内容创作者面临着如何选择最适合自身需求的AI工具的关键决策。为解决这一困惑，每经新闻成立了一个由30多位优秀记者、编辑和子公司每经科技工程师组成的“每日经济新闻大模型评测小组”，深入评测了主流大模型在财经新闻工作场景中的实际表现与能力。

经过详尽的评估，评测小组发布的《每日经济新闻大模型评测报告》（第一期）指出，国产大模型正加速追赶国际同行，其中零一万物Yi-Large以其出色的表现脱颖而出，在财经新闻标题创作、微博新闻写作、文章差错校对、财务数据计算与分析等关键场景中成绩优异。相较于GPT 4.0等国际大模型，在某些特定任务中甚至超越了后者，特别是在财经新闻标题创作方面，表现尤为突出。

国产大模型的崛起

评测结果显示，国产大模型在多个任务上展现出与国际大模型竞争的实力。例如，商汤商量SenseChat-5、字节豆包Doubao-pro-32k和百度ERNIE 4.0等模型在信息提炼准确性和重要新闻点的突出上，与谷歌Gemini 1.5 Pro等国际大模型不相伯仲。在微博新闻写作场景中，百度文心ERNIE 4.0、商汤SenseChat-5等国产大模型与Anthropic Claude 3 Opus并列第一，展示了在本土社交媒体平台上的卓越表现。而在财务数据计算与分析场景中，国产大模型如幻方求索DeepSeek-V2、百川智能Baichuan4展现出强大的数据处理能力。

大模型的专长与局限

评测还揭示了不同大模型在特定场景和任务上的专长与局限。例如，谷歌Gemini 1.5 Pro在财经新闻标题创作和文章差错校对上表现出色，但其在微博新闻写作场景中排名相对靠后。Anthropic Claude 3 Opus、幻方求索DeepSeek-V2、百川智能Baichuan4等模型则在数据计算能力上展现出优势。

跨语言环境的挑战与机遇

值得注意的是，评测中发现大模型在跨语言环境下的表现存在差异。国产大模型在中文语境下显示出更强的适应性与本土化优势，特别是在微博写作场景中，能够更精准地把握平台特性与用户偏好。然而，大模型在跨语言环境中的适应性问题仍然存在，这也是未来研究与优化的重点方向之一。

结论与展望

《每日经济新闻大模型评测报告》旨在为用户提供在工作、学习、生活等场景中选择最合适大模型的指导。评测结果表明，国产大模型在多个任务上展现出与国际大模型竞争的实力，特别是零一万物Yi-Large在财经新闻领域的出色表现值得高度关注。未来，“每日经济新闻大模型评测小组”将持续深入探索大模型的潜力，为用户提供更多基于实际应用场景的专业评测报告，共同推动AI技术在媒体行业的应用与发展。