复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠

图灵汇官网

近期,复旦大学自然语言处理(NLP)实验室下的LLMEVAL团队公布了2024年度高考数学大模型测评报告。结果显示,在针对2024年高考数学新II卷的客观题评估中,字节豆包以74.66%的正确率位居13家参与模型之首。紧随其后的是阿里千问与GPT-4,分别位列第二与第三。同样在高考数学新I卷的评估中,字节豆包也取得了显著的成绩。

LLMEval作为复旦大学NLP实验室设计的大型模型评估标准,专注于衡量专业领域内的知识掌握程度。评估团队指出,此次高考题目设计独特且保密性强,是专门用于检验大模型性能的“顶级测试集合”。因此,团队在高考结束后立即对包括GPT-4、文心一言、阿里千问、字节豆包在内的13款主流大模型进行了全面测评。

测评涵盖了2024年高考数学新I卷和新II卷中的14道客观题。在这场竞赛中,字节豆包凭借出色表现,领跑新 II 卷客观题测试。紧随其后的分别是阿里千问和GPT-4。值得一提的是,豆包大模型于5月在火山引擎的原动力大会上首次亮相。据公开数据,豆包在MMLU、BBH、GSM8K、HumanEval等11个行业公认的测评集中,总得分为76.8分,超越了同期测试的其他国产模型。在数学能力、语言理解能力,以及CMMLU和CEval综合评测上,豆包均表现出色,位列前三。

本文来源: 图灵汇 文章作者: 刘瑜