复旦测评13家大模型高考数学成绩，字节豆包II卷超GPT-4o夺冠

投稿
APP
微信扫一扫获取更多

复旦测评13家大模型高考数学成绩，字节豆包II卷超GPT-4o夺冠

刘瑜

2024-06-13 00:00:00

近期，复旦大学自然语言处理（NLP）实验室下的LLMEVAL团队公布了2024年度高考数学大模型测评报告。结果显示，在针对2024年高考数学新II卷的客观题评估中，字节豆包以74.66%的正确率位居13家参与模型之首。紧随其后的是阿里千问与GPT-4，分别位列第二与第三。同样在高考数学新I卷的评估中，字节豆包也取得了显著的成绩。

LLMEval作为复旦大学NLP实验室设计的大型模型评估标准，专注于衡量专业领域内的知识掌握程度。评估团队指出，此次高考题目设计独特且保密性强，是专门用于检验大模型性能的“顶级测试集合”。因此，团队在高考结束后立即对包括GPT-4、文心一言、阿里千问、字节豆包在内的13款主流大模型进行了全面测评。

测评涵盖了2024年高考数学新I卷和新II卷中的14道客观题。在这场竞赛中，字节豆包凭借出色表现，领跑新 II 卷客观题测试。紧随其后的分别是阿里千问和GPT-4。值得一提的是，豆包大模型于5月在火山引擎的原动力大会上首次亮相。据公开数据，豆包在MMLU、BBH、GSM8K、HumanEval等11个行业公认的测评集中，总得分为76.8分，超越了同期测试的其他国产模型。在数学能力、语言理解能力，以及CMMLU和CEval综合评测上，豆包均表现出色，位列前三。