10款大模型做北京中考数学题，4款国产大模型表现超ChatGPT

投稿
APP
微信扫一扫获取更多

10款大模型做北京中考数学题，4款国产大模型表现超ChatGPT

经纬

2024-06-26 21:05:28

图灵汇官网

教育科技前沿：大型语言模型应对北京市中考数学挑战

摘要：在教育科技领域，大型语言模型正逐渐成为解决复杂问题的有力工具。本文聚焦于2024年北京市初中学业水平考试结束之际，探讨了这些模型在处理中考数学题目时的表现。

大模型的初步尝试与挑战

早在高考数学题目的应用中，大型语言模型就展现了一定的能力，然而在难度稍降的北京市中考数学试题面前，它们的表现如何？

实验设计与参与者

本次实验选择了10款大模型，包括百度文心一言、阿里通义、腾讯元宝、字节豆包、ChatGPT、百川智能百小应、零一万物万知、智谱清言、月之暗面的Kimi以及好未来九章大模型，旨在评估它们在处理数学问题时的准确性和解决问题的策略。

测试内容与方法

实验中，我们挑选了3道典型数学题型进行测试：选择题、填空题和解答题。所有模型均通过图片识别后进行作答，确保评价的客观性和准确性。

结果分析

九章大模型、元宝、百小应、智谱清言成功答对3道题，表现出色。
通义、豆包、Kimi、ChatGPT答对2道题。
文心一言和万知小程序则分别只答对了1道题。

各大模型答题情况概览

| AI名称 | 选择题 | 填空题 | 解答题 | | --- | --- | --- | --- | | 文心一言 | 待更新 | 待更新 | 待更新 | | 通义 | 待更新 | 待更新 | 待更新 | | 元宝 | 待更新 | 待更新 | 待更新 | | 豆包 | 待更新 | 待更新 | 待更新 | | 百小应 | 待更新 | 待更新 | 待更新 | | 万知 | 待更新 | 待更新 | 待更新 | | 智谱清言 | 待更新 | 待更新 | 待更新 | | Kimi | 待更新 | 待更新 | 待更新 | | 九章大模型 | 待更新 | 待更新 | 待更新 | | ChatGPT | 待更新 | 待更新 | 待更新 |