10款大模型做北京中考数学题,4款国产大模型表现超ChatGPT

图灵汇官网

教育科技前沿:大型语言模型应对北京市中考数学挑战

摘要:在教育科技领域,大型语言模型正逐渐成为解决复杂问题的有力工具。本文聚焦于2024年北京市初中学业水平考试结束之际,探讨了这些模型在处理中考数学题目时的表现。

大模型的初步尝试与挑战

早在高考数学题目的应用中,大型语言模型就展现了一定的能力,然而在难度稍降的北京市中考数学试题面前,它们的表现如何?

实验设计与参与者

本次实验选择了10款大模型,包括百度文心一言、阿里通义、腾讯元宝、字节豆包、ChatGPT、百川智能百小应、零一万物万知、智谱清言、月之暗面的Kimi以及好未来九章大模型,旨在评估它们在处理数学问题时的准确性和解决问题的策略。

测试内容与方法

实验中,我们挑选了3道典型数学题型进行测试:选择题、填空题和解答题。所有模型均通过图片识别后进行作答,确保评价的客观性和准确性。

结果分析

  • 九章大模型、元宝、百小应、智谱清言成功答对3道题,表现出色。
  • 通义、豆包、Kimi、ChatGPT答对2道题。
  • 文心一言万知小程序则分别只答对了1道题。

各大模型答题情况概览

| AI名称 | 选择题 | 填空题 | 解答题 | | --- | --- | --- | --- | | 文心一言 | 待更新 | 待更新 | 待更新 | | 通义 | 待更新 | 待更新 | 待更新 | | 元宝 | 待更新 | 待更新 | 待更新 | | 豆包 | 待更新 | 待更新 | 待更新 | | 百小应 | 待更新 | 待更新 | 待更新 | | 万知 | 待更新 | 待更新 | 待更新 | | 智谱清言 | 待更新 | 待更新 | 待更新 | | Kimi | 待更新 | 待更新 | 待更新 | | 九章大模型 | 待更新 | 待更新 | 待更新 | | ChatGPT | 待更新 | 待更新 | 待更新 |

结语

本次实验揭示了大型语言模型在解决具体教育场景中数学问题的能力。虽然整体表现参差不齐,但这些技术的潜力和挑战同样值得深思。随着教育科技的不断发展,我们期待未来能够看到更多创新的应用,以更好地辅助教学、提升学生的学习体验。

本文来源: 图灵汇 文章作者: 经纬