谷歌旗下的人工智能研究实验室 DeepMind 近期开发了一款名为 AlphaGeometry2 的人工智能系统,在解决国际数学奥林匹克竞赛(IMO)的几何问题上取得了显著进展。该系统的表现甚至超过了平均金牌得主。
AlphaGeometry2 是 AlphaGeometry 的升级版,于今年1月发布。据DeepMind的研究人员透露,该AI系统能够解决过去25年国际数学奥林匹克竞赛中的84%的几何问题。国际数学奥林匹克竞赛面向高中生,而DeepMind认为,发现解决复杂几何问题的新方法可能是实现更强大人工智能的关键。
解决数学定理的证明或解释定理(比如勾股定理)为什么成立,需要具备推理能力和从多种可能的步骤中选择解决方案的能力。如果DeepMind的观点正确,这些解决问题的技能将是未来通用人工智能模型的重要组成部分。
图灵汇注意到,去年夏天,DeepMind展示了一个结合了AlphaGeometry2与AlphaProof(一种用于形式化数学推理的AI模型)的系统,成功解决了2024年国际数学奥林匹克竞赛中的4个问题。这种方法不仅限于几何问题,还可以扩展到数学和科学的其他领域,如辅助复杂的工程计算。
AlphaGeometry2 包括几个核心组件,其中包含了谷歌Gemini系列AI模型中的语言模型和一个“符号引擎”。Gemini模型帮助符号引擎利用数学规则推导出问题的解决方案,并为给定的几何定理提供可行的证明。
由于将证明转换为AI可理解的格式存在难度,目前可用的几何训练数据有限。因此,DeepMind为AlphaGeometry2的语言模型创建了合成数据,生成了超过3亿个不同复杂度的定理和证明。
研究团队从过去25年(2000年至2024年)的国际数学奥林匹克竞赛中选择了45个几何问题,包括线性方程和需要在平面上移动几何对象的方程,并将其“翻译”成一个更大的50个问题的集合。根据论文,AlphaGeometry2解决了其中的42个问题,超过了平均金牌得主的40.9分。
然而,该系统也存在局限性。一个技术问题导致AlphaGeometry2无法处理涉及可变数量点、非线性方程和不等式的问题。尽管AlphaGeometry2不是第一个达到几何问题金牌水平表现的AI系统,但它是在如此规模的问题集上实现这一目标的首个系统。
在另一组更具挑战性的国际数学奥林匹克竞赛问题上,AlphaGeometry2的表现并不理想。DeepMind团队额外挑选了29个由数学专家为竞赛提名但尚未出现在比赛中的问题,AlphaGeometry2只解决了其中的20个。