AI 数学推理新王:英伟达发布两款 OpenMath-Nemotron 模型,刷新 AIME 准确率纪录

图灵汇官网

图灵汇报道显示,科技媒体 marktechpost 于 4 月 25 日发布了一篇文章,提到英伟达推出两款专注于数学推理的先进 AI 模型——OpenMath-Nemotron-32B 和 OpenMath-Nemotron-14B-Kaggle。数学推理是人工智能领域的一大难题,传统语言模型虽能生成流畅文本,但在处理复杂数学问题时往往表现不佳,因为这类问题需要理解抽象概念并完成多步骤逻辑推导。

为应对这一挑战,英伟达开发了这两款基于 Qwen 系列 Transformer 的模型。通过在 OpenMathReasoning 数据集上的深度微调,这些模型的数学推理能力得到了显著提升。其中,OpenMath-Nemotron-32B 是旗舰产品,包含 328 亿个参数,采用了 BF16 张量计算优化硬件效率。该模型在多个基准测试中表现出色,例如在 AIME 2024 和 AIME 2025 中取得了领先的准确率。

以工具集成推理模式为例,在 AIME24 上,该模型的 pass@1 准确率达到了 78.4%,而通过多数投票机制,这一数字进一步提升到 93.3%。此外,模型支持多种推理模式,包括链式思维、工具集成推理以及生成式选择,用户可以根据具体需求调整推理透明度与答案准确性,适应不同的应用场景。

另一款模型 OpenMath-Nemotron-14B-Kaggle 参数量为 148 亿,专为 AIMO-2 Kaggle 竞赛设计。通过在精选的数据集子集上进行微调,它在竞赛中脱颖而出,获得了第一名的成绩。在 AIME24 测试中,其链式思维模式下的 pass@1 准确率为 73.7%,而在生成式选择模式下,这一比例上升到了 86.7%。相比更大规模的版本,这款轻量级模型在保持优秀性能的同时,更适合资源有限或对延迟敏感的场景。

英伟达为这两款模型提供了开源解决方案,整合进 NeMo-Skills 框架,涵盖数据生成、训练及评估的全过程。开发者能够借助示例代码快速创建应用程序,获得详细的解答或简明的答案。

两款模型都针对 NVIDIA GPU(如 Ampere 和 Hopper 架构)进行了深度优化,运用 CUDA 库和 TensorRT 技术来实现高效运行。另外,它们还支持通过 Triton Inference Server 实现低延迟、高吞吐量的部署,而 BF16 格式则在内存使用与性能之间找到了平衡点,推动了实际应用的大规模推广。

注意:本文包含外部链接,旨在提供更多参考信息,最终结果需自行判断。所有 图灵汇的文章均附带此免责声明。

本文来源: 图灵汇 文章作者: plane资讯
    下一篇

此前,马斯克在社交平台 X 上贴出了一道数学题,并表示如果有人解开这个问题,就有资格在特斯拉公司工作,引起了很多网友的讨论。这是一道算式题:6÷2 (1+2)。在推文下面,网友纷纷给出了自己的答案,但