AI 数学推理新王：英伟达发布两款 OpenMath-Nemotron 模型，刷新 AIME 准确率纪录

投稿
APP
微信扫一扫获取更多

AI 数学推理新王：英伟达发布两款 OpenMath-Nemotron 模型，刷新 AIME 准确率纪录

plane资讯

2025-04-25 15:07:09

图灵汇报道显示，科技媒体 marktechpost 于 4 月 25 日发布了一篇文章，提到英伟达推出两款专注于数学推理的先进 AI 模型——OpenMath-Nemotron-32B 和 OpenMath-Nemotron-14B-Kaggle。数学推理是人工智能领域的一大难题，传统语言模型虽能生成流畅文本，但在处理复杂数学问题时往往表现不佳，因为这类问题需要理解抽象概念并完成多步骤逻辑推导。

为应对这一挑战，英伟达开发了这两款基于 Qwen 系列 Transformer 的模型。通过在 OpenMathReasoning 数据集上的深度微调，这些模型的数学推理能力得到了显著提升。其中，OpenMath-Nemotron-32B 是旗舰产品，包含 328 亿个参数，采用了 BF16 张量计算优化硬件效率。该模型在多个基准测试中表现出色，例如在 AIME 2024 和 AIME 2025 中取得了领先的准确率。

以工具集成推理模式为例，在 AIME24 上，该模型的 pass@1 准确率达到了 78.4%，而通过多数投票机制，这一数字进一步提升到 93.3%。此外，模型支持多种推理模式，包括链式思维、工具集成推理以及生成式选择，用户可以根据具体需求调整推理透明度与答案准确性，适应不同的应用场景。

另一款模型 OpenMath-Nemotron-14B-Kaggle 参数量为 148 亿，专为 AIMO-2 Kaggle 竞赛设计。通过在精选的数据集子集上进行微调，它在竞赛中脱颖而出，获得了第一名的成绩。在 AIME24 测试中，其链式思维模式下的 pass@1 准确率为 73.7%，而在生成式选择模式下，这一比例上升到了 86.7%。相比更大规模的版本，这款轻量级模型在保持优秀性能的同时，更适合资源有限或对延迟敏感的场景。

英伟达为这两款模型提供了开源解决方案，整合进 NeMo-Skills 框架，涵盖数据生成、训练及评估的全过程。开发者能够借助示例代码快速创建应用程序，获得详细的解答或简明的答案。

两款模型都针对 NVIDIA GPU（如 Ampere 和 Hopper 架构）进行了深度优化，运用 CUDA 库和 TensorRT 技术来实现高效运行。另外，它们还支持通过 Triton Inference Server 实现低延迟、高吞吐量的部署，而 BF16 格式则在内存使用与性能之间找到了平衡点，推动了实际应用的大规模推广。

注意：本文包含外部链接，旨在提供更多参考信息，最终结果需自行判断。所有图灵汇的文章均附带此免责声明。