图灵汇报道显示,科技媒体 marktechpost 于 4 月 25 日发布了一篇文章,提到英伟达推出两款专注于数学推理的先进 AI 模型——OpenMath-Nemotron-32B 和 OpenMath-Nemotron-14B-Kaggle。数学推理是人工智能领域的一大难题,传统语言模型虽能生成流畅文本,但在处理复杂数学问题时往往表现不佳,因为这类问题需要理解抽象概念并完成多步骤逻辑推导。
为应对这一挑战,英伟达开发了这两款基于 Qwen 系列 Transformer 的模型。通过在 OpenMathReasoning 数据集上的深度微调,这些模型的数学推理能力得到了显著提升。其中,OpenMath-Nemotron-32B 是旗舰产品,包含 328 亿个参数,采用了 BF16 张量计算优化硬件效率。该模型在多个基准测试中表现出色,例如在 AIME 2024 和 AIME 2025 中取得了领先的准确率。
以工具集成推理模式为例,在 AIME24 上,该模型的 pass@1 准确率达到了 78.4%,而通过多数投票机制,这一数字进一步提升到 93.3%。此外,模型支持多种推理模式,包括链式思维、工具集成推理以及生成式选择,用户可以根据具体需求调整推理透明度与答案准确性,适应不同的应用场景。
另一款模型 OpenMath-Nemotron-14B-Kaggle 参数量为 148 亿,专为 AIMO-2 Kaggle 竞赛设计。通过在精选的数据集子集上进行微调,它在竞赛中脱颖而出,获得了第一名的成绩。在 AIME24 测试中,其链式思维模式下的 pass@1 准确率为 73.7%,而在生成式选择模式下,这一比例上升到了 86.7%。相比更大规模的版本,这款轻量级模型在保持优秀性能的同时,更适合资源有限或对延迟敏感的场景。
英伟达为这两款模型提供了开源解决方案,整合进 NeMo-Skills 框架,涵盖数据生成、训练及评估的全过程。开发者能够借助示例代码快速创建应用程序,获得详细的解答或简明的答案。
两款模型都针对 NVIDIA GPU(如 Ampere 和 Hopper 架构)进行了深度优化,运用 CUDA 库和 TensorRT 技术来实现高效运行。另外,它们还支持通过 Triton Inference Server 实现低延迟、高吞吐量的部署,而 BF16 格式则在内存使用与性能之间找到了平衡点,推动了实际应用的大规模推广。
注意:本文包含外部链接,旨在提供更多参考信息,最终结果需自行判断。所有 图灵汇的文章均附带此免责声明。