在CES 2025的主题演讲中,NVIDIA创始人兼CEO黄仁勋宣布推出了一项名为Cosmos的世界基础模型平台。这一平台旨在解决通用机器人和自动驾驶领域发展的一个主要障碍——训练数据不足的问题。
黄仁勋表示,Cosmos平台是一个由先进的生成式世界基础模型(WFM)、高级视频tokenizer、护栏和加速视频处理流水线组成的技术平台,专门针对NVIDIA的数据中心GPU进行优化。这一平台将有助于推动自动驾驶汽车和机器人的发展。
物理AI模型的开发成本高昂,需要大量的真实数据和测试。Cosmos世界基础模型使得开发者能够轻松生成大量基于物理学的逼真合成数据,用于训练和评估现有模型。此外,开发者还可以通过微调Cosmos世界基础模型来构建自定义模型。
首批用户包括1X、思灵机器人(Agile Robots)、Agility、Figure AI、Foretellix、傅利叶(Fourier)、银河通用(Galbot)、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Uber、Waabi和小鹏汽车等全球物理AI领先企业,涉及机器人、自动驾驶和共享出行等领域。
Cosmos模型将以开放模型许可证的方式提供。首批模型有8款,参数量从40亿到140亿不等。Hugging Face地址:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6。NVIDIA API目录中可预览首批模型,NVIDIA NGC目录或Hugging Face也支持下载整个系列的模型和微调框架。这些模型将以经过全面优化的NVIDIA NIM微服务形式提供。
开发者可以使用NVIDIA NeMo Curator加速视频处理,并使用NVIDIA NeMo来定制自己的世界模型。这些模型可以通过NVIDIA DGX Cloud快速、简单地部署,并且可以获得NVIDIA AI Enterprise软件平台提供的企业支持。
黄仁勋表示:“机器人技术的ChatGPT时刻即将到来。与大语言模型一样,世界基础模型是推动机器人和自动驾驶汽车开发的基础。”英伟达创建Cosmos的目的是普及物理AI,使每位开发者都能接触通用机器人技术。
Cosmos世界基础模型专为物理AI的研发而设计,是一套开放的扩散和自回归Transformer模型。这些模型接受了来自2000万小时的真实世界数据训练,能够根据文本、图像和视频等输入生成基于物理学的视频。
构建物理AI模型需要大量视频数据和计算资源。为了帮助节省数据整理、训练和模型定制的成本,Cosmos提供了多种工具。NVIDIA NeMo Curator驱动的NVIDIA AI和CUDA加速数据处理管线,使得开发者能够高效处理、整理和标记数据。NVIDIA Cosmos Tokenizer则能够将图像和视频转换成token,总压缩率提高了8倍,处理速度提高了12倍。
NVIDIA Cosmos平台根据NVIDIA的可信AI原则开发,优先考虑隐私、安全、保障、透明和减少不必要的偏见。Cosmos开放平台加入了专为减少有害文字和图像而设计的护栏,并提供了一个增强文字提示准确性的工具。使用NVIDIA API目录上的Cosmos自回归模型和扩散模型生成的视频会带有隐形水印,以识别AI生成的内容,从而减少错误信息和错误归属的可能性。
许多物理AI行业的领先者已经开始使用Cosmos技术。例如,AI人形机器人公司1X使用Cosmos Tokenizer推出了1X World Model Challenge数据集。Hillbot和Skild AI正在使用Cosmos加速其通用机器人的开发。小鹏汽车也将使用Cosmos加快其人形机器人的开发。
NVIDIA Cosmos平台的推出恰逢其时,通过生成高仿真虚拟世界状态的世界基础模型,为开发者提供了教AI理解物理世界的关键工具。这不仅展示了NVIDIA在未来AI发展的雄心,也使得生成逼真合成数据变得更加容易,从而加速物理AI的构建与应用。