近日,加州大学的研究人员与英伟达合作推出了一款名为“NaVILA”的新型视觉语言模型。这款模型为机器人导航提供了全新的解决方案。
NaVILA模型是一种多模态生成式AI模型,能够处理文本、图像和视频信息。通过融合大语言模型(LLM)和视觉编码器,NaVILA使得LLM能够理解和处理视觉信息。传统机器人通常依赖预先绘制的地图和复杂的传感器系统,而NaVILA则无需地图,机器人只需接收人类自然语言指令,结合实时的视觉图像和激光雷达数据,就能自主导航到指定位置。
除了摆脱对地图的依赖外,NaVILA还将导航技术扩展到了足式机器人,提升了机器人应对复杂环境的能力。在实际测试中,研究团队使用了宇树Go2机器狗和G1人形机器人进行验证。结果显示,在家庭、户外和工作区等真实环境中,NaVILA的导航成功率达到88%,在复杂任务中的成功率也达到了75%。
NaVILA模型的特点包括: - 优化准确性与效率:相比其他大型视觉模型,NaVILA在训练成本上降低了4.5倍,微调所需的内存减少了3.4倍。预填充和解码的延迟几乎降低了2倍。 - 高分辨率输入:NaVILA模型使用高分辨率图像和视频中的多个帧,确保不丢失任何细节。 - 压缩技术:英伟达采用了“先扩展后压缩”的技术,通过将视觉信息压缩为更少的token,减少输入数据的大小,并保留重要信息,从而平衡模型的准确性和效率。 - 多模态推理能力:NaVILA能够根据一张图片或一段视频回答多个查询,具有强大的多模态推理能力。
在视频基准测试中,NaVILA的表现优于GPT-4o Mini,并且在与其他模型如GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的比较中也表现出色。NaVILA还在与Llama 3.2的对比中取得了微弱胜利。
英伟达表示,他们计划尽快发布代码和模型,以促进模型的可复现性。