Waymo 近日宣布,他们正在利用谷歌的多模态大语言模型(MLLM)“Gemini”,为自己的机器人出租车开发一种全新的训练模型。这一举措标志着 Waymo 在自动驾驶技术上的进一步突破。
Waymo 在一篇新的研究报告中介绍了他们研发的新模型——“端到端多模态自动驾驶模型”(EMMA)。这个模型能够处理传感器数据,从而生成自动驾驶车辆的未来轨迹,帮助无人驾驶车辆做出正确的行驶决策,比如决定行驶路线和避开障碍物。
值得注意的是,这是自动驾驶行业首次明确表明要将 MLLM 应用于实际业务中。这意味着 MLLM 不仅限于聊天机器人、邮件管理或图像生成等领域,还可以应用到更复杂的自动驾驶场景中。
传统自动驾驶系统通常采用多个独立的模块来实现不同的功能,如感知、地图绘制、预测和路径规划。尽管这种方法在过去取得了不错的效果,但在可扩展性和适应新环境方面仍存在不足。Waymo 认为,MLLM,如 Gemini,可以克服这些问题。这类模型通过广泛的数据训练获得丰富的世界知识,并且具备强大的推理能力,可以将复杂任务分解成一系列逻辑步骤,模拟人类思维。
Waymo 表示,EMMA 模型在处理复杂交通环境时表现出色,例如,它可以帮助无人驾驶车辆识别并避开各种动物或道路施工区域。不过,EMMA 还有一些局限性。例如,它目前无法整合来自激光雷达或雷达的三维传感器数据,而且每次只能处理少量图像帧。此外,MLLM 存在“幻觉”现象,这对无人驾驶汽车来说是一个不容忽视的风险。
尽管如此,Waymo 认为 EMMA 模型在轨迹预测、物体检测和道路图理解方面表现出色,未来有望在自动驾驶领域发挥重要作用。特斯拉等其他公司也在积极开发类似的端到端自动驾驶系统,这也表明 Waymo 对端到端系统的兴趣和重视。然而,Waymo 承认,在将 EMMA 模型应用于实际操作前,仍需进行更多的研究和改进。