Waymo 利用谷歌 Gemini 大语言模型，开发端到端自动驾驶模型

投稿
APP
微信扫一扫获取更多

Waymo 利用谷歌 Gemini 大语言模型，开发端到端自动驾驶模型

林先湛

2024-10-31 14:50:05

图灵汇官网

Waymo 近日宣布，他们正在利用谷歌的多模态大语言模型（MLLM）“Gemini”，为自己的机器人出租车开发一种全新的训练模型。这一举措标志着 Waymo 在自动驾驶技术上的进一步突破。

Waymo 在一篇新的研究报告中介绍了他们研发的新模型——“端到端多模态自动驾驶模型”（EMMA）。这个模型能够处理传感器数据，从而生成自动驾驶车辆的未来轨迹，帮助无人驾驶车辆做出正确的行驶决策，比如决定行驶路线和避开障碍物。

值得注意的是，这是自动驾驶行业首次明确表明要将 MLLM 应用于实际业务中。这意味着 MLLM 不仅限于聊天机器人、邮件管理或图像生成等领域，还可以应用到更复杂的自动驾驶场景中。

传统自动驾驶系统通常采用多个独立的模块来实现不同的功能，如感知、地图绘制、预测和路径规划。尽管这种方法在过去取得了不错的效果，但在可扩展性和适应新环境方面仍存在不足。Waymo 认为，MLLM，如 Gemini，可以克服这些问题。这类模型通过广泛的数据训练获得丰富的世界知识，并且具备强大的推理能力，可以将复杂任务分解成一系列逻辑步骤，模拟人类思维。

Waymo 表示，EMMA 模型在处理复杂交通环境时表现出色，例如，它可以帮助无人驾驶车辆识别并避开各种动物或道路施工区域。不过，EMMA 还有一些局限性。例如，它目前无法整合来自激光雷达或雷达的三维传感器数据，而且每次只能处理少量图像帧。此外，MLLM 存在“幻觉”现象，这对无人驾驶汽车来说是一个不容忽视的风险。

尽管如此，Waymo 认为 EMMA 模型在轨迹预测、物体检测和道路图理解方面表现出色，未来有望在自动驾驶领域发挥重要作用。特斯拉等其他公司也在积极开发类似的端到端自动驾驶系统，这也表明 Waymo 对端到端系统的兴趣和重视。然而，Waymo 承认，在将 EMMA 模型应用于实际操作前，仍需进行更多的研究和改进。