斯坦福团队建立AI音频数据收集系统，能让机器人判断杯中是否有骰子

飞行网

2024-07-08 14:36:07

导览

在当今科技界，人工智能驱动的机器人主要依赖摄像头获取环境信息并学习新技能。然而，近年来，通过声音训练机器人的方法逐渐崭露头角，尤其在低能见度场景下，声音成为了机器人执行任务的强大辅助工具。相较于视觉信息，声音在日常操作中展现出独特优势，例如通过监测洋葱在炉灶上的嘶嘶声来判断锅温是否适宜。

传统上，视觉技术在机器人学习中占据主导地位，但在特定任务中，如判断物体状态、识别环境细节，声音信息往往更为关键且直观。然而，声音训练技术在过去受限于实验室环境，进展相对缓慢。

斯坦福大学机器人与人工智能实验室的科研人员正致力于改变这一局面。他们的策略包括构建一套音频数据采集系统，结合GoPro相机和带麦克风的夹持器，以过滤环境噪声。通过人类示范者在家中完成各类任务，这些数据被用于训练机械臂独立执行动作。

创新之处在于，研究团队开发了一套训练算法，使机器人能够从声音信号中提取关键线索，显著提升执行效率。据主笔研究员Zeyi Liu介绍，“目前，机器人主要在无声视频上接受训练，而音频中蕴含着丰富的信息。”

研究团队选择了四个典型任务进行测试，旨在验证声音信息对机器人性能的影响：翻转煎饼、擦拭黑板、连接尼龙线、从杯子中倒出骰子。在这些任务中，声音提供了视觉或触觉传感器难以捕捉的线索，如判断橡皮擦是否恰当地接触了黑板表面，或杯中是否确实存在骰子。

经过多次演示，研究团队对比了仅使用视觉训练与同时利用声音训练的机器人成功率。结果显示，当在骰子测试中仅依赖视觉时，机器人准确识别杯子中有无骰子的成功率为27%，而加入声音后，这一比例飙升至94%。

为了进一步展示声音数据的价值，研究团队分享了收集音频数据的系统照片，并指出这是迈向实际应用的重要一步。通过从真实世界收集音频，而非局限于实验室环境，研究团队旨在加速机器人训练进程，使其更加高效。

密歇根大学的机器人学副教授Dmitry Berenson未参与此项研究，但他指出：“音频在机器人感知领域中仍是一个缺失的关键元素。”当前研究聚焦于工业分拣和放置任务，这类任务更多依赖于触觉或视觉传感器，而较少受益于声音信息。

然而，随着机器人应用领域扩展至家庭、厨房等环境，声音的作用日益凸显。贝伦森举例称，当机器人试图在视线受限的情况下寻找钥匙时，听觉反馈能够提供重要线索，指示钥匙所在的口袋。尽管如此，声音信息也存在局限性，尤其是对于质地柔软或灵活的物品，它们发出的声音往往较少且不具代表性。

此外，机器人在执行任务过程中面临的挑战之一是如何区分自身发出的噪音，因为在人类生成的训练数据中不存在此类干扰。为解决这一问题，研究团队正考虑将机器人的“声音”以及致动器噪声整合进训练集，以便机器人学会过滤这些干扰因素。

展望未来，Liu表示研究团队计划探索更多数据集，包括增加更多麦克风以收集空间音频信息，并尝试将麦克风集成至其他数据收集设备中，以进一步提升机器人训练效果。这一系列改进旨在推动机器人感知技术的发展，使之在复杂多变的环境中具备更强的适应性和学习能力。

斯坦福骰子杯中机器人判断音频收集团队是否建立

本文来源：图灵汇文章作者：飞行网

人形机器人亮相2024WAIC 会行走、能读懂人的表情并回应