在机器人领域,如何使机器人在非结构化环境中实现对环境的有效感知和深入理解,一直是一个重要的挑战。这不仅关乎机器人自主导航的能力,还要求其在执行任务时能够准确理解人类的指令,确保机器人在认知、感知和控制这三个关键方面表现出色。
为应对这些挑战,深圳技术大学机器人自主移动与操作实验室的马淦副教授团队成功研发了一种具身智能机器人系统。该系统能够灵活应对动态、多变的环境,高效执行实时巡检任务。
研究人员将大语言模型和视觉语言模型深度整合,突破了语言、视觉和导航等多模态信息之间的壁垒,实现了从位置导航到认知导航的跨越。通过集成激光雷达、惯性测量单元等多种传感器,机器人能够将实时捕捉到的视觉信息转化为自然语言,并及时反馈给用户。
借助大模型处理复杂指令,机器人的理解能力显著增强,其对复杂自然语言指令的理解和执行成功率超过了96%。这比传统依赖预设指令的机器人系统有了明显的优势。马淦表示:“这一能力不仅提升了用户对机器人的理解程度,还填补了机器人与用户之间的认知空白,从而大幅提高任务完成效率。”
传统机器人在自然语言理解和视觉信息处理方面存在局限,通常需要结构化输入或固定模板,且需人工分析场景变化或潜在异常。而这款具身智能机器人则通过大模型实现了对多样化自然语言指令的准确解析和实时转化,使操作更加直观和灵活。机器人在视觉场景描述中的正确率达到93%,反馈延迟低于200毫秒,实现了高效的人机交互。
该系统通过优化算法和感知技术,实现了快速、精确的环境建模,并将其与任务规划完美结合,成功解决了巡检任务中的多目标调度和路径规划问题。在动态场景下,它能达到每秒25帧的重建速度,建模误差低于1.8%,满足了巡检任务对高精度和高效率的要求。
马淦指出,这些优化成果得益于课题组在巡检机器人开发和动态环境导航算法方面的长期积累和不断突破,有望为行业带来显著价值。首先,机器人的操作门槛显著降低,用户无需掌握复杂的操作技能,只需通过自然语言即可轻松与机器人互动。其次,任务效率得以提升,机器人能够将实时三维建模与巡检任务规划相结合,执行过程中无需停顿,同时视觉语言反馈技术赋予了机器人“解释能力”,进一步提高了交互效率。
此外,该系统主要依靠本地传感器进行高精度定位,即使外部定位信号微弱,也能凭借自身计算能力完成任务,增强了在各种场景下的适应性和可靠性。
马淦认为,通用机器人并非仅限于人形机器人,其核心在于硬件的模块化和软件的分层架构。该机器人系统具备通用的具身智能自主移动和操作功能,能够与任意形态的腿足式机器人和机械臂兼容。从硬件层面来看,该系统适用于不同形态的机器人本体,既适用于轮式底盘,也可用于履带式底盘,并可进一步添加两个机械臂或工具箱等模块。从软件层面来讲,系统具有高度通用性,最初可视为一个核心共享平台,然后根据需求扩展出各种功能模块。
该系统拥有广泛的应用场景,有望在工业巡检、灾后救援、农业自动化、仓储物流和制造业等多个领域发挥重要作用。例如,在日常巡检方面,机器人可以在学校、医院、写字楼、社区等场所进行常规巡检。在特殊场景巡检方面,它能够在地震灾后救援、矿井内部巡检等环境复杂、危险性高的场景中发挥作用。在工业和农业领域,机器人可用于大型工厂的设备巡检和大型农场的作业监督,这些场景通常面积广阔、设备众多、巡检任务艰巨。使用智能机器人系统代替人工巡检,能够有效降低人力成本,提高巡检效率和质量,还能在高危和极端环境中执行任务,为人员安全提供更有力的保障。
现阶段,研究人员希望结合更多实际应用需求,深入解决工程化过程中可能出现的问题。据悉,相关技术已申请专利,他们期待在合适的时机将技术推向产业化。此外,该团队还计划在智能协作系统、感知与交互以及机器人在智能家居、教育辅助等跨领域拓展方向继续探索。