标题:特斯拉机器人Optimus展示具身智能首秀,展现全面技术亮点
9月25日,特斯拉机器人官方账号Tesla Optimus发布了一次具有重要意义的技术演示。在这次展示中,人形机器人Optimus展示了其自主物品分类能力,其背后的关键技术在于完全端到端的神经网络训练,能实现视频信号输入和控制信号输出。
Optimus在展示中展现出了一系列令人印象深刻的能力,包括视觉自标定、颜色分拣任务、单脚保持平衡等,这些能力涵盖了感知、大脑、运动与控制等多个方面。通过视觉感知及关节位置编码器,Optimus能够自动校准四肢,并精确地定位四肢在空间中的位置。借助纯视觉技术和完全本地部署的神经网络,Optimus能够迅速适应环境,并顺利完成多种任务,如将蓝色与绿色积木分别分拣到对应颜色的托盘中,即使在抓取积木过程中遇到干扰,它也能立即调整并继续执行分拣任务。此外,Optimus还能将翻倒的积木摆正,并执行“打乱分类好的积木”等新任务。
在运动控制能力方面,Optimus展现了精准抓取物品的能力,其四肢、躯干、手指的动作灵活度接近人类水平。同时,Optimus还完成了多个单腿支撑的运动拉伸动作,并在拉伸时保持躯干的平衡。
值得注意的是,特斯拉采用的端到端模型输入端为视频信号,即图像及音频信号的混合输入,而展示中显示,其识别部分神经网络算法仅使用视觉信息。
中信证券分析认为,特斯拉的V12自动驾驶算法体系不仅适用于人形机器人,也适用于汽车,这将有助于加速提升识别算法的泛化能力。随着特斯拉展示了机器人端到端技术路线的可能性,这一方案与特斯拉FSD(全自动驾驶系统)的运行模式类似,FSD的成功经验有望加速机器人迭代速度,推动其向多任务拓展。
从技术角度看,Optimus的输入端、输出端、算法端和硬件端均展现出了关键的技术特点。在输入端,无论是2D还是3D相机都能实现图像识别,核心考量因素为成本控制。在输出端,关节、传感器、控制系统对于输出稳定性至关重要。在算法端,端到端框架允许直接从原始输入到最终输出进行训练,无需进行手动特征工程或中间阶段处理。在硬件端,展示出的静态运动控制稳定性和用于控制平衡的IMU(惯性测量单元)的高精度表明了传感环节的重要性。
就具体产业而言,浙商证券看好人形机器人产业化的趋势,并聚焦于关键部件制造商。其中包括减速器、传感器、轻量化材料、机器人集成以及机器人整机和特种机器人等多个领域。推荐关注双环传动、绿的谐波、中大力德、上海机电、汉宇集团、丰立智能、大族激光、昊志机电等公司。
这次Optimus的展示不仅展示了特斯拉在人工智能和机器人领域的技术实力,也为未来机器人技术的发展提供了新的方向和可能。