国产大模型卷翻机器人!这些火遍全网的机器人,都装上了星火大脑

图灵汇官网

机器人时代的到来:大模型与机器人的融合

近年来,大模型技术的兴起点燃了机器人行业的热情。无论是国际还是国内,大模型与机器人初创公司的合作频繁,标志着机器人行业的崭新时代已经来临。

大模型赋能机器人

大模型技术已经开始渗透到机器人领域。例如,初创公司Figure在3月份发布了首款由OpenAI大模型支持的人形机器人Figure 01。凭借强大的语言模型(LLM),Figure 01能够看到桌面上的苹果、整理餐具,并与人类进行无障碍交流。与此同时,另一家初创公司Mentee Robotics展示了其人形机器人Menteebot,通过自然语言进行交流。借助大模型的支持,Menteebot能够理解命令、思考、决策和完成任务。

在大模型的推动下,类似的案例层出不穷。国内机器人领域也呈现出火热态势,例如,被誉为“人形机器人第一股”的优必选股价大幅上涨,大模型厂商与机器人企业的合作也在不断加强。行业专家认为,具备多模态LLM的大脑将使机器人更好地理解指令并执行任务,例如使用笔记本、洗碗、冲泡咖啡等。

机器人领域的投资热潮

机器人领域的投资市场持续升温,迎来高光时刻。研究机构Robot Report的数据显示,今年前3个月,机器人初创公司筹集了32亿美元的资金,而去年同期仅为17亿美元。国外方面,OpenAI投资的两家人形机器人初创公司1X和Figure分别获得新一轮融资。此外,硅谷的服务机器人公司Bear Robotics、专为机器人开发大脑的Physical Intelligence等公司同样受到资本的青睐。

在国内,优必选成为人形机器人第一股,并且股票价格不断攀升。不久前,工业版人形机器人Walker S也进入了车间开始工作。宇树人形机器人在今年2月完成了近10亿元的B2轮融资,其产品宇树H1更是受到了广泛关注。据统计,仅在今年第一季度,国内机器人市场就有20多起融资案例。

多模态LLM的重要性

传统机器人通常需要明确的指令才能执行任务,掌握单一技能相对容易,但要完成多个技能结合的任务则十分困难。大模型的出现打破了这一僵局,通过将松散定义的指令映射到机器人技能范围内,使得机器人能够执行复杂的任务。例如,通过多模态LLM,机器人可以理解抽象的行为,如点头,然后将其转化为具体的动作。

然而,要实现真正的“具身智能”AGI,仅仅依靠大语言模型是不够的。图像、文字、语音、视频等多模态信息构成了我们的现实世界,而人类的感受和沟通都是以多模态方式进行的。因此,对于智能机器人来说,多模态能力是必不可少的。例如,当机器人接收到“有点累,帮我拿一杯提神的饮品”这样的指令时,它需要识别桌面上的食物,判断哪一瓶是合适的饮品。此外,嗅觉和味觉等智能功能也将成为机器人未来发展的方向。

国产大模型:讯飞星火

市场对机器人的热情已经完全被AI大模型点燃。国内一家成立25年的公司,早在2022年就启动了“超脑2030计划”,旨在让机器人走进每个家庭。这一计划分三个阶段,通过逐步推进,使AI具备知识、学习和进化的能力。科大讯飞作为背后的推动力量,一直在不断探索前沿技术,逐步实现这一目标。

2022年,科大讯飞在全球1024开发者大会上发布了“讯飞机器人超脑平台”,并首次推出“讯飞星火大模型”。该模型具备了文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力等七大维度。经过多次迭代升级,讯飞星火大模型已经具备了强大的通用人工智能能力。

讯飞机器人超脑平台

科大讯飞于2023年7月将讯飞星火大模型与“机器人超脑平台”深度融合,打造了一个面向物理世界、虚拟世界和元宇宙的机器人开发平台。该平台以多模态感知表达、开放式语义理解、大小脑协同运动控制和软硬件接入为核心,能够帮助开发者快速搭建实体机器人和虚拟数字人产品。

人形机器人在实际应用中面临诸多挑战,例如在嘈杂环境中难以与人有效交流。为此,讯飞机器人超脑平台从“视听融合的多模态感知交互”和“大模型理解决策”两个方面解决了这一难题。通过升级麦克风阵列算法,融合声音、人脸和唇形信息,机器人能够在嘈杂环境中精准拾音,实现复杂场景下的“听得清”。同时,通过语音大模型和超拟人合成技术,机器人能够“听得准”、“答得自然”,提升交互体验。

星火加持,机器人飞升

为了进一步扩大合作生态,科大讯飞于2024年4月15日启动了“星河行动”计划,招募生态合作伙伴共同推进机器人产业的发展。许多国内头部机器人厂商已经在使用科大讯飞星火大模型的强大能力。人形机器人是目前最好的通用具身形态,但机器人也可以是机械臂或轮式机器人。科大讯飞与穿山甲机器人公司合作多年,共同探索AI技术和机器人的融合,不断拓宽服务机器人应用的新边界。基于讯飞先进的语音识别和AI技术,机器人可以流畅地进行自然语言对话,迅速理解并给出准确回答,同时提供各类信息和建议。

机器人开发的最佳时代

机器人不仅依赖于AI大脑的技术迭代,还需要“身体”的并行发展。随着机器人行业的逐步发展,机器人行业内的组件供应也开始向专业化、成熟化方向发展。在上海召开的中国人形机器人生态大会上,可以看到机器人部件厂商的发展情况。人形机器人通用底座、机器狗通用底座、机器人超脑板、多模态语音交互、3D视觉芯片、灵活机械手、机器人伺服电机、3D打印框架等厂商均参加了展出。大会进行了多项专题报告,展示了“多模态+大模型,构建人形机器人新交互”和“人形机器人感知技术与发展”等细分领域的成果。

对于机器人行业的创业者和开发者来说,这将是最好的时代。大量模块化、可快速整合的行业平台及部件,使得机器人的开发不再需要从零开始做算法。特别是像讯飞机器人超脑平台已经引入大模型的通用开放平台,进一步降低了机器人常规算法和人机交互开发的难度,使得二次应用开发成为一种高效的方式。

大模型与机器人的光明前景

下一步,如何推动大模型与机器人加速融合后的商业化落地?从认知能力上看,AI机器人的发展越来越接近人类。在外观方面,机器人也越来越像人类。波士顿咨询公司(BCG)估计,到2030年,全球机器人市场规模将达到1600亿美元至2600亿美元。这表明,大模型与机器人相结合的市场前景非常广阔,可以广泛应用于各种工业领域和人类生活场景。

在制造业领域,装配线上的机器人能够生产出人类工人无法比拟的高质量和一致性商品。在仓库和物流公司中,AI机器人能够完成重型搬运工作,大大减轻了人类劳动力的负担。例如,亚马逊物流仓库中的75万机器人大军已经全面投入使用。此外,AI医疗机器人可以帮助医生进行手术,做出更准确的诊断,并引导患者完成物理治疗和康复。

展望未来,在餐馆、太空探索、教育、养老院等诸多场景中,都将得到AI机器人的全面覆盖。机器人正在以我们几十年前只能想象的方式重塑整个世界。科大讯飞所做的,就是用技术革新,让机器人走进每个家庭。

本文来源: 图灵汇 文章作者: 维端网