摘要:12月16日,“华为天才少年”“稚晖君”(彭志辉)创办的智元机器人宣布,开启通用机器人商用量产,此时距离智元机器人发布“远征”与“灵犀”两大家族五款商用人形机器人新品,仅过了四个月。
具身智能的三维生存挑战
作者/ IT时报记者 沈毅斌
编辑/ 郝俊慧 孙妍
Sora正式上线后,另一条火热的科技赛道——具身智能,近期也迎来商业化“前夜”。
12月16日,“华为天才少年”“稚晖君”(彭志辉)创办的智元机器人宣布,开启通用机器人商用量产,此时距离智元机器人发布“远征”与“灵犀”两大家族五款商用人形机器人新品,仅过了四个月。
几乎同时,比亚迪官微发布了一则具身智能方向的招聘信息,面向2025届全球高校硕士、博士毕业生招聘具身智能研究团队,推进具身智能在工业领域的落地应用。小米集团核心创始团队创办的大模型机器人公司——小雨智造,近日也完成新一轮融资,用于加大研发力度,推动具身智能产品创新。
再往回看,今年各类展会都是具身智能“秀肌肉”的舞台,人们在一幅幅人机共存的场景中畅想未来。然而,回到现实,商业化来临之际,相较人机交互的LLM大模型,具身智能要面对更多来自三维世界的挑战。
数据
从“好看的皮囊”到“有用的载体”
展会上,人形机器人现场跳舞、交互、分拣物品、擦桌子等操作,已经成为吸引观众的“秘密武器”。如果将大模型比作“有趣的灵魂”,具身智能则是“好看的皮囊”。但离开展会,真正实现具身智能落地的场景并不多见,如何让具身智能实现从“好看的皮囊”向“有用的载体”跨越,数据是核心。
“我们发现具身智能和多模态大模型发展最不一样的点,就是机器人数据的稀缺性。”智元新创具身业务部总裁姚卯青在浦江AI学术年会具身智能专题论坛上表示,相较于大模型可以免费获取互联网数据,机器人能用的高质量、带标签数据,一个数据集中最多只有几百万条,并且这些数据集属于多种格式的混合体,质量参差不齐,“所以大家最常看到的演示只有人形机器人的桌面操作,比如把水果、积木搬来搬去”。
智元机器人
“可用的物理世界数据集还远远不够,具身智能还在非常初级的阶段。”上海傅利叶副总裁周斌补充道,人工遥操是目前主流的机器人数据采集方法,其核心目标是使机器人本体操作尽可能接近人类的行为模式。但这一方法需要花费大量人力和时间。
以特斯拉为例,其招聘网站上显示,“数据采集操作员”时薪最高48美元,不仅需要长时间穿戴动捕服和VR头显,每天行走7小时以上,还需要三班倒,让机器人可以24小时不间断地吸收数据。
另一种数据采集方式是虚实结合,这种方式需要前期采集物理世界的数据后,再进行合成数据,优势是获取快、成本低,但缺点是只能支撑具身智能完成行走、跑跳等简单运动,面对更加逼真复杂的环境时,计算资源和数据量需求呈指数级上升。
正因为具身智能的应用场景极其广泛,涉及多种模态、不同格式、规模各异的数据,使得具身智能的数据生态十分重要,中国科学院自动化研究所研究员张兆翔认为,要建立一个生态层面上统一的数据框架,北京邮电大学教授方斌也表示,产业界、学术界、企业需要将数据形成合力。
所幸今年已有多家企业开源并着手建立高质量具身智能数据集。比如国家地方共建的人形机器人创新中心打造Openloong开源社区,通过社区和训练场的创新机制加速人形机器人、具身智能训练和数据集构建的工作;北京具身智能机器人创新中心也启动具身智能数据集与数据应用平台建设;鹏城实验室多智能体与具身智能研究所联合多所高校,发布并开源了具身大规模数据集ARIO。
理解
Sora可以成为参照对象
Sora正式上线后,大部分用户被其强大的一致性控制能力所惊艳。但这并不意味着Sora已经完美无瑕,国外科技博主Marques Brownlee在测评一周后表示,Sora对物理规律的理解并不够好,仍会出现人的手部不自然、文字乱码、动物跑着跑着就飞起来等情况。
无论是生成式大模型,还是具身智能,根本上只有精准感知和理解3D物理世界,机器人才能决策并执行复杂任务。
Atlas人形机器人
国内一家文生视频公司在接受媒体采访时表示,视频是由一帧帧图像排列组合而成,这一原理是解决具身智能理解世界的重要路径。原理是让机器人学习连续的图像,并从中获得关于物体和环境随时间变化的丰富信息,以加深机器人的理解。
具体的解决方案是先通过视频网站采集数据,然后将视频生成结果反馈到具身智能中,而力学等物理世界的采集则作为补充方式。
北京通用人工智能研究院科学家黄思远提出的另一途径则是“大脑+小脑”,即大模型作为大脑主控,下接多个小模型,将整个任务分解为一些具体的步骤,且每个步骤都与场景物体做关联,确保模型的输出是基于现实世界的具体信息。
训练方面,黄思远表示可以分为两个部分:第一步是将足够多的三维数据和描述做对齐;第二步则是利用更上层的数据预训练,将更高层级的任务训练出来。“更上层的数据”通常指那些需要更高层次理解和处理的数据,比如复杂的场景理解、行为预测等,这些任务往往更加抽象,需要具备更强的推理和理解能力。
视触觉
让具身智能“有血有肉”
对于具身智能而言,数据赋予“灵魂”,大模型赋予“智慧”,而赋予行动能力的则是执行器,并且是具身智能交互能力最直观的展示,但目前距离“随心所欲”还比较远。
“位置控制和力度控制是具身智能抓取东西的两种主要方式。”国地中心市场体系总监杨正叶曾告诉《IT时报》记者,位置控制是机器人先计算物品体积或大小,然后抓取时将手指移动到空间位置,一旦计算出现偏差,会导致两种后果:一是将手指掰断也要到达位置,二是将物体直接抓坏。
力量控制则是分析抓取物体需要用多大力量,即使出现偏差,也可以减少甚至避免上述两种情况的发生。这就要求具身智能具备视触觉感知能力。
北京邮电大学教授方斌介绍,视触觉的原理可以理解为,基于图像来表达触觉。即通过触觉传感器获取触觉数据后转换为图像形式,与视觉摄像头捕捉的图像信息在格式上保持一致性,使得数据处理和分析更加高效。
但与视觉不同的是,方斌认为触觉的个性化感知更强,“人们通过视觉看到的感受都差不多,但触觉感受会有所差异。”因此提升触觉能力的关键在于接触式操作,但传统的触觉传感器提供的是合力状态下的接触数据,可面对复杂操作时,单一的合力很难完成任务,尤其是面对一些柔性操作时。
因此,方斌团队打造了视触觉的仿真器Tacchi,让接触信息不只是单一的按压,还包括触碰物体时发生的微小滑移、旋转等不同运动模式的仿真效果,从而让触觉传感器的触觉信息更精准,“未来,我们希望把仿真器适用到各种不同形状的视触觉传感器上,打破只有视觉模态的现状”。
来源:IT时报