摘要:采集方式及特点:目前机器人数据采集手段有4种。第一种是真人穿戴动作捕捉系统操作本体机器人,数据真实有效,但成本最高,采集十分钟数据有效数据可能在3 - 5分钟,占比30% - 50%。第二种是真实动作捕捉与虚拟结合,使用真实动作捕捉系统驱动虚拟本体采集数据,成
1、机器人数据采集技术路径
采集方式及特点:目前机器人数据采集手段有4种。第一种是真人穿戴动作捕捉系统操作本体机器人,数据真实有效,但成本最高,采集十分钟数据有效数据可能在3 - 5分钟,占比30% - 50%。第二种是真实动作捕捉与虚拟结合,使用真实动作捕捉系统驱动虚拟本体采集数据,成本较低,采集有效期增加,一天可采集15 - 20分钟,但缺少从真实到虚拟再到真实的验证过程。第三种是纯动作捕捉数据采集,无需本体,但有效数据有限,数据映射有待验证。第四种是使用模拟合成数据进行大规模生成训练。目前第二种模式使用较多,前期验证可能用第一种,验证通过后用虚拟媒体采集。
海内外大厂采集手段:海外特斯拉已大批量采购essence设备,采用真实人穿真实服装训练真实本体采集数据和使用虚拟平台6DoF同步UDF模式训练两种方式。国内机器人公司处于技术验证阶段,会购买少量动作捕捉设备,部分用真实人穿真实服装驱动真实本体采集数据,部分用纯虚拟UDF模式采集。
2、数据有效性衡量与复用
数据有效性衡量:目前数据有效性衡量处于尝试阶段,先采集真人动作,驱动真实和虚拟媒体,换不同人采集后返给机器人,再反向验证机器人姿态和动作,但尚无具体数据。例如采集10分钟数据,最终可能只有3分钟连续片段,这3分钟数据拿去训练,根据结果反向检查。
数据复用性:数据可以复用,不同硬件和自由度情况下也能复用,关键在于重定向过程。人的自由度是固定的,如大臂三个轴、肩膀三个轴等,难点是将动捕数据映射到机器人本体。对于自由度不匹配的情况,如采集数据自由度高,本体自由度低,或反之,可通过分组和拆分轴的方式进行匹配,但无标准值,需来回调试。
3、数据采集效率与问题
数据采集效率现状:目前数据采集效率非常低,实际可使用的数据量少。采集成本高,获客成本至少上万元,采集1300秒数据需两三个较成熟的动作捕捉师使用上百万的设备采集十几天,且若涉及真实本体与物理交互,效率更低,如抓取手指动作一下午才采集到十几秒有效数据。
效率低的核心问题及解决办法:核心问题是人的动作和机械动作协调性的映射问题,人的动作速度灵活度高,机器人低,且长度不一致。解决核心在于提升映射算法,需在姿态和精度间取舍,目前追求末端定位精度。
4、数据采集工厂与数据分类
数据采集工厂建设:数据采集工厂是趋势,但建设面临成本高的问题,包括设备、人员和场地费用。例如1000套设备,每套设备成本按20万算需2亿,2000个人力成本一千多万,50平每套设备场地需5万平。目前有政府组织、企业和学校联合等建设方式。
数据分类与优先级:数据分类根据机器人面向的领域,如家政、康复医疗、生产等场景进行动作分类。国内大厂客户数据采集主要集中在康复医疗陪伴、家政、生产等方面,如达摩院偏重于家政,小鹏汽车偏重于生产,腾讯展示调咖啡属于陪伴或家庭类。
5、数据采集费用与客户需求
数据采集费用:有效数据每秒大概300元左右,重复数据每秒大概60元。与机器人本体厂商结算按秒或按条收费,按秒居多,一条数据通常5 - 10秒。
客户需求规模:目前只有智元下了1000套数据采集订单,但未确定交付时间,今年绝大多数厂家以零散购买设备做验证为主。
6、动捕数据与其他传感数据融合
动捕数据与力控、视觉传感信息融合:动捕数据与力控、视觉传感信息融合是多模态互相验证的过程。例如用动捕设备采集数据验证和优化视觉算法,再进行数据标注,告诉机器人动作含义。
动捕数据与力矩、触觉信息融合:动捕数据可与力矩、触觉信息三合一融合,如制作的手套,动捕采集姿态,力矩补充反馈力,触觉补充压力传感器信息。动捕厂商未来会尝试将多种传感信息集成到动捕设备上。
7、数据采集降本与精度问题
数据采集降本空间:降本可通过走批量和使用廉价劳动力实现,如与学校学生联合,学生时间充足、成本低,还可使用学校场地,设备可半买半送,数据共享或利益分成。预计未来1 - 3年成本可能从每秒300元降到200元左右,若学生参与可能降到百元以下,至少需百套设备规模支撑降本。
动捕设备精度与应用匹配度:目前动捕设备精度误差较大,在厘米级,与毫米级误差差距远,且实际使用中去掉辅助后误差更大。精度与应用场景暂无一一对应关系,问题主要出在动捕设备不够成熟和映射算法不够成熟上。
8、映射算法与本体厂商策略
映射算法的重要性:映射算法对数据最终精度和训练影响非常大,会成为本体厂商的核心竞争力之一,因为即使购买相同设备,映射不准会影响精度和最终体验。
本体厂商策略:本体厂商有自研映射算法的需求,但部分厂商自研成功率低,如小鹏、蔚来等十几家公司,因不了解人体轴向,自研花费时间长,会选择付费给服务企业帮忙做映射。
Q&A
Q:从机器人的数据采集手段来说,有哪些技术路径,这几种方案的采集效率和优劣势如何?
A:目前数据采集手段有4种。第一种是使用动作捕捉设备进行采集,包含惯性动作捕捉系统、光学捕捉系统、视觉、VR等设备来采集人类真实数据并传到机器人。其又分三个环节,第一种方式是真人穿戴动作捕捉系统操作本体机器人,此方式采集的数据最真实有效,但成本最高,一套动作捕捉设备加上人员和本体构造成本偏高,采集十分钟数据,有效数据可能在3 - 5分钟,占比30% - 50%,且这些数据百分百有效。第二种模式是真实和虚拟结合,真人穿戴真实动作捕捉系统,使用UDF虚拟引擎驱动虚拟本体进行数据采集,这是项目中和其他大厂用得最多的方式。其数据真实有效,但最终有效数据比例不如第一种,不过成本相对节省,因为不需要真实本体,采集有效期变长,一天可采集15 - 20分钟,整体比第一种更有效,但缺少从真实到虚拟再到真实的验证过程。第三种模式是使用纯动作捕捉的数据,只需一套动作捕捉系统和演员操作,能采集很多数据,但有效数据非常有限,且采集数据和整体做映射有待后期验证。第四种模式是使用模拟合成数据进行大规模生成训练。前期做验证可能需要真实本体、真实动作捕捉和人员来采集,验证通过后会使用虚拟媒体采集数据,操作性更强。
Q:海内外主流大厂如国外的Tesla、EX、figure,国内的资源、语数等公司采取的数据采集手段大概是什么样的?
A:海外有两种模式,按市场消息,特斯拉去年已开始大批量采购essence设备,一是真实的人穿真实服装训练真实本体并采集数据,二是使用虚拟平台以6DoF同步UDF模式训练。国内目前都在做技术验证阶段,未到大规模量产。机器人公司第一步都在尝试用动作捕捉设备做验证,前期会少量购买设备,最多不超过十套。部分会拿出2 - 3组设备让真实人穿真实服装驱动真实本体进行操控和数据采集,其他组可能使用纯虚拟的UDF模式采集,是结合的方式。
Q:在机器人上做数据采集,如何衡量数据的有效性,有没有什么指标?
A:这是待验证的过程,先采集真人动作,在第一步和第二步采集时,已驱动真实媒体和虚拟媒体,相当于已验证过,但会换不同人采集再返给机器人,机器人采集完后反向验证其姿态,也会对机器人的动作进行追踪做反向验证,目前大家都在尝试,还没有具体数据。
Q:大概多少个小时的累计数据之上可以让一个初步的机械模型具备一定的泛化性,比如完成一个抓水杯的动作?
A:如果只是一个动作,比如抓水杯,可能三四个小时数据就够了。但如果要让机器人全身动作全部学习,需要几十万甚至几百万个小时的数据。
Q:机器人做数据采集后,数据后续是否能够复用?
A:可以复用,甚至给A公司录入的数据也能给B公司使用,不同媒体、不同型号、不同轴向的数据都可以使用,因为人的自由度远高于机器人自由度。
Q:为什么在不同的硬件乃至不同的自由度的情况下,数据还可以得到复用?
A:中间有一个重定向过程。人的自由度无论怎么采集都是不变的,比如大臂永远是三个轴,肩膀三个轴,小臂永远是一个轴,手掌是两个轴,只是要把这些轴映射给机器人并做优化,其中最难的是把动捕数据映射给机器人本体的过程。
Q:将动捕数据映射给机器人本体的难点以及目前的解决效果怎么样?
A:常规的映射没问题,但要和真实有效数据做一一对应较难。因为人的胳膊长度和机器人不一样,机器人长度相对较长,操作过程中一般取末端(手掌那一侧)的精度,让手臂自然衔接,用末端精度去协调大臂和小臂,舍去中间不一样的地方。
Q:当采集数据的自由度与机器人本体自由度不匹配时,如何做兼容?
A:首先要对自由度分组,确定其位于身体的位置,如大臂、小臂、肩膀等。以手臂为例,将20个自由度分组,确定哪些电机控制小臂,哪些控制大臂等。然后从人体上进行映射,可以将一个轴拆分成若干份分给不同电机组,具体比例需要来回调试,没有标准值。
Q:从公司或国内厂商实验过程来看,数据采集效率以及实际量产过程中数据复用性和有效性如何,若低的话大概是什么比例?
A:数据采集效率非常低。现在很多只是在PPT上写有大量数据,但真正可用的数据采集量很少。从成本来讲,获客成本至少上万元。例如采集1300秒(20分钟)的数据,需要两三个较成熟的动作捕捉师使用上百万的设备采集十几天,且这还是娱乐性的数据采集。如果是给机器人采集数据,还涉及本体操作和物理交互,效率更低,如抓取手指的动作,一下午才采集到十几秒可用数据。
Q:导致数据采集和复用效率低的核心问题出在哪里?
A:最大问题在于映射问题,即人的动作和机械的动作协调性问题。人的动作相对速度灵活度高,机器人速度灵活度低,且长度不一致,需要多次尝试才能找到机器人手和物理交互的点。
Q:解决上述问题的核心在于什么?
A:核心在于提升映射算法,并且需要有取舍,目前大多是取舍姿态追求末端定位精度,即不管中间过程,只要达到抓取等结果就行。
Q:如何评价建立数据工厂这种数据采集方式?
A:数据工厂是必然要存在的,这是个趋势,不止三木智能,其他家也在做。动捕设备在机器人上用量有限,全国加起来量也较小,而做数据采集工厂需要上百套到千套设备才能达到效果。以1000套设备采集为例,一天采集有效数据30分钟,一年采集的数据换算成小时也只有几万个小时,需要采集三四年、四五年才能获取足够信息量供机器人应用。数据工厂肯定要建,但要看每家的合作方式、投资方式,还要考虑成本问题,比如1000套动捕设备、场地费用和人员费用不是小数目,可能需要政府牵头来做。
Q:在机器人的数据采集过程中,如何对数据进行分类和确定采集优先级?
A:这要看客户需求和机器人面向的领域,根据不同领域进行动作分类。比如机器人用于家政场景,就采集家政场景的数据;用于厨房环境,就采集厨房相关数据;用于康复医疗陪伴、救援等领域,就采集相应场景的数据。
Q:从接触到的国内大厂客户来看,他们主要集中在哪些方面的数据采集?
A:康复医疗陪伴动作的数据采集较多。具体来说,达摩院应用场景偏重于家政,其办公室搭建了很多家庭环境;小鹏汽车偏重于生产,如流水线搬东西、人机协同模式;腾讯展示调咖啡,可理解为陪伴类或家庭类场景。
Q:尝试从数据时长去做成本衡量,有没有相关数据?帮机器人本体厂商采数据的计费方式是怎样的?
A:之前按秒算,有效数据一秒大概300左右,重复数据大概60块钱。帮机器人本体厂商采数据的计费方式按秒或按条算,按秒居多,一条数据基本在5到10秒之间,按条算比较好计数。
Q:目前哪些客户对采集数据的规模需求比较大,订单情况如何,交付时间是什么时候?
A:目前只有智元下了1000套的订单,但这只是订单还未交付,交付时间还未确定。今年绝大多数厂家是以零散购买设备回去做验证为主。
Q:动捕数据与力控数据、视觉传感信息融合的过程中由谁主导?
A:实际是多模态互相验证的过程。比如力控数据和视觉算法数据,很多人拿力控数据去验证视觉算法数据。以给达摩院做的项目为例,先用动捕设备采集相关动作来优化和验证视觉算法,再进行视频和数据标注,告诉机器人动作的含义。因为动捕设备采集数据非常成熟,所以是用动捕设备去进行验证。
Q:动捕数据如何跟力矩、末端触觉信息进行融合?
A:这是三合一的融合方式。力矩采集的是力,触觉采集的一般是力反馈类信息,包括触觉压力。比如做的一个手套,动捕采集姿态,力矩补充反馈力,触觉补充压力传感器数据,三者可以融合。动捕厂商会尝试把各种各样的传感信息放到动捕设备上,实现多种数据信息的采集。
Q:不同的数据采集模式对机器人训练动作的帮助和支持有何差异?哪种方式对训练机器人更有效?
A:四种数据采集中,最有效的是使用真实的设备驱动真实本体来进行采集,但过程慢、成本高;其次是使用真实动捕设备驱动虚拟媒体,相对节省成本且采集量较大;第三和第四种与本体无关,分别是使用动捕设备采集和使用合成数据生成。前期可以用纯动捕加人加遥操的模式采集数据进行训练,之后用纯合成数据或纯动捕数据加强训练,再用真实人加真实数据训练,最后用动捕设备检验机器人学习情况,整个流程可能会综合使用这四种数据。
Q:数据采集方面后续有多大的降本空间?
A:走批量会降本。可以和学校学生联合,学生时间充足、成本低,学校有场地,还能将设备半买半送进行合作,数据采集的数据可以共享甚至利益分成。目前每秒成本300块钱,未来1 - 3年估计可能降到200左右,如果学生参与降本力度大,可能降到百元以下。
Q:精度和应用场景是否有一一对应关系,比如精度达到多少能胜任家政服务类工作或工业级任务?
A:目前没有这样的对应关系。现在大家追求的精度误差都在厘米级,距离毫米级误差还很远。在实际使用动捕设备进行秒操时,如果去掉一些辅助,误差会更大。
Q:动捕设备精度误差大的本质问题是否出在动捕设备不够成熟以及映射的算法不够成熟上?
A:目前动捕设备精度误差较大,达到毫米级甚至零点几毫米级别。问题不仅在于动捕设备精度,还在于机器人的映射问题和学习问题。真人数据的误差度可能在亚毫米级别,但映射到机器人后,由于机器人手指长度、大小等存在差异,会产生误差。
Q:本体厂商是否会自研映射算法来连接动捕设备?
A:本体厂商必须要自研映射算法,因为这对数据的最终精度以及训练影响非常大,若不自研,也可以付费给服务企业来做映射。目前有些企业自研不成功,只能付费让服务企业帮忙做映射,比如小鹏、蔚来以及南京、上海的十几家企业。做机器人的企业多是搞科研、机械的,不太理解人体的XYZ轴向,若花时间去理解,热度可能已过,不如花二三十万交给服务企业去做。产业趋势是大家都会自研,但在量产过程中,由于着急上线,自研成功率较低,像小鹏等企业前期会自研,没得到特别有效结果后,就会转向服务公司帮忙做映射。
Q:目前和服务企业合作做映射的企业情况如何?
A:目前至少有十几家企业因自研不成功或认为自研耗时,选择付费让服务企业帮忙做映射,包括小鹏、蔚来以及南京、上海的一些企业。这些做机器人的企业多是搞科研、机械的,不太理解人体的XYZ轴向,自研成功率较低,像小鹏等企业前期会自研,没得到特别有效结果后,才会转向服务公司帮忙做映射。
来源:全产业链研究一点号