川观智库资讯 | 具身智能发展必须借助合成数据扩展规模

360影视 日韩动漫 2025-09-17 09:18 1

摘要:随着人工智能的快速发展,全球合成数据市场呈现爆发式增长态势。近日,国际咨询机构弗若斯特沙利文发布《2025年中国合成数据解决方案发展洞察》报告,预测2030年全球市场规模将突破200亿元人民币,且中国市场增速最快。

川观智库研究员 徐也晴

随着人工智能的快速发展,全球合成数据市场呈现爆发式增长态势。近日,国际咨询机构弗若斯特沙利文发布《2025年中国合成数据解决方案发展洞察》报告,预测2030年全球市场规模将突破200亿元人民币,且中国市场增速最快。

合成数据并非凭空捏造信息,而是通过算法、仿真或其他方法人工生成的数据。报告提到,与依赖真实数据采集的传统方式相比,合成数据具有可扩展性、可控性等特点,且成本低、安全性高。

面对真实数据采集成本高、隐私风险大、极端场景稀缺等瓶颈,合成数据不仅能提供规模化的数据生产,也能通过真实性校验与经验流闭环,确保与真实世界保持一致,从而能够批量覆盖长尾与极端环境,同时兼顾高效迭代,助力垂直行业领域突破数据瓶颈,加快智能化发展。仅从成本上来看,通过数据标注服务获得一张带注释的真实图像可能要花费6美元,而通过合成方式生成一张同等价值的带注释图像仅需约0.06美元,意味着成本降低约100倍。

当前,工业级AI训练严重依赖标注成本高昂的真实数据,且难以覆盖关键边缘案例。因此报告认为,未来的数据范式正朝着“1%人类数据+99%高效合成”的混合模式演进。北京银河通用机器人有限公司创始人兼首席技术官王鹤此前也提到,具身智能所依靠的数据,99%可借助高质量的合成数据完成,只有在合成数据无法处理的情况下,才需要有针对性地采集使用1%的真实数据。

王鹤表示,目前,头部人形机器人厂商量产的机器人仅为千台级别,难以达到万台规模。在现实中,让所有机器人都投入不同场景自主工作,以供真人采集上亿条数据,并不具有现实可行性。报告也提到,相比视觉或语言AI,具身智能需要处理更复杂的物理与动作信息。且不同构型的机器人(单臂、双臂、人形)在参数和动作方式上差异明显,使得通用数据集难以直接复用。

因此,借助合成数据扩展规模、提升质量、丰富多样性,是具身智能发展的必经之路。其关键在于提升数据的真实性、新鲜度、规模、多样性与覆盖度,以确保模型既能在真实物理规律下稳健表现,又能在复杂多变的长尾场景中保持泛化能力。

值得注意的是,如果缺乏与真实场景的对照与校正,合成的数据和真实需求容易发生脱节。中国信息通信研究院在《人工智能高质量数据集建设指南》中提到,合成数据技术可能合成存在带有歧视和偏见的数据、合成逻辑不合理的数据、对于长尾事件合成与真实分布相差较大的数据等。因此,合成数据需要与真实采集数据相结合,并通过人类专家、真实反馈和持续验证,不断校正和更新仿真环境及合成样本。

本文来自【四川日报-川观新闻】,仅代表作者观点。全国党媒信息公共平台提供信息发布传播服务。

ID:jrtt

来源:全国党媒信息公共平台

相关推荐