摘要:人形机器人领域的热潮在北京亦庄得到了进一步的推动,首届“人形机器人半程马拉松”赛事成功举办,吸引了20支队伍参与。这场“钢铁生命竞赛”不仅让人形机器人从实验室走向真实场景,更是一次对机器人性能和稳定性的严峻考验,最终6支队伍成功完成比赛,完赛率达到了30%。
人形机器人领域的热潮在北京亦庄得到了进一步的推动,首届“人形机器人半程马拉松”赛事成功举办,吸引了20支队伍参与。这场“钢铁生命竞赛”不仅让人形机器人从实验室走向真实场景,更是一次对机器人性能和稳定性的严峻考验,最终6支队伍成功完成比赛,完赛率达到了30%。
随着赛事的圆满落幕,关于具身智能是否只是行业泡沫的讨论也随之而来。对此,千寻智能具身智能部的负责人解浚源表达了他的看法。他认为,人形机器人目前仍处于发展的初级阶段,尽管赛道热度高涨,但相较于大模型公司,具身智能领域的规模和估值都相对较低。他强调,制约该领域发展的主要因素并非算力和资本投入,而是硬件迭代的客观周期,即量产可靠机器人和管理大规模数据采集工厂所需的时间。
解浚源在朋友圈正式宣布加入千寻智能,全面负责具身大模型的研发,这一决定标志着他再次跨界。他在深度学习框架和系统领域深耕十余年,曾任亚马逊资深科学家,负责深度学习算法和系统研发,是开源深度学习框架MXNet的主要开发者之一。他还曾在字节跳动应用机器学习部门担任AI高级专家。
解浚源的跨界经历并非首次。他在本科阶段就展现出了卓越的研究能力,以第一作者的身份在顶级会议NeurIPS上发表论文,用深度神经网络对图像进行去噪与修复,该论文至今已被引用超过1900次。赴美深造期间,他先是进行了一段时间的理论研究,随后主动找到了艾伦人工智能研究所(AI2)的CEO Ali Farhadi,提出进行与计算机视觉应用相关的研究,并与meta FAIR的Ross Girshick合作,共同探索深度学习算法。
在亚马逊AWS任职期间,解浚源主要负责MXNet相关的算法和系统研发。他带领团队整理了已有文献资料中的技巧,整合并优化了ResNet-50模型,取得了显著的效果。后来,他加入字节跳动AML部门,负责优化推荐系统、搭建联邦学习平台以及大模型的ToB业务。
今年,解浚源决定再次跨界,进入具身智能领域。他表示,机器人快速发展的时刻即将来临,他不想错失这个机会。在千寻智能,他带领具身智能部负责机器学习、AI相关的算法、系统和平台。他认为,尽管机器人领域仍处于发展的初级阶段,但已经展现出了非常好的性能,未来的发展前景广阔。
解浚源表示,他加入千寻智能是因为千寻的能力较强,且理念相合。他带领的团队在算法、系统、平台等方面都具备丰富的经验,能够互补彼此的不足。他强调,机器人领域的发展需要跨学科的合作,而千寻智能正是这样一个汇聚了各领域人才的平台。
在谈到具身大模型的技术路线时,解浚源认为,虽然目前关于具身大模型的讨论很多,但技术路线已经收敛至VLA路线。他解释说,VLA路线的基础方向是端到端,这一方向在自动驾驶领域也得到了广泛应用。通过端到端的训练方式,机器人可以模仿人的行为,从而快速进步。他预计,未来一到三年内,机器人将在操作简单物体的流畅度和能执行的任务数量上取得显著提升。
在数据采集方面,解浚源认为,这是目前机器人技术最核心的难点。与以往的AI数据标注工作相比,机器人数据采集涉及物理世界的问题,需要管理整个供应链的机器人和数采员,以确保数据的高效采集和多样化。他强调,数据的多样化是非常重要的,因为重复的标准动作对于机器人的学习来说没有意义。
千寻智能近期披露了VLA Spirit v1版本,在叠衣服任务上取得了显著成果。解浚源表示,他们对机器人叠衣服的成功率要求很高,只有实现较高的成功率,才能实现连续叠三件衣服并一镜到底的拍摄效果。他还透露,千寻智能正在建设和完善数采的pipeline,以提升机器人的性能和成功率。
在谈到具身智能的落地场景时,解浚源认为,短期内机器人将主要应用在工厂场景中;中期来看,更大的机会在服务业领域,如物流、商场货架上货、酒店服务等;而长期的愿景则是让机器人走进家庭,协助人们完成日常任务。
解浚源还表示,他不太相信仿真在机器人领域的应用。他认为,柔性物体的仿真是一个非常难的问题,而且仿真器的学习效果受限于其工程量。相比之下,使用真机数据进行采集和训练更加高效和经济。他强调,中国拥有强大的供应链和熟练工人,这使得使用真机数据进行大规模采集成为可能。
来源:ITBear科技资讯