摘要:星动纪元近日发布端到端原生机器人大模型ERA-42,其与自研的五指灵巧手星动XHAND1相结合,首次实现仅凭一个具身大模型,即可驱动五指灵巧手运用多种工具,完成超过100项复杂精细的操作任务;包括拿起螺钉并用钻紧固、用锤子敲打钉子、扶正水杯并倒水等。
作者|黄楠
编辑|袁斯来
硬氪获悉,星动纪元近日发布端到端原生机器人大模型ERA-42,其与自研的五指灵巧手星动XHAND1相结合,首次实现仅凭一个具身大模型,即可驱动五指灵巧手运用多种工具,完成超过100项复杂精细的操作任务;包括拿起螺钉并用钻紧固、用锤子敲打钉子、扶正水杯并倒水等。
基于ERA-42,星动XHAND1能用不同工具完成多种灵巧操作新任务
在通用性和灵巧操作能力方面,ERA-42无需任何预编程技能,具备强泛化与自适应能力,基于少量数据收集,可在不到2小时即可学会新任务,并持续快速学习更多新技能。
基于ERA-42,星动XHAND1可完成100多种精细化、智能化的五指灵巧手操作任务
星动纪元指出,具身大模型作为开启通用具身智能体的密钥,需要具备以下三个要素。第一,统一一个模型泛化多种任务和环境;通过构建一个统一的原生模型,融合视觉、语言、触觉和身体姿态等全模态信息,实现对不同任务和环境的泛化能力。
第二是端到端,从接收全模态数据,到生成最终输出如决策、动作等,通过一个简洁的神经网络链路完成。该过程无需人为设计特征、预编程或干预处理步骤,使得具身智能体能够实时适应不同任务和环境,显著提升灵活性与开发效率。
第三是Scaling up(规模化),允许模型通过持续的数据积累实现自我完善,使得具身大模型在数据量指数级增长的同时,不仅提升性能,还能在未知任务中展现卓越的自适应和泛化能力。例如Physical Intelligence (简称PI)发布的π0模型就具备上述要素,是典型的真正意义上的端到端具身大模型。
基于端到端算法,星动纪元采用了大规模视频数据学习策略,涵盖无标注的视频数据、公开各类形态机器人的数据、人类活动数据以及遥操作数据等,在上述数据使用基础上学习行动结果,可有效降低数据收集成本。
星动纪元探索融合世界模型的原生机器人大模型
此外,星动纪元团队已将世界模型融入原生机器人大模型中,使得模型不仅具备行动能力,还具备了对物理世界的理解能力,能够对未来行动轨迹进行预测,并迅速响应外部干扰,在任务执行过程中持续自适应优化行为,直至任务完成,提升机器人执行任务的高效性和准确性。
在实际应用中,相比传统的夹爪机器人,基于ERA-42能力的五指灵巧手星动XHAND1能使用多种工具,完成更通用、灵巧性更强、复杂度更高的操作任务。例如,通过简单的彩色方块抓取数据训练后,ERA-42就能成功实现从未见过的多样化物体的抓取泛化。
基于ERA-42,五指灵巧手星动XHAND1相比夹爪能使用更多不同工具执行更灵巧操作
面对单任务或长序列任务时,ERA-42展现了强大的抗干扰能力。测试显示,随着模型规模的扩大,任务成功率也明显提升,初步体现了和大语言模型训练中类似的“Scaling效应”。
硬件方面,为构建通用具身智能体,星动纪元推出了为AI定义的全新硬件平台。以星动XHAND1为例,它共有12个主动自由度,并采用纯电驱方式实现全自主五指关节驱动。每个手指配备有一个高分辨率触觉阵列传感器,可提供精确的三维力触觉和温度信息。
依托ERA-42,星动纪元通用人形机器人执行任务的通用性和泛化性将大幅提升,结合此前发布的在复杂多样的地形上稳定行走和奔跑的运动性能,配合上下肢协同作业能力,潜在应用场景也将更加多元化,真正实现原生的通用具身智能体的产业化落地。
来源:大力财经