站在DeepSeek肩上,具身智能“起跳”

360影视 2025-02-06 18:53 2

摘要:DeepSeek开源之后,巨量的协作者涌入,技术边界的探索如火如荼。从长文本到图文等多模态的推理能力,在具身智能领域,谁有机会成为第一个吃DeepSeek螃蟹的人?

DeepSeek开源之后,巨量的协作者涌入,技术边界的探索如火如荼。从长文本到图文等多模态的推理能力,在具身智能领域,谁有机会成为第一个吃DeepSeek螃蟹的人?

2月6日,北京大学联合香港科技大学发布了多模态版DeepSeek-R1——Align-DS-V。在DeepSeek R1开源的基础之上,团队基于自研框架align-anything,将纯文本模态的Deepseek R1 系列模型拓展至了图文模态。多模态场景加持之下,Align-DS-V能否打破单一文本推理界限,成为了研发团队的下一个聚焦点。

该项目指导教师北京⼤学⼈⼯智能研究院杨耀东助理教授告诉第一财经记者,Align-R1-V的多模态强推理能力同样也能够成为机器人VLA(Vision Language Action,视觉语言行动) 模型大脑端的核心。如果能够利用Align-R1-V的跨模态穿透能力实现机器人Action领域的穿透,或许机器人端到端大模型板块的最后一块拼图,将会被很快补齐。

站在DeepSeek肩上挑战全模态

全模态的信息处理能力,对于人类来说习以为常,但对于机器人来说,仍然是一个复杂的程序。

“一个遥控器,放在任何位置,人都能轻而易举地拿到,但机器人不具备这样的能力。”具身大模型企业灵初智能的创始人兼CEO王启斌告诉第一财经记者,人类能够通过视觉、听觉、触觉等多个模态能力轻松完成这件事。但在机器人的思考逻辑里,“拿遥控器”这个动作是“牵一发而动全身”的事情。

感知层面,机器人需要依靠摄像头等视觉传感器进行定位和导航,也许还需要通过深度摄像头等深度传感器获得环境信息,为后续的规划提供依据。

在大脑侧,为了拿到遥控器,机器人需要实时感知环境变化和自身状态,做出相应的决策,比如,当沙发上有其他物品挡住了遥控器,机器人的大脑就需要重新规划机械臂的运动路径,或者调整抓取策略。

仅是“拿”这一个动作,机器人还需要控制自身的抓夹或灵巧手等末端执行器,根据遥控器的形状、大小和重量,调整夹取的力度和方式。“如果这个遥控器是光滑的,那手指的闭合力度反馈就需要非常敏感,既保证能够夹紧遥控器,又不会让遥控器滑落。”王启斌解释道。

人能够在几秒内完成思考并执行任务,是因为人类在日常生活中接收到的信息往往是全模态的。文本、视觉、语言等信息通过不同的感官渠道相互补充,让人类能够全面理解和表达复杂的概念。

“这种全模态的信息流对于大模型范式转向通用人工智能也一样重要。”北大团队方面表示,全模态拓展会是Deep Seek R1的下一个突破。“我们需要在复杂的决策场景中构建起感知-理解-推演的闭环认知体系,才能在具身智能等领域拓展智能边界。”

当前,Align-DS-V已经将DeepSeek R1系列模型拓展至了图文模态。“全模态大模型仍然是我们努力的方向。”北大团队方面表示,未来,支持任意模态输入并生成任意模态输出的全模态大模型将成为大模型的里程碑,“不过,如何将全模态大模型和人类意图对齐,仍然是一个重要的挑战”。

强化学习“开挂”

DeepSeek R1-Zero和Align-DS-V的出现,不断证明着强化学习的潜力。据了解,DeepSeek R1-Zero 从基础模型构建开始,就完全依赖强化学习(RL),⽽不使⽤⼈类专家标注的监督微调(SFT)。

“机器人想要进入更多的场景,在复杂的交互环境中作业,强化学习是必经之路。”师从李飞飞的灵初智能联合创始人陈源培告诉第一财经记者,机器人和环境的交互是一个复杂的过程,很难通过人工来设计一个精确的模型,如果只是通过深度学习的方法来训练,机器人在不同场景中对不同对象的操作灵活性难以保证,且需要大量的高质量数据或样本,成本高昂。

他向记者解释,如果采用强化学习的路径,能够利用改变奖励函数的方式推动机器人训练,并通过大量的仿真数据来完成训练。

“我们看到目前市面上绝大多数的机器人还是在展示单一的抓取能力,但在实际的应用中,抓取目标完全孤立的状况非常少。”王启斌表示,机器人在工作中,常常面对的是杂乱的环境,物体和物体之间存在不少的堆叠和遮挡,这给机器人准确识别目标和确定适当的抓取位置带来了挑战。

正因如此,王启斌认为,机器人的多技能串联能力是始终必要的。“能否尽快理解物体所具有的复杂物理属性,始终是机器人必须解决的问题。”王启斌表示,他认为比较务实的路径是,三年之内,机器人能够在有限的技能之内实现物体泛化,“就比如说在物体打包领域,机器人能够针对不同的物体熟练地进行分拣、打包、扫码,这也是我们想要迭代的方向”。

具身大模型加速硬件绑定

如今,具身智能领域的大模型竞争正快速向具体场景收拢。去年年底,灵初智能发布了基于强化学习的端到端具身模型Psi R0。在Psi R0的支持下,灵巧手能够将多个技能串联,在混合训练后生成具有推理能力的智能体,并实现跨场景、跨物体的泛化。

同月,星动纪元发布了端到端原生机器人大模型ERA-42,并展示了大模型和星动XHAND1灵巧手结合后的操作能力。根据星动纪元的展示,搭载ERA-42的灵巧手已经能够完成用锤子敲打钉子、拿起桌上螺钉钻钻进螺钉等操作。

1月9日,银河通用发布GraspVLA,号称这是全球首个端到端具身抓取基础大模型(Foundation Model)。根据银河通用披露的内容,GraspVLA 使用合成数据预训练,在后训练的过程中,能够针对特定需求,将小样本学习即可迁移基础能力到特定场景。

从具身智能企业最新发布的大模型中,不难看出,越来越多的企业正在将大模型和操作场景进行强关联绑定,这是否也意味着具身智能大模型的应用场景正在逐渐收敛?萨摩耶云科技集团AI机器人行业研究员郑扬洋告诉第一财经记者,尽管大模型增强了机器人的学习、语义理解、推理及判断能力,但在从理解、推理、判断、执行到运动的过程中,还涉及其他多种模型算法和软硬件协同的问题。

“与其说是场景的收敛,不如说是企业在变得更加现实。”郑扬洋判断,企业未来会更多聚焦到操作场景当中,持续迭代机器人的技能级,并提高软件和硬件的耦合程度。“具身智能的大模型版图才刚刚开始搭建,聚焦更明确的场景和能力,对于企业来说,性价比也比较高。”

郑扬洋指出,像Align-R1-V这样的大模型出现,意味着具身智能VLA模型拥有跨模态穿透的认知大脑,但仍然需要通过动作生成模块、实时控制系统、物理交互数据和安全框架的补齐,才能够实现多模态理解到具身智能体的跨越。“软件模型和机器人硬件,比如机械臂、灵巧手、驱动芯片等的集成,还需要一定时间。”郑扬洋说。

DeepSeek爆火之后,当大模型从文本模态扩展至多模态、全模态场景之下,更多问题也相继而来。“多模态扩展到全模态空间,模态交互更加复杂,RL⽅法需要做哪些改进?模态数量增加,传统⼆元偏好或规则奖励是否能够捕捉⼈类意图的多元偏好?这些都是我们需要解决的问题。”杨耀东说。

来源:第一财经

相关推荐