哈工深团队提出多模态智能体Optimus-1,在MineCraft长序列任务

360影视 2025-01-22 23:52 3

摘要:构造一个能像人类一样推理、规划、反思、并执行各种复杂任务的智能体一直是人工智能领域的长久愿景。近年来多模态大模型的发展为智能体领域的研究带来了新的契机。但是,现有的智能体在开放世界中执行复杂任务的能力与人类仍有较大差距。哈尔滨工业大学(深圳)聂礼强团队,受到人

构造一个能像人类一样推理、规划、反思、并执行各种复杂任务的智能体一直是人工智能领域的长久愿景。 近年来多模态大模型的发展为智能体领域的研究带来了新的契机。但是,现有的智能体在开放世界中执行复杂任务的能力与人类仍有较大差距。 哈尔滨工业大学(深圳) 聂礼强 团队,受到人类大脑及认知科学相关理论研究的启发,即“知识和经验的储存和利用在指导人类的行为和让人类灵活适应环境以完成长序列任务发挥着至关重要的作用”,致力于研究如何构建能存储知识和经验的记忆模块,并通过记忆模块为智能体执行各种复杂任务赋能。 在近期一项研究中,课题组提出一种混合多模态记忆模块,该模块包含结构化知识(HDKG,Hierarchical Directed Knowledge Graph)和多模态经验(AMEP,Abstracted Multimodal Experience Pool),能够为智能体在规划和反思过程中提供必要的知识和经验。 arXiv ) 在此基础上构建的智能体 Optimus-1, 其在开放世界环境 MineCraft 中执行长序列任务的能力显著高于现有的智能体,并且在其他环境有不错的泛化性。 在开放世界环境中,智能体需要对复杂任务进行规划,在执行任务过程中反思当前状态是否正确,并对接下来的行为做出合理的决策。这与人类在真实世界中执行复杂任务的行为模式相似。因此,该成果在自动驾驶、智能制造、医疗诊断等领域有很广泛的应用前景。 例如: 在自动驾驶领域,Optimus-1 的混合多模态记忆模块可以帮助车辆在复杂的交通环境中做出更智能的决策:其中,HDKG 可以提供道路和交通规则的知识;AMEP 则可以记录和分析过去的驾驶经验并根据当前状态做出更智能的决策,从而提高自动驾驶的安全性和效率。 在智能制造领域,Optimus-1 可以帮助工厂实现自动化生产。通过 HDKG,Optimus-1 可以存储生产流程和设备操作的知识;AMEP 则可以记录和分析过往的生产数据并做出相应的决策,从而优化生产效率和质量。 在医疗诊断领域,Optimus-1 可以辅助医生进行诊断和治疗。通过 HDKG,Optimus-1 可以存储医学知识和诊断流程;AMEP 则可以记录和分析患者的病历以及历史诊断数据,从而提供专业的诊断和治疗建议。 论文第一作者李在京表示,在确定“开放世界多模态智能体”这个课题之前,他们进行了大量调研,并关注到一些 MineCraft 环境中智能体的研究工作,他和所在团队一致认为这是一个充满挑战且具有应用前景的方向。 通过李在京等人多次与老师汇报和讨论,最终确定以 MineCraft 环境作为切入点,目的是在开放世界中探索如何构造一个多模态智能体。 由于之前在开放世界智能体领域没有相关研究经验,因此他们先大量调研了现有的 MineCraft 环境中的工作,深入阅读相关论文并代码复现现有的工作。 期间,他们发现现有的智能体与人类水平还有很大差距,仍有很大的进步空间。这鼓舞了他们继续深入研究该领域,并提出创新性的方法。 事实上,李在京等人的动机很简单:既然要让智能体的能力接近人类水平,那么他们需要思考人类在真实世界中是如何完成各种复杂且具有挑战性的任务,并借鉴这些能力来构建强大的智能体。 受到人类认知科学领域的相关论文的启发,他们发现人类在执行复杂任务过程中,可以利用掌握的知识来做出合理的规划,并在执行任务过程中,“回忆”过往的经验,并借助经验来更好的完成当前任务。 受此启发,他们初步确立该工作的创新点:构造包含知识和经验的记忆模块,并通过该模块为智能体赋能。 由于先前没有太多可借鉴的方法,他们需要从零开始,一步步实现他们的想法,并构建完整的智能体框架。这个过程中遇到了很多问题,他们进行了很多试错,所幸最后一一解决了各种问题。 比如,在确定初步方案之后,他们尝试了多种方法,希望将智能体执行任务过程中的历史信息存储起来,并转化为知识,使智能体在执行新任务过程中利用这些知识更好地进行任务规划。他们每天讨论和改进现有的方案,但是实验一直没有预期效果。 在某一天晚上,李在京和同学讨论:“人类是如何在 MineCraft 中构建知识并利用这些知识来完成任务的?”当看到“获取木块->合成木板->制作木锄->挖掘石头->制作石剑”这样的链式结构时,他突然灵光一现:为何不用结构化的知识图谱来存储这些“知识”,让智能体在环境中不断探索,并把学到的“知识”存储在知识图谱里呢? 于是他和同学立马讨论可行性和实现方法,用了一天的时间把想法实现并做了改进优化。而实验结果也如预期一般,显著超过了现有方法,这让他们很受鼓舞。 不过,他们并不满足于实验结果超过现有方法多少,而是想要更加全面的评估智能体在 MineCraft 中的能力,以及与人类到底还有多少差距。 因此,他们参考了已有工作,并提出一个更加全面的评估基准,来测试现有的智能体在 MineCraft 中执行各种长序列任务的能力。 课题组还邀请了一些志愿者,要求他们以相同的设定下在 MineCraft 中执行各种任务,通过统计任务成功率制定了人类水平基线。通过全面的对比实验,他们所提出的 Optimus-1 优于当前所有的智能体,并且在部分任务上接近人类水平的表现。 日前,相关论文以《Optimus-1:混合多模态记忆赋能的智能体 在长期任务中表现出色》( Optimus-1 : Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks )为题发在人工智能国际会议—神经信息处理系统会议 (NeurIPS 2024,Conference on Neural Information Processing Systems)[1]。 图 | 相关论文(来源: arXiv ) 目前,该团队的现有方案借鉴于人类大脑和小脑的关系:大脑负责任务规划和反思,将复杂任务拆解为一系列可执行的步骤,小脑负责依次执行这些步骤以完成最终任务。接下来,他们计划对“大脑”和“小脑”进行有机的“耦合”,构造一个端到端式的智能体。

来源:东窗史谈

相关推荐