摘要:当前,哪怕是 ChatGPT 等最先进的 AI Agent 都是传统的被动式 Agent(下图 1 左侧所示),即需要用户通过明确的指令显式告诉 Agent 应该做什么,Agent 才能继续执行接下来的任务。
当前,哪怕是 ChatGPT 等最先进的 AI Agent 都是传统的被动式 Agent(下图 1 左侧所示),即需要用户通过明确的指令显式告诉 Agent 应该做什么,Agent 才能继续执行接下来的任务。
而近期清华大学联合面壁智能等团队提出了开创性的新一代主动 Agent 交互范式(ProActive Agent),为 AI 交互带来了突破性的解决方案(下图 1 右侧所示)。这一新范式下的 Agent 不再是简单的指令执行者,而是升级成为了具有“眼力见”的智能助手。它具备“眼中有活、主动帮助”的主观能动性,能够主动观察环境、预判用户需求,像“肚子里的蛔虫”一样,在未被明确指示的情况下主动帮用户排忧解难,主动 Agent 实现了从“被命令”到“会思考”的质的飞跃。
图 1 两种人类与智能体交互形式的比对。左侧的被动式 Agent 只能被动接受用户指令并生成回复,而右侧的主动式 Agent 可以通过观测环境主动推断与提出任务。
论文链接:
GitHub 地址:
为了更清晰地理解这一技术突破的意义,可以通过以下表格来详细分析对比两种范式的本质区别:
主动 Agent 交互范式在日常生活中有丰富的应用潜力,以下是一些近期预想可实现的场景:
主动 Agent 交互范式应用场景 demo 演示
场景 1:
在一段情侣聊天的场景中,男生邀请女生一起要在周六去环球影城并于早上八点来接女生,当 Agent 获取用户授权之后随时保持在线的“候命状态”,当 Agent 通过上下文聊天内容实时识别到女生的需求,在没有用户明确下指令的情况下,Agent 主动帮女生定了一个周日早上七点的闹钟用来提醒起床。
场景 2:
当用户在电脑上接收到一份重要文件(学习课件、发票等)时,Agent 主动帮用户把文件存到了本地,并自动识别出 PDF 文件第一页显示的标题然后帮用户把文件名进行了重命名。
该研究除了提出以上开创性的主动 Agent 范式之外,还通过采集不同场景下的人类活动数据构建了一个环境模拟器,进而构建了数据集 ProactiveBench,通过训练模型获得了与人类高度一致的奖励模型,并比对了不同模型在数据集下的性能。
主动 Agent 技术原理
下图展示了主动 Agent 技术原理的整体流程。为了让智能体能够主动提出任务,该研究设计了三个组件以模拟不同场景下的环境信息,用户行为和对智能体提出任务的反馈。
图 2 数据生成过程总览。该过程包含了初始环境与任务设置,事件生成,主动预测,用户判断和行动执行。
其中:
1、环境模拟器模拟了一个特定环境,并为智能体的交互提供了一个沙盒条件。模拟器通过使用基于 Activity Watcher 软件采集到的真实人类数据以提升生成事件的质量。环境模拟器的主要功能为事件生成与状态维护:通过使用 GPT-4o 从人类注释员处收集的种子事件以生成一个需要交互的具体环境,同时生成所有相关实体以让智能体执行任务。对于每个场景,环境模拟器接收用户活动并生成详细的,逻辑通顺合理的事件,环境模拟器将会持续生成事件,更新实体状态,产生特定反馈,直到当前环境下没有更多事件以供生成。
2、主动智能体将会通过环境模拟器提供的信息预测用户意图,生成预测任务。每当智能体接受一个新事件后,它将首先更新自己的记忆,结合用户之前的反馈和历史交互信息,主动智能体将能够结合用户性格提出可能的任务。如果主动智能体没有检测到需要,其将保持静默,反之将会提出一个任务。一旦此任务被用户接受,那么主动智能体将在环境模拟器中执行该任务,并进而产生后续的系列事件。
3、用户智能体将模拟用户行为并对主动智能体的任务做出反馈。用户智能体为经过提示的 GPT-4o,在获取预测之后,用户智能体将会决定是否接受任务。该研究通过从人类标注员处收集判断,并训练一个奖励模型以模拟这一过程。人类标注员在研究开发的标注平台上进行标注,对特定时间下,9 个不同的大语言模型生成的多样化预测进行判断,并通过多数投票的方式决定某个回合用户是否具有需求,以及用户倾向于接受什么类型的任务。值得一提的是,人类标注员在测试集上达到了 91.67% 的一致性,充分说明了测试集的可靠性。
主动 Agent 实验研究
该研究提出了一套度量方式衡量奖励模型和人工标注员的一致性。
需求遗落(MN):人工标注认为需要帮助而奖励模型认为无需帮助。
静默应答(NR):人工标注和奖励模型都认为无需帮助。
正确检测(CD):人工标注和奖励模型都认为需要帮助。
错误检测(FD):人工标注认为无需帮助而奖励模型认为需要帮助。
在这四个度量方式上进行召回率、精确度、准确度和 F1 分数的计算,从结果上看,所有的现有模型都在正确检测上表现良好,但对于其他指标则性能较差。现有模型倾向于接受智能体的任务,尽管可能毫无助益。相对的,该研究训练的模型性能最优,因此被选为 ProactiveBench 的奖励模型。
图表 3 不同模型作为奖励模型的评测结果。研究展示了模型与人工标注员多数投票结果之间的一致性。在 LLaMA-3.1-instruct-8B 微调的模型取得了最好结果。
通过奖励模型,可以进一步衡量主动智能体的性能表现。该研究在不同的模型上进行了评估,并将模型预测的结果交由奖励模型进行评价。从结果上看,闭源模型会倾向于主动提出任务而不能在用户无需帮助时保持静默,模型提供的任务往往过于抽象或无用,以至于产生较高的误报率。对于开源模型,经过数据集训练的模型明显更优,这证实了研究数据合成流水线的有效性。同时,经过训练的模型也在误报率上有了明显的下降,尽管提供不必要的帮助的情况仍然存在。
图表 4 不同模型在 ProactiveBench 数据上的评测结果。GPT-4o 在闭源模型中脱颖而出,对于开源模型,基于 Qwen2-7B 微调的结果取得最好成果。
研究同样进行了消融学习以研究提出任务数量和用户反馈对于智能体性能的影响。通过让模型提出多个可能的任务并一一进行判断,所有的模型在指标上都有明显的上升。通过给予模型来自奖励模型的反馈,所有的模型误报率都有所下降,准确度有所上升,但在召回率的表现上有明显下降。通过结合奖励模型,主动智能体可以更好的检测用户需求,降低误报率。
图表 5 基准线,多任务预测,获取反馈之间的比较。结果表明所有的模型都有所提升。模型的误报率由于接受预测的可能性更高或被奖励模型改进而显著下降。
结语
该研究提出了创新的人类-智能体交互方法即主动 Agent(ProActive Agent)范式,有望将 AI 从被动的工具转变为具有洞察力和主动帮助的智能协作,从而开启人机交互新范式。
这一技术革新不仅将改变我们与 AI 交互的方式,更有望为大众群体创造更加包容和便利的智能化生活环境。随着技术的不断进步,我们可以期待看到更自然的人机协作模式,更智能的场景适应能力,以及更深度的个性化服务。
阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。
截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告
Air Street Capital《2024 年人工智能现状报告》
未来今日研究所:2024 技术趋势报告 - 广义计算篇
科睿唯安中国科学院 2024 研究前沿热度指数报告
文本到图像合成:十年回顾
《以人为中心的大型语言模型(LLM)研究综述》
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告
理解世界还是预测未来?世界模型的综合综述
Google Cloud CSA2024 AI 与安全状况调研报告
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
国际可再生能源署 IRENA2024 年全球气候行动报告
Cell: 物理学和化学 、人工智能知识领域的融合
智次方 2025 中国 5G 产业全景图谱报告
未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇
Deepmind:AI 加速科学创新发现的黄金时代报告
PitchBookNVCA2024 年第三季度全球风险投资监测报告
德科 2024 年未来全球劳动力报告
高工咨询 2024 年协作机器人产业发展蓝皮书
国际能源署 IEA2024 年全球能源效率报告
基因慧基因行业蓝皮书 2024 - 2025
普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战
中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书
中移智库 2024 先进感知新技术及新应用白皮书
智次方研究院 2025 中国 AIoT 产业全景图谱报告
未来今日研究所:2024 技术趋势报告 - 人工智能篇
国际电联:迈向衡量数字经济的通用框架的路线图
联合国粮食与农业组织:2024 年世界粮食安全和营养状况
大语言模型综述
李飞飞等,AI 智能体:探索多模式交互的前景综述
哈尔滨工业大学 - ChatGPT 调研报告
2024《美国核部署战略报告》最新文件
清华大学:AIGC 发展研究 3.0 发布版 b 版
OpenAI:2024 年 OpenAI o1 大模型技术报告
Verizon2024 年世界支付安全报告
皇家学会哲学学报 从复杂系统角度评估人工智能风险
复旦大学 大模型 AI 代理的兴起和潜力:综述
经合组织 OECD2024 年气候行动监测报告
Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态
2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch
《全球金融稳定报告》 把舵定航 不确定性、人工智能与金融稳定
瑞士洛桑联邦理工学院 《人工智能中的 - 创造力:进展与挑战》
《你所需要知道的理 - 论:人工智能、人类认知与决策》牛津大学最新 53 页报告
世界经济论坛 新兴技术时代的网络弹性导航:应对复杂挑战的协作解决方案 2024
ADL 理特咨询 2024 汽车出行未来展望报告
2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道
科学时代的大语言模型中的人工智能
Gartner2025 年重要战略技术趋势报告
CBInsights2024 年第三季度全球人工智能投融资状况报告
TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻
天津大学 2024 大模型轻量化技术研究报告
欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版
美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告
国际原子能机构 2024 年世界聚变展望报告
复旦大学 2024 大语言模型的能力边界与发展思考报告
安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图
YouGov2024 美国公众对人工智能 AI 的态度调研报告
麦肯锡中国报告:《中国与世界》完整版
麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域
Project Sid,一个旨在模拟多智能体交互以研究 AI 文明的项目
德国研究与创新专家委员会 德国研究创新与科技成果报告
2024 年欧洲关键产业的科技重塑研究报告
智能体专题报告之二 - 智能体时代来临具身智能有望成为最佳载体
ActivateConsulting 2025 年顶级技术和媒体发展趋势报告
兰德 全球灾难风险评估
斯坦福李飞飞 《AI agent 综述》Agent AI 开启多模态交互新纪元
中国联通研究院 2024 中国生成式人工智能应用与实践展望白皮书中文版
普华永道 2024 第五次工业革命研究报告迈向弹性可持续和以人为本的未来
大成 Dentsons2024 年全球智慧城市与互联社区智库年度报告
TechUK2024 量子技术挑战与机遇并存构筑量子韧性的策略与实践研究报告
Emakina 将塑造 2024 年的技术趋势报告
图灵奖得主 Yann LeCun《机器如何才能达到人类智能水平?》——Yann LeCun, 附 Slides 及视频
华为:2024 鸿蒙生态应用开发白皮书 V3.0(最新版)
CASA:2023 第三代半导体产业发展报告
大型视觉语言模型中幻觉现象的综述
IEA PVPS:2024 光伏应用趋势报告(英文版)
ABI Research:82 个将会或不会在 2024 年发生的技术趋势白皮书
《美国反无人机系统未来趋势报告(2024 - 2029 年)》
《军事自主系统:未来之路》美空军
空间智能如何?牛津大学博士论文《深度具身智能体的空间推理与规划》
2024 低空经济场景白皮书 v1.0
战略与国际研究中心(CSIS)人类地月空间探索的总体状况研究报告(2024)
Artificial Intelligence Review:人工智能与物理学相遇的综述
麦肯锡:全球难题,应对能源转型的现实问题
欧米伽理论,智能科学视野下的万物理论新探索(研究论文)
Gartner 2025 年主要战略技术趋势研究报告
2024 人工智能国外大模型使用手册 + 中文大模型使用手册
详解光刻巨人 ASML 成功之奥妙 - 241015
CB Insights:未来变革者:2025 年九大科技趋势研究报告
国际电信联盟 2023 - 2024 年联合国人工智能 AI 活动报告
《人工智能能力的人类系统集成测试和评估》最新 51 页,美国防部首席数字和人工智能办公室(CDAO)
2024 瑞典皇家科学院诺贝尔化学奖官方成果介绍报告
MHP 2024 全球工业 4.0 晴雨表白皮书
世界经济论坛白皮书《AI 价值洞察:引导人工智能实现人类共同目标》
瑞典皇家科学院诺贝尔物理学奖科学背景报告资料
AI 智能体的崛起:整合人工智能、区块链技术与量子计算 (研究报告,书)
OpenAI o1 评估:AGI 的机遇和挑战(280 页)
世界知识产权组织:2024 年全球创新指数
美国白宫:国家近地天体防御策略与行动计划
上下滑动查看更多
来源:人工智能学家