月之暗面“调教”出最强Agent,在“人类最后一场考试”拿下最新 SOTA

360影视 动漫周边 2025-06-21 17:20 2

摘要:完全异步的 rollout 系统:实现了一个具备扩展性、类 Gym 接口的全异步 rollout 系统。基于服务端架构,该系统能够高效并行协调智能体的轨迹生成、环境交互与奖励计算。相较于同步系统,这一设计通过消除资源空转时间显著提升了运行效率。回合级局部回放(

机器之心报道编辑:杨文、泽南昨天,月之暗面发了篇博客,介绍了一款名为 Kimi-Researcher 的自主 Agent。这款 Agent 擅长多轮搜索和推理,平均每项任务执行 23 个推理步骤,访问超过 200 个网址。它是基于 Kimi k 系列模型的内部版本构建,并完全通过端到端智能体强化学习进行训练,也是国内少有的基于自研模型打造的 Agent。完全异步的 rollout 系统:实现了一个具备扩展性、类 Gym 接口的全异步 rollout 系统。基于服务端架构,该系统能够高效并行协调智能体的轨迹生成、环境交互与奖励计算。相较于同步系统,这一设计通过消除资源空转时间显著提升了运行效率。回合级局部回放(Turn-level Partial Rollout):在 Agent RL 训练中,大多数任务可在早期阶段完成,但仍有一小部分任务需要大量迭代。为解决这一长尾问题,研究者设计了回合级局部回放机制。具体来说,超出时间预算的任务将被保存至 replay buffer,在后续迭代中以更新后的模型权重继续执行剩余部分。配合优化算法,该机制可实现显著的 rollout 加速(至少提升 1.5 倍)。强大的沙盒环境:研究者构建了统一的沙盒架构,在保持任务隔离性的同时,消除了容器间通信开销。基于 Kubernetes 的混合云架构实现了零停机调度与动态资源分配。Agent 与工具之间通过 MCP(Model Context Protocol)进行通信,支持有状态会话与断线重连功能。该架构支持多副本部署,确保在生产环境中具备容错能力与高可用性。智能体能力的涌现在端到端强化学习过程中,研究者观察到 Kimi–Researcher 出现了一些值得关注的能力涌现。面对多来源信息冲突时,Kimi–Researcher 能通过迭代假设修正与自我纠错机制来消除矛盾,逐步推导出一致且合理的结论。展现出谨慎与严谨的行为模式:即便面对看似简单的问题,Kimi–Researcher也会主动进行额外搜索,并交叉验证信息后再作答,体现出高度可靠性与信息安全意识。更详细的内容,可参阅原文。© THE END转载请联系本公众号获得授权原标题:《月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA》

来源:忘掉一切

相关推荐