摘要:旗下统一实验室近日发布的通义深度研究代理,仅凭 300 亿参数规模就实现了能与 OpenAI 深度研究工具比肩的性能,这波操作被业内直接称为 AI 代理领域的又一个 “DeepSeek 时刻”—— 如同 DeepSeek 年初重新定义开源大模型边界,阿里的这步
中国 AI 技术的突破速度正在颠覆全球认知。继年初 DeepSeek 横空出世震撼业界后,阿里巴巴又带着新成果刷新了人们对开源 AI 代理能力的期待。
旗下统一实验室近日发布的通义深度研究代理,仅凭 300 亿参数规模就实现了能与 OpenAI 深度研究工具比肩的性能,这波操作被业内直接称为 AI 代理领域的又一个 “DeepSeek 时刻”—— 如同 DeepSeek 年初重新定义开源大模型边界,阿里的这步棋再次让全球聚焦中国 AI 的技术爆发力。
这一突破最亮眼的地方,在于它重新定义了 AI 的参数效率标准。通义深度研究代理运行时实际只激活 30 亿参数,这个体量放在 AI 模型里算得上 “轻量级”,却能在多项权威测试中跟参数规模是它 20 倍的专有模型掰手腕。
在人类最终考试(HLE)里,它拿下 32.9 分,直接超过了 OpenAI 的 o3 模型;BrowseComp 测试中 43.4 分的成绩,也紧追 o3 的 49.7 分;更厉害的是 FRAMES 基准测试,以 90.6 分的成绩坐稳了所有测试模型的头把交椅。
这样的性能表现,背后藏着一套革命性的训练方法论。统一实验室彻底抛弃了对人工标记数据的依赖,搞出了完全自动化的训练流程。
研究团队搭了个基于维基百科知识库的模拟环境,跟真实网络环境高度相似,让 AI 代理能在里面反复练习、不断优化 —— 相当于给模型建了个 “数字训练场”,无需人工干预就能持续打磨能力。
他们还开发了动态数据管理引擎,能根据模型的实时表现调整训练数据集的难度,比如模型对基础任务熟练后,自动推送更复杂的推理场景,把训练效率拉到了最高。
整个架构是两个模型互补干活:AgentFounder-30B 专门负责代理行为的预训练,打好基础能力;WebSailor-V2-30B-A3B 则通过模拟和真实环境里的强化学习来做后期增强,专攻复杂任务处理,这设计让模型既能保持轻巧,又能搞定长期复杂任务。
更关键的是,这玩意儿不是只停在实验室里的 “花瓶”,已经在多个实际场景里落地验证了商业价值。
高德地图的 AI 旅行规划器 “小高” 里就有它的身影,用户说一句 “帮我规划带柯基的周末杭州游”,它能自动听懂需求,自主搜索宠物友好型景点、筛选允许携宠入住的酒店,还会结合交通耗时和用户偏好调整行程顺序,完全不用人工二次修改。
法律领域的统一法瑞系统也用上了它,做判例法检索、法规交叉引用这些复杂活儿 —— 比如律师需要梳理 “网约车交通事故责任划分” 的相关判例,它能快速定位近五年的相似案例,还能标注出不同判决中的核心法条差异,准确性和效率都达到了初级法律从业者的水平。
有意思的是,它支持两种不一样的推理模式。ReAct 模式走 “思考 - 行动 - 观察” 的循环路子,适合标准化的研究任务,比如固定流程的市场数据汇总;重度模式则靠 IterResearch 范式,能把复杂任务拆成好几个独立回合,每个回合都重新建个专注的工作空间,比如撰写行业报告时,先拆出 “数据收集”“逻辑梳理”“结论提炼” 等环节。
逐个突破,从根上解决了长上下文处理时性能掉链子的问题。单看法律研究的专项评估,它在案例引用质量上拿了 64.26 分,远超 OpenAI 的 57.56 分和 Anthropic Claude 的 40.43 分,足见在实际业务里的硬实力。
阿里巴巴这次的操作更狠的是开源策略 —— 以 Apache 2.0 许可证把通义深度研究代理全放开了,模型权重、训练代码、相关工具全都公开。开发者和企业不管是在 HuggingFace、GitHub 还是 ModelScope 上,都能免费拿到手,改一改、部署起来用,甚至拿去做商业应用都没问题。
这其实是 2025 年中国 AI 企业的常规操作了,从 DeepSeek 开始,百度、阿里这些巨头,还有 Kimi、Manus 这些新公司,都陆续拿出了性能能打甚至超过美国顶级付费产品的开源 AI。
比如百度之前开源的文心一言代理模型,在中文场景理解上得分远超同类闭源产品;Kimi 的长文本代理则解决了学术论文解析的痛点。这些开源成果正在悄悄改写全球 AI 技术的竞争格局 —— 以往由闭源巨头主导的技术标准,现在多了中国开源力量的话语权。
统一实验室这半年来动作不断,已经推出了 WebWalker、WebSailor、WebShaper 等一系列专业化代理模型,每个都针对 AI 推理的特定环节做了优化。
比如 WebWalker 专攻网页信息提取,WebShaper 擅长数据可视化,这种模块化思路不光提高了单个任务的处理效率,也给搭更复杂的 AI 系统打下了扎实的基础,就像用标准化积木拼搭定制化设备,灵活又高效。
当然,现在它还有些技术短板。128000 个 token 的上下文窗口,跟 OpenAI GPT-5 的 256000 个 token 比起来还有差距,处理特别复杂的长期任务时可能会不够用,比如解析多卷本的学术专著或梳理跨十年的企业并购案细节。
而且这套训练方法还没在 300 亿以上参数的模型上试过,大参数规模下的训练稳定性有待验证;强化学习要进一步优化,还得解决离线策略训练中 “数据过时导致模型决策偏差” 的技术难题。
但不管怎么说,通义深度研究代理的发布标志着开源 AI 代理进入了新阶段。它证明了 AI 不一定非要靠堆参数才能出成绩,效率和性能的平衡才是关键 —— 毕竟对多数企业和开发者来说,“能用、好用、用得起” 比 “参数规模第一” 更重要。
这种发展方向不光能降低 AI 技术的使用门槛,让中小企业也能用上顶级代理能力,还能给全球 AI 生态的多元化发展添把火,避免技术标准被少数闭源企业垄断。
从 DeepSeek 到阿里的这次突破,中国 AI 正在用自己的节奏,不断刷新全球对开源智能体的期待。下一个 “现象级” 突破或许不远,而它大概率还会带着中国开源的印记。
来源:青梅旭史