阿里亮剑！通义DeepResearch开源，性能力压OpenAI

摘要：9月17日，阿里巴巴通义实验室在公开场合宣布，将旗下AI智能体“通义DeepResearch”全面开源。这个仅300亿参数的模型，在核心基准测试中展现出与OpenAI旗舰产品相当的性能，部分测试表现更实现超越？

9月17日，阿里巴巴通义实验室在公开场合宣布，将旗下AI智能体“通义DeepResearch”全面开源。这个仅300亿参数的模型，在核心基准测试中展现出与OpenAI旗舰产品相当的性能，部分测试表现更实现超越？

单看参数量，通义DeepResearch和OpenAI 那千亿规模的模型比起来，确实不算起眼。但在“人类最终考试（HLE）”、“BrowseComp”和“FRAMES”这三个标准测试中，它的表现相当的亮眼。尤其是在FRAMES测试中，它一举拿下90.6分，直接刷新了公开模型在该测试中的最高纪录。

参数小，性能高，这可能吗？核心在于阿里采用的是双模型设计：AgentFounder-30B负责预训练，WebSAIlor-V2-30B-A3B则则在真实与模拟环境中做强化学习。这套组合配合阿里自研的GRPO（组相对策略优化）算法，让模型在训练效率和推理能力之间取得了非常不错的平衡。

在数据处理上，阿里搭建了基于维基百科的自动化数据生成引擎，形成了稳定的训练环境。在训练过程中，模型会根据表现自动的调整数据难度。这种机制可以让模型学得更快。

这套模型已经在高德地图和法律研究系统中进行了实际的应用。在高德地图，“小高”助手已经用上了DeepResearch引擎，用户通过自然语言描述旅行需求后，系统就能自动生成多日行程。而在通义法瑞系统里，它已经能独立完成案例检索和法规交叉引用等工作，其引用质量得分是64.26，远高于OpenAI的57.56。