阿里亮剑!通义DeepResearch开源,性能力压OpenAI

360影视 日韩动漫 2025-09-21 16:04 1

摘要:9月17日,阿里巴巴通义实验室在公开场合宣布,将旗下AI智能体“通义DeepResearch”全面开源。这个仅300亿参数的模型,在核心基准测试中展现出与OpenAI旗舰产品相当的性能,部分测试表现更实现超越?

9月17日,阿里巴巴通义实验室在公开场合宣布,将旗下AI智能体“通义DeepResearch”全面开源。这个仅300亿参数的模型,在核心基准测试中展现出与OpenAI旗舰产品相当的性能,部分测试表现更实现超越?

单看参数量,通义DeepResearch和OpenAI 那千亿规模的模型比起来,确实不算起眼。但在“人类最终考试(HLE)”、“BrowseComp”和“FRAMES”这三个标准测试中,它的表现相当的亮眼。尤其是在FRAMES测试中,它一举拿下90.6分,直接刷新了公开模型在该测试中的最高纪录。

参数小,性能高,这可能吗?核心在于阿里采用的是双模型设计:AgentFounder-30B负责预训练,WebSAIlor-V2-30B-A3B则则在真实与模拟环境中做强化学习。这套组合配合阿里自研的GRPO(组相对策略优化)算法,让模型在训练效率和推理能力之间取得了非常不错的平衡。

在数据处理上,阿里搭建了基于维基百科的自动化数据生成引擎,形成了稳定的训练环境。在训练过程中,模型会根据表现自动的调整数据难度。这种机制可以让模型学得更快。

这套模型已经在高德地图和法律研究系统中进行了实际的应用。在高德地图,“小高”助手已经用上了DeepResearch引擎,用户通过自然语言描述旅行需求后,系统就能自动生成多日行程。而在通义法瑞系统里,它已经能独立完成案例检索和法规交叉引用等工作,其引用质量得分是64.26,远高于OpenAI的57.56。

并且阿里选择将通义DeepResearch全栈开源,通过多个平台,他们把模型权重、训练代码、数据合成方法乃至技术报告全部开放,开发者和企业不仅能免费获取,还能根据需求定制、部署,甚至直接用于商业应用。这种做法与OpenAI的封闭模式形成鲜明对比,为全球AI生态注入了新活力。

但是这套系统也有短板。它的上下文窗口是128,000个token,相比一些新模型的扩展能力仍有差距。而且目前只在300亿参数规模上验证,未来扩展到更大规模后表现如何还需观察。

从行程规划到法律研究,从数据生成到推理策略,阿里通义DeepResearch的表现,不仅证明中国企业已能在AI核心技术领域与国际顶尖实验室正面竞争,更以开源的姿态,为全球AI发展走出了一条新路径。

来源:男科医生磊哥

相关推荐