摘要:近日,阿里巴巴旗下统一实验室宣布开源“通义深度研究代理”(Tongyi DeepResearch Agent)。
中国AI技术的开源浪潮再次引发业界震动。
近日,阿里巴巴旗下统一实验室宣布开源“通义深度研究代理”(Tongyi DeepResearch Agent)。
它参数总量有 300 亿,可运行时只激活 30 亿参数,还在多个国际权威评测里成绩达到甚至超过 OpenAI 同类模型。
它的发布,让国产 AI 在智能体这块往前迈了一大步,也让大家重新思考AI 的效率和性能,到底咋平衡?
在技术圈,参数数量一直被当作衡量模型能力的重要指标,参数多说明模型 “脑子” 里能装的东西多,处理问题可能更厉害。
但这次,阿里另辟蹊径。
300 亿参数的模型,在如今 AI 技术大环境下,不算 “巨无霸”。
可神奇的是,仅激活 10% 左右参数。
通义深度研究代理在人类最终考试(HLE)中拿到 32.9 分,比 OpenAI 的 o3 模型还高。
BrowseComp 测试里,它得 43.4 分,和 o3 的 49.7 分相差不大。
FRAMES 基准测试中,更是以 90.6 分拔得头筹。
光看参数和规模,这些好成绩有点让人摸不着头脑。
不过,了解它的训练方法和架构逻辑后,就恍然大悟了。
统一实验室采用自动化训练方式,不用人工辛苦标注数据,搭建了一个类似维基百科知识的仿真环境,再靠动态数据管理引擎,实时调整训练难度。
训练时,模型就像在真实网络环境里 “自学成才”,自我学习、优化。
这种方法,人力成本省了不少,模型适应性和泛化能力还变强了,和传统依赖大量人工精细标注数据的训练方式截然不同。
有人可能担心,自动化训练会不会让模型质量打折扣?
但事实证明,这份担心多余了,它反倒成了模型性能稳定的关键。
阿里巴巴这次把通义深度研究代理完全开源,用的是 Apache 2.0 协议。
不管个人还是企业,都能免费下载、修改、部署这个模型,商业场景也能用。
开源内容超全面,模型权重、训练代码、数据处理工具啥都有,还同步上线到 HuggingFace、GitHub 和 ModelScope 这些平台。
开源在 AI 领域不算新鲜事,但像这样开放 300 亿参数级别,成绩还接近或超过国际领先模型的项目,那可太少见了。
Tongyi DeepResearch-30B-A3B核心参数
这一开源,AI 能力不再被少数企业捂着,更多开发者能轻松拿来用,成了大家都能掌握的基础工具。
开源也让 AI 技术更公平、更透明,开发者能基于原始模型,根据行业场景需求改进,推动 AI 和产业深度融合。
这款模型可不是 “实验室花瓶”,已经在实际场景大显身手。
高德地图的 AI 旅行助手 “小高”,背后就有通义深度研究代理助力。
用户用自然语言提出需求,它马上就能识别,接着搜索景点、筛选宠物友好型酒店,规划出完整行程。
法律研究领域,统一法瑞系统也部署了它。
它能完成判例法检索、法规交叉引用等任务,在法律案例引用准确率评测里,得分 64.26,高于 OpenAI 的 57.56 和 Anthropic Claude 的 40.43,达到初级法律从业者水平。
这些实际应用说明,模型不仅在标准测试里表现好,复杂真实场景中也能 “大展拳脚”。
当下大模型普遍有个难题,处理长文本时性能容易下滑。
通义深度研究代理的上下文窗口是 128,000 tokens,比 GPT-5 的 256,000 tokens 小。
不过,统一实验室靠双推理机制巧妙化解。
第一种 ReAct 模式,就像人做事,“思考 - 行动 - 观察” 循环往复,适合标准化研究任务。
第二种 IterResearch 范式,把复杂任务拆成多个回合,每个回合重新构建独立上下文空间,长任务里也能保持推理连贯,减少信息丢失。
这种机制关键不是扩大模型容量,是从设计层面提升推理效率,和只追求 “更大模型” 的思路大不一样。
统一实验室过去半年,不只推出这一个模型,WebWalker、WebSailor、WebShaper 等多款智能体陆续发布,每一款都针对特定推理环节优化。
这就好比工业生产里的 “模块化设计”,不同模块能灵活组装,适配多种任务。
通义深度研究代理的发布,是一次方向选择。
阿里巴巴用这个开源模型,给出一个新范式,AI 技术发展,不一定非得挤在封闭的 “独木桥” 上,一条更高效、更开放的路,或许能走得更远,让 AI 更好地为大众服务,创造更多可能。
来源:晓婷医生吖