摘要:前几天,阿里Qwen chat上线了Deep Research”(深入研究),号称能把几个小时的复杂任务压缩到几十分钟完成,免费开放给所有用户。
前几天,阿里Qwen chat上线了Deep Research”(深入研究),号称能把几个小时的复杂任务压缩到几十分钟完成,免费开放给所有用户。
对我这种经常要搜集领域信息的人来说,很有吸引力,所以,第一时间体验了两天。
打开QwenChat界面,在功能选项里就能找到深度研究入口;官方说,一个智能助理系统,综合大量在线信息来源,能规划复杂的任务。
01第一次使用时,我输入一个比较宽泛的研究主题:“请帮我分析当前AI搜索产品的竞争格局和未来趋势”。提交后,它没有马上开始搜索,而是先确认我的需求。
整个过程分三步:
一,系统马上给出3个大问题,里面又包括几个小问题。看起来它在规划报告结构,懂得先把一个大需求拆成小任务。
第二步,Deep Research开始在互联网上自动查找、筛选和整合相关信息。全程自动化,会理解内在逻辑。
最后一步,它根据阶段性产出的成果,又进行调整,仿佛更像一个兼具「学习」和「适应」能力的智能体。
大概10分钟,一份关于「当前AI搜索产品的竞争格局和未来趋势」的研究报告就生成;整体报告结构清晰、分点阐述、内容全面,还附带引用链接;虽然是AI生成,但可读性还蛮高。
不过,有优势,也有劣势。劣势是什么呢?
和其他深度研究类产品一样,现在大家都喜欢卷谁研究的报告比较长;就好像给它个主题,它能一直写,感觉在挑战系统最大化输入能力。
报告虽然长,但质量跟不上,因为字数多了,真正有用的内容反而没多少。
比如,一个一万字的报告,我看了下,可圈可点部分也就那么3000字。剩下了要么很纯理论,要么是枯燥无味的书面语,读起来费劲。
还有第三个问题,它给人一种“看似正确又不准确”的幻觉。它写的东西看起来有道理,但不知道到底准不准;能把诸多文字放在一起,读着还挺顺,但读着读着,又觉得哪里不对劲。
再提一点的话,宏观叙事,它会把很多内容写的宽泛,但又没办法深入具体细节,像在讲一个很大的故事,只是简单地勾勒了一个轮廓,但没有把情节展开讲清楚。
这两天,我一直在想,Qwen的Deep Research功能,到底适合谁用?大概适合三种人:
第一是,普通人做生活决策。
你想给孩子报个夏令营,但网上信息太多,挑花眼;Deep Research能帮你一下子找到所有机构的信息:哪家口碑好、价格怎么样、课程内容是啥,省得你自己一个个翻了。
然后是,写东西的人,尤其偏文学、哲学方向的。
这类内容不像研报,不要那么多数据支撑;Deep Research就很有用,你可以让它帮你查资料、找灵感、整理思路,写起来轻松不少。
第三类是,学生和研究者。你要做一个课题,查文献、列提纲、写综述,很费时间;可以让它帮你快速收集资料、分类整理,辅助你搭框架,整个过程快不少。
02那么,它到底是怎么做到的?它的底层逻辑是什么?
可能是这样:
先在网上搜资料,挑一挑、排个序,把真正有用信息留下来。这一步跟我们去网上查东西差不多,但它做得更快、更准。
然后,它会调用很多外部知识库,比如:维基百科、学术论文、甚至一些企业内部的数据系统,这些知识库像它背后的大脑。
而且,它也不是一次就把所有内容都搞定,会在过程中不断调整。某个方向的信息不够完整,就会再去查一遍,或者换一种思路继续分析。这个过程背后应该用到了强化学习的技术。
最后,它把复杂的分析结果整理成普通人也能看懂的语言,生成一份条理分明的报告。
要我一句话总结是:Qwen的Deep Research,是把搜索、推理、执行、反馈和表达这几件事,都串联到一起,像通用agent。
深度深度体验两天之后,我觉得它目前还不能完全替代Manus。
Manus每次新建一个任务后,执行过程中,有新的灵感,直接打断它输入进去,它就能立刻调整方向,重新搜索和检索相关信息,这种“边做边改”的能力,挺像跟人合作的感觉。
另外一点感受是,以前用Manus时,它输出内容虽然很全面,但很多时候信息量太大,反而重点不突出。
最近好像在长度控制上做了优化,也提升了内容的精准度。也就是说,它不再一味追求“写得多”,而是更注重“写得准”。
我昨天在它执行任务中,临时插了一句:
夸克Deep Research和Grok 3的Deep Research有什么区别?它立刻开始查资料,整理出两者核心差异,整个文本并不长,观点明确、结构清晰,信息也很到位,冗余很少。
从这些细节来看,国内大厂,如果能在「任务进行中灵活调整」这个方向上多下功夫,那最终生成的报告可能更贴近真实需求,也更有实用价值。
这也暴露出来一个问题:大家对深度检索 (deep research)理解不太一样,最核心的区别在于:它到底是「任务助手型」,还是「信息检索型」?
什么是任务助手型?
Manus更像能动脑的研究员,我让你怎么拆、怎么干、怎么微调、怎么改方向、怎么加问题,它都能接得住。
Qwen现在的Deep Research也有一定的任务理解和调整能力,但整体上还更像一个“能规划+整理信息”的工具。
它可以帮你查资料、列提纲、整理思路,但在任务拆解的精细度和互动深度上,没达到那种「人一样的研究流程」。
所以,有的产品说它有Deep Research功能,其实说它能搜得更深、整合得更好;而有些产品的Deep Research,真的能跟你一起“做研究”,边做边改,越改越准。
这两个差别,挺关键,也决定你到底能不能真的用它来替代一部分人工研究的工作。
03我还发现一个趋势:现在国内很多面向C端用户的模型产品,它的Deep Research功能,基本朝着Grok3的方向在走。
什么意思呢?
它们追求「信息全、输出长」,希望把一个问题相关方方面面都覆盖到,尽可能还原出一个完整的信息图景;这种思路的核心是「全面性」,不是让你只看到一角,而是尽量看到整个拼图。
我觉得这个思路挺好。
前两天我要写一篇关于胖东来的文章,想查两个数据:员工平均工资是多少?管理层又拿多少?
我用一些AI搜索工具,每家给的数据都不太一样,很抓马;但当我用夸克的Deep Research去查时,它不仅给出了答案,还把不同来源、不同时间段的数据都列了出来,甚至还标注了信源出处和计算方式。
最关键的是,它帮我过滤掉了很多明显不靠谱的信息,把大概率准确内容整理在一起,再把有争议、不确定的小概率信息也单独列出来,像给一个“鸟瞰图”,一下能看清整个问题的来龙去脉。
所以,我觉得,现在Deep Research更像一个深度检索系统,帮你筛选、整合、呈现最有价值的部分,同时也不忽略值得留意的细节。
至于真做到任务助手那一步,又是另一种类别了。
因此,关键要把二者区分好。像字节跳动的「扣子空间」、百度「心响」、360「MCP万能工具箱」、阿里的云百炼等,更像任务规划和执行的平台。
你需要一个能帮你「做事情」的AI,那应该关注这类任务助手型平台;如果只是想快速了解一个问题的来龙去脉,那Deep Research功能就足够用了。
04看到这儿,可能还有人会问另一个问题:Deep Research 和 深度思考(Deep Thinking),到底有什么区别?
这个概念,混淆不少人。
Deep Research,从字面上理解是「深度检索」。
你钥匙丢了,开始满屋子翻,这儿找找,那儿看看,还用手电筒照角落,最后总算找到了;这个过程虽然麻烦,但目标很清楚:要把关键的东西找出来。
这其实就是Deep Research的核心:深入挖掘能力。
而深度思考(Deep Thinking)呢?不太一样。你找到钥匙之后,突然想到一个问题:我怎么老丢钥匙?这时,你就进入了“深度思考”的阶段。
你可能会开始琢磨:是不是我出门太急了?是不是我应该换个带提醒功能的包?是不是该改掉这个坏习惯?你甚至还会联想到其他类似的问题:“我是不是什么东西都容易丢?”
这就是深度思考:不是单纯找东西,在找到前、后去分析原因、反思行为、提出改进方案。
简单讲,Deep Research 是找钥匙的过程;深度思考是你找到钥匙后,开始想为什么会丢、以后怎么避免,一个是「找到」,一个是「想明白」。
最早在2025年2月,OpenAI推出Deep Research后,国外大厂迅速跟进。
2月14日,Perplexity也上线了自己的Deep Research功能;几乎同时,Grok-3也集成了DeepSearch能力。
而国内当时几乎没什么动静。
直到今年上半年,字节、百度、腾讯、阿里才陆续上线深度思考相关功能,看起来像在补课。但其实,这一波关于Deep Research(深度检索)的能力,还没有完全跟上,甚至忽略了。
我觉得,在AI研究这块,国内外的差距还没完全拉平,大厂们确实还需要加把劲。
因为现在信息量越来越大,反而更容易让人困惑。很多内容由AI生成,连AI自己引用时也分不清:它到底是在引用真实资料,还是在复制另一个AI生成的内容?
我最近用腾讯元宝,点进去好多内容,根本找不到原始出处,如果你不仔细检查,可能会误以为这些信息都很可靠。
而真正的深度检索,要解决这个问题,通过深层次的挖掘能力,找到真正靠谱、有价值的内容。
Qwen在这方面又往前拱了一步。
这一步看似很小,虽不完善,却价值巨大,它比单纯发一个模型更有实际价值,因为它解决了用户真正会遇到的问题。
所以,问题来了:它会把这个能力,衍生到其他产品中吗?这一步,对它的生态又有何影响呢?我还在进一步观察。
来源:王智远一点号