Qwen这一步,比发大模型更有意义

360影视 国产动漫 2025-05-16 10:56 2

摘要:前几天,阿里Qwen chat上线了Deep Research”(深入研究),号称能把几个小时的复杂任务压缩到几十分钟完成,免费开放给所有用户。

前几天,阿里Qwen chat上线了Deep Research”(深入研究),号称能把几个小时的复杂任务压缩到几十分钟完成,免费开放给所有用户。

对我这种经常要搜集领域信息的人来说,很有吸引力,所以,第一时间体验了两天。

打开QwenChat界面,在功能选项里就能找到深度研究入口;官方说,一个智能助理系统,综合大量在线信息来源,能规划复杂的任务。

01

第一次使用时,我输入一个比较宽泛的研究主题:“请帮我分析当前AI搜索产品的竞争格局和未来趋势”。提交后,它没有马上开始搜索,而是先确认我的需求。

整个过程分三步:

一,系统马上给出3个大问题,里面又包括几个小问题。看起来它在规划报告结构,懂得先把一个大需求拆成小任务。

第二步,Deep Research开始在互联网上自动查找、筛选和整合相关信息。全程自动化,会理解内在逻辑。

最后一步,它根据阶段性产出的成果,又进行调整,仿佛更像一个兼具「学习」和「适应」能力的智能体。

大概10分钟,一份关于「当前AI搜索产品的竞争格局和未来趋势」的研究报告就生成;整体报告结构清晰、分点阐述、内容全面,还附带引用链接;虽然是AI生成,但可读性还蛮高。

不过,有优势,也有劣势。劣势是什么呢?

和其他深度研究类产品一样,现在大家都喜欢卷谁研究的报告比较长;就好像给它个主题,它能一直写,感觉在挑战系统最大化输入能力。

报告虽然长,但质量跟不上,因为字数多了,真正有用的内容反而没多少。

比如,一个一万字的报告,我看了下,可圈可点部分也就那么3000字。剩下了要么很纯理论,要么是枯燥无味的书面语,读起来费劲。

还有第三个问题,它给人一种“看似正确又不准确”的幻觉。它写的东西看起来有道理,但不知道到底准不准;能把诸多文字放在一起,读着还挺顺,但读着读着,又觉得哪里不对劲。

再提一点的话,宏观叙事,它会把很多内容写的宽泛,但又没办法深入具体细节,像在讲一个很大的故事,只是简单地勾勒了一个轮廓,但没有把情节展开讲清楚。

这两天,我一直在想,Qwen的Deep Research功能,到底适合谁用?大概适合三种人:

第一是,普通人做生活决策。

你想给孩子报个夏令营,但网上信息太多,挑花眼;Deep Research能帮你一下子找到所有机构的信息:哪家口碑好、价格怎么样、课程内容是啥,省得你自己一个个翻了。

然后是,写东西的人,尤其偏文学、哲学方向的。

这类内容不像研报,不要那么多数据支撑;Deep Research就很有用,你可以让它帮你查资料、找灵感、整理思路,写起来轻松不少。

第三类是,学生和研究者。你要做一个课题,查文献、列提纲、写综述,很费时间;可以让它帮你快速收集资料、分类整理,辅助你搭框架,整个过程快不少。

02

那么,它到底是怎么做到的?它的底层逻辑是什么?

可能是这样:

先在网上搜资料,挑一挑、排个序,把真正有用信息留下来。这一步跟我们去网上查东西差不多,但它做得更快、更准。

然后,它会调用很多外部知识库,比如:维基百科、学术论文、甚至一些企业内部的数据系统,这些知识库像它背后的大脑。

而且,它也不是一次就把所有内容都搞定,会在过程中不断调整。某个方向的信息不够完整,就会再去查一遍,或者换一种思路继续分析。这个过程背后应该用到了强化学习的技术。

最后,它把复杂的分析结果整理成普通人也能看懂的语言,生成一份条理分明的报告。

要我一句话总结是:Qwen的Deep Research,是把搜索、推理、执行、反馈和表达这几件事,都串联到一起,像通用agent。

深度深度体验两天之后,我觉得它目前还不能完全替代Manus。

Manus每次新建一个任务后,执行过程中,有新的灵感,直接打断它输入进去,它就能立刻调整方向,重新搜索和检索相关信息,这种“边做边改”的能力,挺像跟人合作的感觉。

另外一点感受是,以前用Manus时,它输出内容虽然很全面,但很多时候信息量太大,反而重点不突出。

最近好像在长度控制上做了优化,也提升了内容的精准度。也就是说,它不再一味追求“写得多”,而是更注重“写得准”。

我昨天在它执行任务中,临时插了一句:

夸克Deep Research和Grok 3的Deep Research有什么区别?它立刻开始查资料,整理出两者核心差异,整个文本并不长,观点明确、结构清晰,信息也很到位,冗余很少。

从这些细节来看,国内大厂,如果能在「任务进行中灵活调整」这个方向上多下功夫,那最终生成的报告可能更贴近真实需求,也更有实用价值。

这也暴露出来一个问题:大家对深度检索 (deep research)理解不太一样,最核心的区别在于:它到底是「任务助手型」,还是「信息检索型」?

什么是任务助手型?

Manus更像能动脑的研究员,我让你怎么拆、怎么干、怎么微调、怎么改方向、怎么加问题,它都能接得住。

Qwen现在的Deep Research也有一定的任务理解和调整能力,但整体上还更像一个“能规划+整理信息”的工具。

它可以帮你查资料、列提纲、整理思路,但在任务拆解的精细度和互动深度上,没达到那种「人一样的研究流程」。

所以,有的产品说它有Deep Research功能,其实说它能搜得更深、整合得更好;而有些产品的Deep Research,真的能跟你一起“做研究”,边做边改,越改越准。

这两个差别,挺关键,也决定你到底能不能真的用它来替代一部分人工研究的工作。

03

我还发现一个趋势:现在国内很多面向C端用户的模型产品,它的Deep Research功能,基本朝着Grok3的方向在走。

什么意思呢?

它们追求「信息全、输出长」,希望把一个问题相关方方面面都覆盖到,尽可能还原出一个完整的信息图景;这种思路的核心是「全面性」,不是让你只看到一角,而是尽量看到整个拼图。

我觉得这个思路挺好。

前两天我要写一篇关于胖东来的文章,想查两个数据:员工平均工资是多少?管理层又拿多少?

我用一些AI搜索工具,每家给的数据都不太一样,很抓马;但当我用夸克的Deep Research去查时,它不仅给出了答案,还把不同来源、不同时间段的数据都列了出来,甚至还标注了信源出处和计算方式。

最关键的是,它帮我过滤掉了很多明显不靠谱的信息,把大概率准确内容整理在一起,再把有争议、不确定的小概率信息也单独列出来,像给一个“鸟瞰图”,一下能看清整个问题的来龙去脉。

所以,我觉得,现在Deep Research更像一个深度检索系统,帮你筛选、整合、呈现最有价值的部分,同时也不忽略值得留意的细节。

至于真做到任务助手那一步,又是另一种类别了。

因此,关键要把二者区分好。像字节跳动的「扣子空间」、百度「心响」、360「MCP万能工具箱」、阿里的云百炼等,更像任务规划和执行的平台。

你需要一个能帮你「做事情」的AI,那应该关注这类任务助手型平台;如果只是想快速了解一个问题的来龙去脉,那Deep Research功能就足够用了。

04

看到这儿,可能还有人会问另一个问题:Deep Research 和 深度思考(Deep Thinking),到底有什么区别?

这个概念,混淆不少人。

Deep Research,从字面上理解是「深度检索」。

你钥匙丢了,开始满屋子翻,这儿找找,那儿看看,还用手电筒照角落,最后总算找到了;这个过程虽然麻烦,但目标很清楚:要把关键的东西找出来。

这其实就是Deep Research的核心:深入挖掘能力。

而深度思考(Deep Thinking)呢?不太一样。你找到钥匙之后,突然想到一个问题:我怎么老丢钥匙?这时,你就进入了“深度思考”的阶段。

你可能会开始琢磨:是不是我出门太急了?是不是我应该换个带提醒功能的包?是不是该改掉这个坏习惯?你甚至还会联想到其他类似的问题:“我是不是什么东西都容易丢?”

这就是深度思考:不是单纯找东西,在找到前、后去分析原因、反思行为、提出改进方案。

简单讲,Deep Research 是找钥匙的过程;深度思考是你找到钥匙后,开始想为什么会丢、以后怎么避免,一个是「找到」,一个是「想明白」。

最早在2025年2月,OpenAI推出Deep Research后,国外大厂迅速跟进。

2月14日,Perplexity也上线了自己的Deep Research功能;几乎同时,Grok-3也集成了DeepSearch能力。

而国内当时几乎没什么动静。

直到今年上半年,字节、百度、腾讯、阿里才陆续上线深度思考相关功能,看起来像在补课。但其实,这一波关于Deep Research(深度检索)的能力,还没有完全跟上,甚至忽略了。

我觉得,在AI研究这块,国内外的差距还没完全拉平,大厂们确实还需要加把劲。

因为现在信息量越来越大,反而更容易让人困惑。很多内容由AI生成,连AI自己引用时也分不清:它到底是在引用真实资料,还是在复制另一个AI生成的内容?

我最近用腾讯元宝,点进去好多内容,根本找不到原始出处,如果你不仔细检查,可能会误以为这些信息都很可靠。

而真正的深度检索,要解决这个问题,通过深层次的挖掘能力,找到真正靠谱、有价值的内容。

Qwen在这方面又往前拱了一步。

这一步看似很小,虽不完善,却价值巨大,它比单纯发一个模型更有实际价值,因为它解决了用户真正会遇到的问题。

所以,问题来了:它会把这个能力,衍生到其他产品中吗?这一步,对它的生态又有何影响呢?我还在进一步观察。

来源:王智远一点号

相关推荐