摘要:当你给到 Deep Research 一个任务后,比如「DeepSeek 是如何崛起的」,会自动检索分析大量的网络信息,并给你带来一份相当不错的报告。
Deep Research 是一个比较高级的 Agent,在 ChatGPT 里的。
当你给到 Deep Research 一个任务后,比如「DeepSeek 是如何崛起的」,会自动检索分析大量的网络信息,并给你带来一份相当不错的报告。
需要注意的是:完成任务可能会花费 10 分钟,甚至更久。
值得玩味的是, 这个功能的背后是 o3 模型 ,不过这个模型不是原版,针对联网和数据分析相关的需求进行了微调,这使得它能更好的搜索、分析文本、图片和pdf,并能不断的反思和重试。
我个人猜测,这个功能可能是升级于最开始的 WebGPT 那套 。同时这次发布,的确很有价值:
o1 带来了深度思考
R1 则是先简单搜索,再在深度思考
Deep Research 可以配合 o3-mini 使用, 让 AI 先深度搜索,再深度思考
如此深度,如此求索...
让我们把这个功能,叫做深度求索吧!英文就是 DeepSeek。
正如 OpenAI 一贯的「高级功能有限制」, DeepSeek DeepResearch 功能也是限量使用:
Pro 用户:今日可用,每个月限 100 次
Plus/ Team/Enterprise:即将可用,每个月限制 10 次
免费用户:再等等吧...
当然,这些限制或许以后都会改。
当然,这一功能也是分地区开放的,按官方说法,以下地区暂不可用:英国、瑞士和欧洲经济区(欧盟+冰岛、挪威和列支敦士登)
顺道着... 网上找了个分类图:EU 是欧盟,EEA 是欧洲经济区
回过头来,让我们 看看 Deep Research 的实测,这应该是全网第一份的 。
例子1,给出任务目标让他执行,典型的 Good Case :
生成一份翔实的商业传记,来讲述 DeepSeek 是如何崛起的:从创立之初到如今爆火,都发生了那些事儿。
可上下滑动
仔细了看了这篇报告...质量堪称极高。
当然,里面也有一些小的错误,比如: 他认为“幻方量化”是 2010 年成立的,而实际上是在 2015年。 但总体瑕不掩瑜。
之前我自己也花两天时间,写了这个:《 DeepSeek 成长史:追光者的技术远征 | 江湖录 》,看官们也可以比较下,是哪个版本的更好。
例子2,给定目标并限定方法,这是一个典型的 Bad Case:
我告诉 Deep Research:「我是公众号「赛博禅心」的主理人,下方是1月份公众号「赛博禅心」的内容数据,请在逐篇阅读后,给我一些内容优化上的建议」
然后附带上了下面这个信息:
迎接我的,是一篇胡说八道:
我啥时候有百万阅读了...于是我回顾了一下他的流程,发现它 并没有跟随我的指令去直接访问链接,而是去搜索。
之后我又反覆试了几次, 即便要求「一定访问我的链接,一定不要搜索」,他也并不理会。 这里并不清楚为什么他一定会去搜索,但从实际经验的角度,大概率是从安全角度出发,从系统层面禁止了「用户指定页面的行为」
例子3:...容我先卖个关子,这个很有趣,我放到了最后
官方对 Deep Research,也发布了相关的参数报告:
https://openai.com/index/introducing-deep-research/
在这个报告中,除了 OpenAI 自己的“遥遥领先”,我认为其中提到的两个测试,更为有趣:
Humanity's Last Exam, HLE
General AI Assistants, GAIA
接下来,我会结合这两个测试,以及 OpenAI 的报告内容,整体的分析下 Deep Research 这个东西。
首先是 Humanity's Last Exam:这个测试包含 3000 道问题,由全球各学科专家共同开发,包含适合自动评分的多项选择题和简答题。 每个问题都有明确且容易验证的已知解,但无法通过互联网检索快速找到答案。
这里,我放两个测试的样题,看看你能不能回答出来(PS:我是废物,完全不行):
而就 在这个 HLE 测试中,Deep Research 取得了 26.6% 的准确率,一骑绝尘。
如果你对这个测试感兴趣,可以在这里查阅到更多信息:
对应的 paper 在这里:
另一个基准测试是 GAIA,用来评估 Agent 的性能,由 450 个具有明确答案的题目组成。 问题被分为 3 个等级,即 Level 1~3,其中 Level 1 是较为基础的问题,Level 3 则颇具挑战。
这是一个 Level 1 级别的问题,看看你搞定需要多久:
而这是 Level 3 级别的问题:
但无论如何 ,解开这些题目,都需要 AI 去使用多种工具,包括联网搜索 来完成。 如果你对这个测试 感兴趣,可以在这里查看 方法 :
https://openreview.net/forum?id=fibxvahvs3
在这个测试中,会发现 Open Research 取得了较为不错的成绩 ,在 pass@1 和 cons@64 的标准下,均取得了比以往更好的成绩。 这里做一个信息的补充,有关 pass@1 以及 cons@64:
pass@1:AI 在首次尝试时直接给出正确答案的概率,可以用来衡量一个 AI 是否直接可用
cons@64:这是 AI 在 生成 64 个答案后,正确答案出现在这 64 个答案中的概率,可以用来评估 AI 的覆盖率和潜力
不过嘛...我还是发现了一个华点。这个 GAIA Leaderboard 访问地址在 Hugging Face 上。这里:
可以发现,OpenAI 发布的“以往最佳”的成绩,是 h2o 做到的,记录时间为 24年12月16日。而更新的记录则是由 Trase Systems 于 1月29日(大年初一) 发布的。也就是说, OpenAI 应该在 1月29号之前就 Ready 了这个项目。哈哈~刚好和奥特曼的 Twitter 对应上了:
对于「例子3」,ahhhhhh,我希望 用 Deep Research 来「写一篇有关 OpenAI Deep Research 的报告,你的目标受众是 AI 从业者、投资人和相关研究人员」
5分钟后,获得了这么一份报告:
可上下滑动
大家可以来评一评这篇报告 :
觉得写得好,请在评论区,夸我是个大聪明;
觉得 写得烂,请在评论区,骂 OpenAI 是个大聪明
实际上,这是 Deep Research 的第 4 次输出:在前三次中,它的输出堪称「胡说八道,离题万里」:
而在第四次中,我重新修改了提示词,加上了一些背景介绍,并且重复测试了2次,才获得较为满意的结果。 这是我在第四次中,用到的提示词:「就在刚刚,OpenAI 新出了一个功能,叫做「Deep Research」,那么请你就「OpenAI Deep Research」写一篇分析报告,你的目标受众是 AI 从业者、投资人和相关研究人员」
通过上面的几个例子,发现 这次 OpenAI 的发布确实可圈可点,上限很高。但在实际的体验中,也蕴藏着一些问题,包括不仅限于 :
非常不稳定
如果任务没有被描述的非常清楚,它的理解执行可能会有比较大的偏差,就比如 OpenAI Deep Research 报告(你并无机会在中途修正)
任务一旦开始,就无法人工干预(包括提前结束)
无法读取用户提供的链接(至少不读取公众号链接)
限额过于低:即便是 Pro 用户,每个月也只有 100 次的额度
...
对于限额问题,官方也说到:“All paid users will soon get significantly higher rate limits when we release a faster, more cost-effective version of deep research powered by a smaller model that still provides high quality results.”
翻译成中文,便是: “很快,我们会推出一款更省算力的小模型,给 Deep Research 来用,那时,所有的付费用户都可以有更多的使用额度了。”
一时不知是喜是忧。
来源:东窗史谈