Nature:OpenAI 的“深度研究”工具:对科学家有用吗?

360影视 2025-02-07 11:35 3

摘要:科技巨头 OpenAI 推出了一款名为“深度研究”的付费访问工具,该工具将来自数十或数百个网站的信息综合成一份长达数页的引用报告。该工具效仿了谷歌 12 月发布的类似工具,充当个人助理,在数十分钟内完成相当于数小时的工作。

OpenAI 首席执行官 Sam Altman 宣布发布其“深度研究”工具。图片来源:Franck Robichon/EPA-EFE/Shutterstock

该模型生成的长达数页的引用报告可能有助于生成文献评论。

科技巨头 OpenAI 推出了一款名为“深度研究”的付费访问工具,该工具将来自数十或数百个网站的信息综合成一份长达数页的引用报告。该工具效仿了谷歌 12 月发布的类似工具,充当个人助理,在数十分钟内完成相当于数小时的工作。

许多尝试过它的科学家对它撰写文献综述或完整评论论文甚至发现知识空白的能力印象深刻。其他人则不那么热情。“如果是人类做这件事,我会想:这需要做很多工作,”加州莫菲特菲尔德湾区环境研究所的数据科学家凯尔·卡巴萨雷斯 (Kyle Kabasares) 在在线视频评论中说。

科学家们纷纷涌向 DeepSeek:他们如何使用这一轰动一时的 AI 模型

这些公司将这些工具作为迈向能够处理复杂任务的人工智能“代理”的一步。观察人士表示,OpenAI 于 2 月 2 日发布的深度研究工具之所以引人注目,是因为它结合了o3 大型语言模型(LLM) 改进的推理能力和搜索互联网的能力。谷歌表示,其深度研究工具目前基于 Gemini 1.5 Pro,而不是其领先的推理模型 2.0 Flash Thinking。

许多用户对这两款工具印象深刻。加州旧金山初创公司 FutureHouse 的化学家兼人工智能专家 Andrew White 表示,谷歌的产品“真正利用了谷歌在搜索和计算方面的优势”,让用户快速了解某个主题,而 o3 的推理能力则为 OpenAI 的报告增添了复杂性。

康涅狄格州法明顿杰克逊实验室的免疫学家 Derya Unutmaz 可以免费使用 OpenAI 授予的 ChatGPT Pro 进行医学研究,他表示 OpenAI 的深度研究报告“非常令人印象深刻”、“值得信赖”,与已发表的评论论文一样好甚至更好。“我认为撰写评论已经过时了。”

怀特预计,这样的人工智能系统可用于更新人工撰写的评论。“权威评论不可能每 6 个月由 [人工] 更新一次。”

但许多人警告称,所有基于 LLM 的工具有时都不准确或具有误导性。OpenAI 的网站承认,其工具“尚处于早期阶段,存在局限性”:它可能会引用错误、产生幻觉、无法区分权威信息和谣言,也无法准确传达其不确定性。该公司预计,随着使用次数和时间的增加,这些问题会得到改善。谷歌的 Deep Research 有一个免责声明,上面写着“Gemini 可能会出错,因此请仔细检查”。

中国如何创造人工智能模型DeepSeek并震惊世界

德国埃尔朗根马克斯普朗克光科学研究所人工智能科学家实验室负责人马里奥·克伦指出,这些工具并不是按照科学家通常所说的方式进行“研究” 。他说,科学家们花费数年时间研究一个主题并提出新的想法。“这种能力尚未被[人工智能]证明,”克伦说,并补充道,“也许很快就会有,但现在谁也不知道。”

OpenAI 已经对其深度研究工具进行了测试。例如,它在人类的最后考试 (HLE) 中表现良好,这是一项包含 3,000 个问题的基准测试,涵盖从语言学到科学等各个领域的专家级知识,并且对于法学硕士来说,它比其他现在被人工智能超越的常见测试(如 GPQA)要难得多。OpenAI 的产品在 HLE 的纯文本问题中以 26.6% 的成绩名列榜首。

该公司还根据 GAIA 基准1测试了其系统,该基准于 2023 年开发,用于测试使用多步推理和网页浏览来回答问题的人工智能。公共 GAIA 排行榜由来自全球公司 H2O.ai 的代理领衔,该代理由旧金山公司 Anthropic 的 Claude 3.5 Sonnet 提供支持,最高级别得分为 40.82%。OpenAI 的深度研究得分为 58.03%。

谷歌表示,目前还没有关于该工具的基准测试结果可以分享。怀特表示,OpenAI 选择的基准测试依赖于具有简短、可验证答案的问题,而这些问题可能不太适合生成长答案且没有明确正确答案的工具。“我认为这些基准测试将会逐渐消失,取而代之的是功能性基准测试,”他说,例如人类对文章质量和实用性的评估。例如,怀特之前曾撰写过一篇论文,其中人类专家对从人工智能编写的和人类编写的维基百科式科学主题摘要中摘取的陈述进行盲目评分;人工智能赢了2。

类似 ChatGPT 的人工智能正在进入主流科学搜索引擎

这两款产品都有其他限制。它们都无法提取付费信息,其中包括许多科学论文。这是“一个重大问题”,支持开放科学的 Unutmaz 说。“获取这些知识比以往任何时候都重要,”他说。一些科学家在网上论坛上提议,他们应该能够将他们的期刊密码插入 AI 工具,并推测使用 OpenAI 的新“操作员”代理来做到这一点。OpenAI 的首席执行官 Sam Altman 在推特上回应道:“我们确实需要在这里想出办法。”

机构编号: https://doi.org/10.1038/d41586-025-00377-9

来源:人工智能学家

相关推荐