OpenAI“深度研究”准确度再超DeepSeek 评分大幅领先

摘要：OpenAI近日宣布推出全新AI研究工具“深度研究”（Deep Research），为需要深入查询与分析的专业用户提供更精确的数据检索与分析功能。这项技术主要针对金融、科学、政策制定、工程等领域的知识工作者，并可应用于需要详细比较与评估的购物决策，例如选购汽车

OpenAI近日宣布推出全新AI研究工具“深度研究”（Deep Research），为需要深入查询与分析的专业用户提供更精确的数据检索与分析功能。这项技术主要针对金融、科学、政策制定、工程等领域的知识工作者，并可应用于需要详细比较与评估的购物决策，例如选购汽车、家电与家具等。与一般AI简短回答不同，“深度研究”专注于多来源综合分析，让用户获得更全面与可靠的结果。

OpenAI在官方博客中表示，“深度研究”功能现已对ChatGPT Pro用户开放，并设有每月100次查询限制，未来将陆续支持Plus、Team及Enterprise版本。据了解，Plus版本预计约一个月内推出，且未来付费用户的查询次数限制将显著提升。

“深度研究”目前仅能通过网页版ChatGPT使用，用户需在输入查询时选择该功能，并可附加文件或试算表进行辅助分析。根据OpenAI的说明，系统需要5至30分钟处理查询，完成后用户将收到通知。未来，OpenAI计划将此功能扩展至手机与桌面应用程序。目前“深度研究”的输出为纯文本，但OpenAI表示将加入嵌入式图片、数据可视化图表等分析结果，并预计支持更多专业数据来源，包括付费订阅服务与内部数据库。

为提升“深度研究”的准确性，OpenAI采用了特别版本的“o3”推理AI模型，该模型经过强化学习，能够利用浏览器与Python工具完成实际网络查询与数据分析，帮助AI自动筛选、解读并分析来自网络的文本、图像与PDF文件，并根据查询内容灵活调整搜索方向。模型也可浏览用户上传的文件，并通过Python工具搭建图表，让研究结果更具参考价值。

为验证“深度研究”的准确度，OpenAI通过“人类最后考试”（Humanity's Last Exam）测试该功能，该测试涵盖3000多道专业级问题。测试结果显示，“深度研究”模型提供达到26.6%的准确率，虽然数字看似不高，但已超越DeepSeek-R1的9.4%以及远超Google Gemini Thinking（6.2%）、Grok-2（3.8%）及OpenAI自己旗下的GPT-4o（3.3%）。

OpenAI仍承认AI在处理复杂研究时可能存在不确定性，部分内容可能存在误导性资讯，特别是在面对未经验证的网络数据时。“深度研究”能否成为可靠的学术与专业研究工具，仍有待观察。