OpenAI开源BrowseComp测试基准，Deep Research模型浏览器能力大突破？

摘要：在科技界的又一重大进展中，OpenAI于今日凌晨正式推出了BrowseComp，一个专为智能体浏览器功能设计的挑战性测试基准。据悉，该基准测试难度极高，即便是OpenAI自家的GPT-4o与GPT-4.5，在这项测试中的表现也不尽如人意，准确率分别仅为0.6%

在科技界的又一重大进展中，OpenAI于今日凌晨正式推出了BrowseComp，一个专为智能体浏览器功能设计的挑战性测试基准。据悉，该基准测试难度极高，即便是OpenAI自家的GPT-4o与GPT-4.5，在这项测试中的表现也不尽如人意，准确率分别仅为0.6%与0.9%，几乎可以忽略不计。即便是加入了浏览器功能的GPT-4o，其准确率也仅仅提升至1.9%。

然而，就在众人对这一测试结果感到惊讶之际，OpenAI最新发布的Agent模型——Deep Research，却以惊人的51.5%准确率脱颖而出。这一成绩不仅远超其前辈，更在自主搜索、信息整合以及准确性校准等多个方面展现出了卓越的能力。Deep Research的出色表现，无疑为智能体浏览器功能的发展树立了新的标杆。

据业内人士分析，BrowseComp测试基准的推出，不仅是对当前智能体浏览器功能的一次全面检验，更是对未来智能体发展方向的一次重要指引。Deep Research的成功，无疑为智能体在浏览器环境下的应用开辟了新的可能，预示着智能体将更加深入地融入人们的日常生活与工作之中。

对于OpenAI而言，Deep Research的出色表现无疑是对其研发实力的一次有力证明。同时，这也将进一步推动OpenAI在智能体领域的探索与创新，为人工智能技术的未来发展注入新的活力。

随着人工智能技术的不断进步，智能体浏览器功能的应用前景将更加广阔。无论是在教育、医疗、金融等传统行业，还是在智能家居、智能交通等新兴领域，智能体都将扮演着越来越重要的角色。而Deep Research的成功，无疑为这些领域的发展提供了更为强大的技术支持。

来源：ITBear科技资讯

标签：浏览器 deepresearch browsecomp测试

本文地址：https://news.43u.com.cn/a/1202974.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!