谷歌DeepMind新基准QuestBench:考验AI模型“填补信息漏洞”实力
近期,科技界传来一项新进展,谷歌DeepMind团队推出了一项名为QuestBench的全新基准测试,旨在评估大型语言模型(LLMs)在推理任务中识别和填补信息缺口的能力。这一创新举措针对现实世界中信息不完整的问题,为LLMs的发展提供了新的挑战与机遇。
模型 谷歌 谷歌deepmind 基准 questbench 2025-04-26 15:05 4
近期,科技界传来一项新进展,谷歌DeepMind团队推出了一项名为QuestBench的全新基准测试,旨在评估大型语言模型(LLMs)在推理任务中识别和填补信息缺口的能力。这一创新举措针对现实世界中信息不完整的问题,为LLMs的发展提供了新的挑战与机遇。
模型 谷歌 谷歌deepmind 基准 questbench 2025-04-26 15:05 4