questbench

谷歌DeepMind新基准QuestBench：考验AI模型“填补信息漏洞”实力

近期，科技界传来一项新进展，谷歌DeepMind团队推出了一项名为QuestBench的全新基准测试，旨在评估大型语言模型（LLMs）在推理任务中识别和填补信息缺口的能力。这一创新举措针对现实世界中信息不完整的问题，为LLMs的发展提供了新的挑战与机遇。