摘要:本月初,OpenAI 发布了新一代旗舰模型 GPT-5,并表示其能够自己决定何时需要深入思考。一些研究开始探索 GPT-5 在科学领域的潜力。
编辑丨coisini
大型语言模型(LLM)已经日益发展成通用系统,无需大量微调即可执行领域特定推理。
本月初,OpenAI 发布了新一代旗舰模型 GPT-5,并表示其能够自己决定何时需要深入思考。一些研究开始探索 GPT-5 在科学领域的潜力。
在医疗领域,决策过程往往需要整合异构信息源,包括患者主诉、结构化数据和医学影像等。来自埃默里大学的研究团队将 GPT-5 定位为医疗决策支持领域的通用多模态推理系统,在统一评估框架下系统性地评估了其在文本问答和视觉问答任务中的零样本思维链推理性能。
论文地址:
评估与结果
研究团队在 MedQA、MedXpertQA(文本与多模态)、MMLU 医学子集、USMLE 自我评估以及 VQA-RAD 的标准数据集上对 GPT-5、GPT-5-mini、GPT-5-nano 和 GPT-4o-2024-11-20 进行了基准测试。
文本问答
在 MedQA 基准测试中,GPT-5 的准确率达到 95.84%,较 GPT-4o 绝对提升 4.80%,表明 GPT-5 在临床问题情境中具有更强的事实召回与诊断推理能力。
更显著的提升出现在 MedXpertQA 文本子集,GPT-5 的推理准确率较 GPT-4o 提高 26.33%,理解准确率提升 25.30%,表明 GPT-5 在多步推理和医学叙述理解方面取得了实质性增强。
USMLE 自我评估
在美国医师执照考试 (USMLE) 自我评估中,GPT-5 在三个考试阶段均超越所有基线模型,其中在 Step 2(临床决策与管理)阶段优势最为显著(+4.17%)。这一结果与 GPT-5 改进的思维链推理能力高度契合。
三阶段平均得分达到 95.22%(较 GPT-4o 提升 2.88%),远超人类通过考试常规阈值,表明 GPT-5 已具备应对高风险临床推理任务的成熟能力。
视觉问答
在多模态推理任务中,GPT-5 在 MedXpertQA 多模态子集上实现飞跃性突破:推理和理解准确率分别较 GPT-4o 提升 29.26% 和 26.18%,表明其视觉与文本线索的整合能力得到显著增强。
在 MedXpertQA 多模态基准的典型案例中,GPT-5 展现出以临床逻辑整合多模态信息的能力:GPT-5 根据 CT 影像表现、实验室数值及反复呕吐后的关键体征,准确地将食管穿孔列为最可能诊断;随后推荐泛影葡胺吞咽检查作为下一步诊疗措施,同时明确排除其他选项并逐一论证。
这一案例体现出 GPT-5 能够整合视觉证据与复杂叙述语境、保持结构化诊断推理链,最终做出符合专家共识的高风险临床决策。
对比人类专家
如下表所示,研究团队将模型与预执业人类专家进行了对比,GPT-4o 在多数维度上低于人类专家水平,在文本与多模态场景中,推理和理解准确率较人类专家低 5.03%-15.90%;而 GPT-5 不仅弥合了这一差距,还以显著优势超越了人类专家:文本推理(+15.22%)、文本理解(+9.40%)、多模态推理(+24.23%)、多模态理解(+29.40%)。
值得注意的是,GPT-5 在多模态场景中领先优势尤为突出,其表现甚至超越经验丰富的临床医生在限时测试条件下的水平。
总的来说,这项研究凸显出 GPT-5 在真实世界临床决策支持中潜力巨大。不过,需要强调的是,现有基准测试反映的是理想化评估环境,可能无法完全捕捉真实医疗实践的多样性、不确定性及伦理考量。
感兴趣的读者可以阅读论文原文,了解更多研究内容。
来源:健康之路呀