摘要:计算机像医生一样思考意味着什么?70多年来,这个问题一直困扰着从事临床推理人工智能(artificial intelligence, AI)研究的医生。最早关注该领域的医生并不同意这一问题的前提:人类的直觉性太强,经常依赖于对“病例的感觉”。相反,他们推出了一
计算机像医生一样思考意味着什么?70多年来,这个问题一直困扰着从事临床推理人工智能(artificial intelligence, AI)研究的医生。最早关注该领域的医生并不同意这一问题的前提:人类的直觉性太强,经常依赖于对“病例的感觉”。相反,他们推出了一种基于大规模流行病学、标准化数据收集和概率推论的“计算机化”推理方式。这些技术在20世纪70年代被Tim De Dombal重新命名为临床决策支持(clinical decision support),现已成为医学实践的日常组成部分:它们可以对肺栓塞患者进行分诊,帮助确定喉咙痛患者是否需要使用抗生素,并为患者及其医生提供有关癌症预后的重要信息。尽管这些算法很有帮助,但没有人会认为它们具备推理能力。
20世纪70年代,认知心理学开始揭开临床医生直觉的神秘面纱,将这些直觉视为经验法则,即通过专业知识磨练出来的心理“捷径”。作为回应,医生们开发了基于规则的专家系统,这些系统可以帮助选择抗生素、解读心电图,甚至做出临床诊断,且往往比人类专家做得更好。到20世纪80年代末,真正的临床推理AI似乎指日可待。但这一进展基本处于停滞状态,直至2022年底 ChatGPT公开发布。ChatGPT是众多大型语言模型(large language models, LLM)中首个具有强大交互能力,可用于访问、分析和生成信息的AI。关于这些技术的早期研究震惊了临床推理界,研究表明,这些技术能够熟练完成以前只能由人完成的任务,例如处理复杂病例、分诊急诊患者、预测诊断结果、在不确定的情况下做出复杂的管理决策,甚至直接从模拟患者那里获取病史。
近几十年来,认知心理学领域取得了巨大进步,为以上AI具有的推理能力提供了合理解释。鉴于专业知识存储在脚本和基模里并在特定临床问题下激活,我们现在将大部分临床推理理解为信息处理和检索。这种认知架构类似于LLM的标记预测架构(图)。早期的推理AI系统是自上而下的,试图模拟高阶认知过程;而LLM与之不同,它是自下而上的,由于与专家认知相似,因此能提供应急能力。
当然,这些模型与专业临床推理有许多不同之处。LLM会产生幻觉,会自信地产生错误或无意义的输出,并且其训练中包含了大量不准确、带有种族和性别偏见的信息。目前,这些模型的能力似乎只能延伸到文本信息,因为可接收图像和视频的多模态模型目前也主要依赖于文本信息。人类医生无论在电子健康记录上花费多少时间,都不仅仅是通过文本来感受世界,而是与患者建立人性化的联系。虽然大部分临床推理都来自于日积月累的经验法则,但人类临床医生经常会转向更为结构化的推理方式,采用形式逻辑、病理生理学或统计概率方法。诸如OpenAI的o1和DeepSeek的R1等所谓推理模型的出现,使这个问题变得更加复杂,因为它们运行时的思维链处理实际上是让语言模型“大声思考”来解决复杂问题,似乎使得这种更为正式的推理成为可能。
关于“生成式AI是否能够进行临床推理”这一问题,目前仍存在挑战。在这一领域测试LLM的一些结果可能是模型预训练材料的反映,并且迄今为止还没有大规模的前瞻性临床试验来调查患者结局。此外,为了研究这些模型,研究人员已经基于认知心理学和医学教育这两个传统上最有兴趣了解临床医生如何思考的领域,改编或开发了新的人类推理测量方法。但是,随着LLM的改进,这些基准已经趋于饱和;似乎没有理由怀疑这些模型最终也会征服新的基准。这是否意味着LLM可以进行临床推理?医生们在处理日常患者的照护需求时,深知人类临床推理的不完美之处,当LLM在人类推理测试中持续表现出超越人类的表现时,他们可能很快就要不得不面对这一令人不安的现实了。END
Adam Rodmana,Eric J Topolb
arodman@bidmc.harvard.edu
AR reports grant funding from the Gordon and Betty Moore Foundation and the Josiah Macy Jr. Foundation, as well as employment by Google as a visiting researcher. EJT is supported by the NIH/National Center for Advancing Translational Sciences grant UL1TR001114 and is an adviser to Tempus Labs, Pheno AI, and Abridge.
中文翻译仅供参考,所有内容以英文原文为准。
https://doi.org/10.1016/S0140-6736(25)00348-4
来源:柳叶刀TheLancet