摘要:纽约的科恩儿童医疗中心的研究人员最近将来自《美国医学会杂志·儿科学》和《新英格兰医学杂志》的 100 份儿科病例报告输入到ChatGPT 3.5中,以确定它在生成鉴别诊断列表和最终诊断方面的准确性。与医生的诊断相比,聊天机器人错误率为 83%。他们的最终报告得
许多临床医生看到人工智能算法产生的错误和虚假信息,就决定忽略所有的这些数字工具,认为它们对诊断没有任何帮助。从公开的证据来看,这种观点有道理吗?
纽约的科恩儿童医疗中心的研究人员最近将来自《美国医学会杂志·儿科学》和《新英格兰医学杂志》的 100 份儿科病例报告输入到ChatGPT 3.5中,以确定它在生成鉴别诊断列表和最终诊断方面的准确性。与医生的诊断相比,聊天机器人错误率为 83%。他们的最终报告得出结论:“聊天机器人生成的大多数错误诊断(83 个中的 47 个,约56.7%)与正确的诊断属于同一器官系统(例如,银屑病和脂溢性皮炎),但不够具体,因此不能被视为是正确的。
同样,对来自 Medscape 的 150 个医疗病例的分析发现,ChatGPT 并不是一个准确的诊断工具。虽然大约一半的病例它都给出了正确回答,但曲线下面积(AUC)仅为 66%。报告总结道:“根据我们的定性分析,ChatGPT 在解释实验室数值、成像结果方面存在困难,可能会忽略与诊断相关的关键信息。”
《新英格兰医学杂志》最近的一项研究也评估了几种大语言模型的潜在价值,看它们是否可用于临床编码自动化。他们研究了 GPT-3.5、GPT-4、Gemini Pro 和 Llama2-70b 的性能,发现所有被测试的模型在医学代码查询方面的表现都很差,经常生成不精确或捏造的代码。
那么在这种情况之下,临床医生应该如何看待人工智能算法呢?上述研究只说明了问题的一半。
支持使用人工智能算法的最有力证据来自美国胃肠病学会。就人工智能在结肠息肉诊断和管理中的作用,该学会发布了一篇临床实践研究,其中提到,人工智能已成功应用于使用 CADe(计算机辅助检测)识别结肠息肉。这些算法相当于一双训练有素的眼睛,与内镜医师一起协同扫描显示器,同时“标记”可能代表癌前息肉的病变。
还有强有力的证据支持使用人工智能算法可辅助检测黑色素瘤。有几项早期研究证明了人工智能算法的价值,但由于这些研究都是回溯性设计,行业专家们理所当然地质疑它们是否能用于临床实践。但最近有一项前瞻性多中心研究,德国研究人员使用了一个检测黑色素瘤的开源集合模型,并将模型与皮肤科医生的诊断准确性进行了比较。他们使用了来自八家不同医院的测试数据集,最终发现,该算法的灵敏度高于医生,换句话说,该模型能更好地检测出真正患有黑色素瘤的患者,即真正的阳性率,而不是实际上没有患病却被标记为可能患病(数据是94%对73%)。
一支国际研究团队最近研究了两种深度学习算法对于低资源社区中糖尿病自我管理、以及糖尿病视网膜病变筛查转诊的影响。在一项真实世界的前瞻性实验中,他们将该算法为临床医生提供个性化糖尿病护理建议的能力,与未经辅助的基层医生的表现进行了比较。经过两周,该算法明显产生了影响:患者摄入的精制谷物减少,锻炼增多。到第四周,他们摄入的新鲜水果增多,淀粉类蔬菜减少,血糖监测次数增加,抗糖尿病药物的服用频率也提高了。
为了揭示正面研究和负面研究之间的差异,波士顿贝斯以色列医学中心亚当·罗德曼(Adam Rodman)博士和他的同事们进行了一项独特的研究——
他们要求 50 名医生在使用常规诊断资源的基础上使用大模型(ChatGPT Plus,GPT-4),或者仅使用常规诊断资源,然后来评判二者的诊断准确性。研究人员发现,两组之间没有明显差异(76% vs 74%,大模型 vs 传统诊断)。
之后他们在实验中增加了第三组,即让大模型独立诊断。结果发现,大模型的得分比传统诊断的医生高出16%。
这让研究人员感到困惑:为什么算法独立运行就能得出比医生更准确的诊断?
罗德曼博士仔细观察了参与实验的医生与 ChatGPT 之间的对话,他发现,当聊天机器人的建议与医生的诊断推理不一致时,许多医生并不相信聊天机器人的建议值得考虑。“当人工智能告诉医生们一些不同意见时,他们并没有听从人工智能的意见。”
该研究的另一位作者,乔纳森·陈(Jonathan Chen)博士也指出,许多医生并不知道如何充分利用聊天机器人的功能,他们把它当作一个搜索引擎来处理特定问题,譬如“肝硬化是癌症的风险因素吗?”“眼痛可能的诊断是什么?”…… 只有一小部分医生意识到,他们可以直接将整个病例复制粘贴到聊天机器人中,并要求它给出对整个问题的全面回答……只有一小部分医生真正看到,聊天机器人能够提供智能而又全面的答案。
显然,2025 年生成式人工智能需要继续提升质量才能值得信赖,与此同时,也许要人类在一旁协同,接受好的建议,摒弃不好的建议。
来源:大健康派