摘要:方法基线骶髂关节(SIJ)MRI扫描数据收集自两项针对非放射学(nr-)和放射学(r-)轴向脊柱关节炎(ax-SpA)患者的前瞻性随机对照试验(RAPID-ax-SpA:NCT01087762和C-OPTIMISE:NCT02505542),并由两位专家阅片者
摘 要
目的 评估先前训练的深度学习算法在大量外部验证集中识别中轴型脊柱关节炎(ax-SpA)患者骶髂关节(SIJ)MRI炎症存在的能力。
方法基线骶髂关节(SIJ)MRI扫描数据收集自两项针对非放射学(nr-)和放射学(r-)轴向脊柱关节炎(ax-SpA)患者的前瞻性随机对照试验(RAPID-ax-SpA:NCT01087762和C-OPTIMISE:NCT02505542),并由两位专家阅片者(在意见不一致时由裁决者介入)根据2009年国际脊柱关节炎评估协会(ASAS)的定义对炎症存在进行集中评估。扫描资料由深度学习算法进行处理,处理过程对临床信息和专家集中阅片结果设盲。
结果将来自 RAPID-axSpA 研究(n =152)和 C-OPTIMISE 研究(n = 579)的患者合并,得到一个包含 731 名患者的验证集(平均年龄:34.2 岁,标准差:8.6;731 名患者中有 505 名(69.1%)为男性),其中 731 名患者中有 326 名(44.6%)患有非放射学中轴型脊柱关节炎(nr - axSpA),根据集中阅片结果,731 名患者中有 436 名(59.6%)在磁共振成像(MRI)上显示有炎症。扫描数据来自100多个临床中心的5家制造商的30多台扫描仪。将训练好的算法与人类集中阅片结果进行比较,结果显示算法的敏感性为70%(95%置信区间:66%至73%),特异性为81%(95%置信区间:78%至84%),阳性预测值为84%(95%置信区间:82%至87%),阴性预测值为64%(95%置信区间:61%至68%),Cohen's kappa值为0.49(95%置信区间:0.43至0.55),绝对一致性为74%(95%置信区间:72%至77%)。
结论在大型外部验证队列中,依据 2009 年国际脊柱关节炎评估协会(ASAS)的 MRI 定义,该算法对炎症的检测结果可接受。
关于这个话题我们已经知道了什么?
目前,中轴型脊柱关节炎(ax-SpA)的诊断存在延迟,这可能是由于缺乏准确的诊断工具,而这与患者生活质量下降以及治疗反应较差相关。
普通放射科医生和风湿病科医生对特征性磁共振成像(MRI)病变及其定义的深入了解,以及识别和评分的可靠性存在差异。因此,一种更可靠的在 MRI 上识别炎症存在的方法将具有重要价值。
这项研究补充了什么?
在此,在一个大型外部验证队列中,依据 2009 年国际脊柱关节炎评估协会(ASAS)的 MRI 定义,一种预先训练好的深度学习算法,能够以可接受的水平检测出放射学中轴型脊柱关节炎(r-ax-SpA)和非放射学中轴型脊柱关节炎(nr-ax-SpA)患者体内炎症的存在情况。
本研究对研究、实践或政策可能产生什么影响?
这种深度学习算法有可能成为一种有用的工具,协助非专家级别的放射科医生和风湿科医生早期准确诊断中轴型脊柱关节炎(ax-SpA)。
引 言
中轴型脊柱关节炎(ax-SpA)的诊断延误时间比许多其他风湿性疾病都长。一项系统性综述发现,不同研究中ax-SpA的诊断中位延误时间在0.67年至8年不等,超过四分之三的研究报告的中位延误时间在2年至6年之间,三分之一的研究报告的中位延误时间为2年至2.3年 。诸如年龄较小和无肌肉骨骼外表现等因素,与从症状出现到确诊的时间延长相关 。ax-SpA的诊断延误还与生活质量下降和治疗反应较差有关 。因此,为提高 ax-SpA患者的生活质量和治疗反应,早期诊断至关重要。
骶髂关节(SIJ)出现影像学结构性损伤(主要为侵蚀、硬化和强直)是中轴型脊柱关节炎(axSpA)的关键特征,但初诊时仅约 15% 的患者有此表现 。此外,解读骨盆 X 光片以检测骶髂关节结构性病变具有主观性,经过专业训练的阅片者与当地放射科医生、风湿科医生之间的阅片一致性仅为中等水平。
根据 2009 年国际脊柱关节炎评估协会(ASAS)的分类标准,骶髂关节(SIJ)的磁共振成像(MRI)是诊断和分类中轴型脊柱关节炎(axSpA)患者的重要工具 。在过去几十年中,MRI 能够检测到 SIJ 的炎症,表现为软骨下骨髓水肿(BME)。在通过影像学检查发现明确的结构性病变之前,MRI 就可以显示出 SIJ 的活动性炎症病变。因此,MRI 在非放射学中轴型脊柱关节炎(nr-ax-SpA)的早期诊断中起着至关重要的作用,因为在nr-ax-SpA 中,通过影像学检查无法观察到明确的结构变化。在临床研究中,患者若符合以下两种情况之一,即被归类为nr-ax-SpA:一是SIJ 的MRI显示有炎症且至少具备一项脊柱关节炎(SpA)特征;二是HLA-B27检测呈阳性且具备两项或更多SpA特征。
骶髂关节(SIJ)磁共振成像(MRI)炎症性病变的读取与正确解读,需要放射科亚专科医生或风湿科医生具备深厚的专业知识。然而,普通放射科医生和风湿科医生,以及中心阅片人员之间,对特征性 MRI 炎症性病变(包括骨髓水肿、骶髂关节滑膜炎、附着点炎或囊炎)的深入了解、其定义,以及识别与评分的可靠性,均存在差异。因此,一种更可靠、客观的利用 MRI 识别炎症存在的方法,将具有重要价值。
随着人工智能(AI)的出现,一种可能性是应用深度学习算法,该算法已成功应用于各种医疗场景,包括疾病诊断和医学图像分析。预计人工智能算法能够以更可靠、客观的方式协助普通放射科医生和风湿病医生检测活动性骶髂关节炎,尤其是在医疗资源匮乏的地区。事实上,近期研究已证明机器学习方法在借助磁共振成像(MRI)检测骶髂关节炎症方面具有潜力。
至关重要的是,医生可以将这些信息与临床、实验室及其他患者信息整合起来,以便更好地为诊断和治疗决策提供依据。然而,深度学习算法的使用也面临诸多挑战,包括结果的可解释性、用于训练模型的数据的可得性,以及研究结果在临床实践中的通用性。应用于辅助患者诊断或预后的人工智能算法必须经过严格的安全性和有效性评估。不过,最近一项关于机器学习算法在磁共振成像(MRI)上鉴别骶髂关节炎特征的性能的系统评价指出,样本量小是该领域一直存在的问题。因此,一旦开发出一种算法,就必须对其进行外部验证,以评估其在更大规模、更具代表性的队列中的通用性,并且要详细记录,以便解读性能结果。
在我们之前的研究中,利用DESIR队列(一个由具有提示中轴型脊柱关节炎的炎性背痛患者组成的起始队列)对一种深度学习算法进行了训练,以检测骶髂关节MRI扫描中炎症的存在,在一个小型外部验证队列中取得了有前景的结果。在此,我们在一个更大的外部验证队列(包括影像学确诊的中轴型脊柱关节炎(r-ax-SpA)和非影像学确诊的中轴型脊柱关节炎(nr-ax-SpA)患者)中进一步评估这种经过训练的深度学习算法的潜力,以评估其临床应用潜力。
方 法
本研究的报告遵循《2015 年诊断准确性研究报告标准》指南
数据集
基线骶髂关节 MRI 扫描数据采集自两项前瞻性随机对照试验队列中的非放射学中轴型脊柱关节炎(nr-axSpA)或放射学中轴型脊柱关节炎(r-axSpA)患者,这两项试验分别为 RAPID-axSpA(临床试验编号 NCT01087762,2010 年开始招募患者)和 C-OPTIMISE(临床试验编号 NCT02505542,2015 年开始招募患者)。
在 RAPID - axSpA 试验中,患者年龄≥18岁,患成人起病型中轴型脊柱关节炎(axSpA),符合 ASAS 分类标准,病程≥3个月,且此前使用≥1种非甾体抗炎药(NSAID)治疗失败。所有患者(包括放射学阳性中轴型脊柱关节炎(r-ax-SpA)和放射学阴性中轴型脊柱关节炎(nr-ax-SpA)患者)均有活动性疾病(BASDAI≥4 且脊柱疼痛≥4)以及炎症的客观体征(CRP水平高于正常上限或 MRI 显示活动性骶髂关节炎)。多达四分之一的患者仅基于ASAS临床分类标准入组(即他们不符合 r- axSpA 的改良纽约(modified New York, mNY)分类标准)。
在C-OPTIMISE试验中,患者年龄在18至45岁之间,患成人起病型中轴型脊柱关节炎(ax-SpA),符合ASAS分类标准,症状持续时间≥3个月且<5年,有活动性疾病(ASDAS≥2.1、BASDAI≥4 且脊柱疼痛≥4),并且对≥2 种非甾体抗炎药(NSAIDs)治疗反应不佳、存在用药禁忌或不耐受。对于未满足改良纽约(mNY)分类标准影像学标准的患者(即X线检查无结构性损伤,按定义属于非放射学中轴型脊柱关节炎(nr-ax-SpA)亚组),若要纳入研究,需满足 C 反应蛋白(CRP)高于正常上限(ULN),和/或筛查 MRI显示存在骶髂关节炎,即根据ASAS/风湿病临床试验结局指标(OMERACT)骶髂关节 MRI评分≥2,并经中心阅片确认。
图像采集与评估
在筛查时、第48周、第96周(或 C-OPTIMISE 试验中的提前退出访视),以及 RAPID-ax-SpA 试验中的第12周和第204周(或提前退出访视)进行磁共振成像(MRI)检查。MRI扫描图像由两名对扫描顺序和治疗组不知情的中心阅片人员进行集中评估,若出现分歧,则由一名裁决者依据2009年ASAS对MRI阳性的定义来判定骶髂关节(SIJ)是否存在炎症。加拿大脊柱关节炎研究联盟(SPARCC)对MRI上发现的病变评分方法,是基于短反转时间反转恢复序列(STIR)上的异常信号增强,该信号增强代表骨髓水肿(BME,定义为 T2 加权序列上骨髓信号增强,反映与骨病变相关的 “游离水” 浓度增加);骶髂关节 SPARCC总分范围为 0 到72分。据报道,以≥2个骶髂关节象限出现骨髓水肿作为SPARCC临界分数,最能反映中心阅片人员对于符合ASAS定义的MRI阳性的骨髓水肿存在情况的共识。
深度学习算法
这种深度学习算法此前已有介绍 ,它是利用从DESIR队列中提取的288名患者的MRI扫描数据进行训练的。DESIR 队列纳入了年龄在18岁以上、50岁以下,炎性背痛持续时间不少于3个月且不足3年,并且疑似患有中轴型脊柱关节炎(ax-SpA)的患者,这些患者来自法国各地的25个医疗中心。扫描图像由三位专家阅片者进行标注。在用于训练该算法的数据集中,仅纳入了三位阅片者均依据ASAS标准判定其MRI骶髂关节存在炎症,且已记录短反转时间反转恢复(STIR)序列和T1序列的患者。
简而言之,该算法包含两个步骤:首先,在每个切片中自动分割左右骶髂关节,并对是否存在炎症进行分类。其次,汇总每位患者每个骶髂关节的炎症情况。MRI 上炎症的存在定义为≥ 2 个骶髂关节出现炎症。
统计分析
通过敏感度、特异度、阳性预测值(PPV)、阴性预测值(NPV)、绝对一致性以及 Cohen's Kappa 系数,来评估深度学习算法与专家阅片者在 MRI 骶髂关节扫描二元分类(MRI 显示存在炎症与 MRI 显示无炎症)上的一致性。Cohen's Kappa 统计量依据先前发表的指南进行解读。
采用5000次迭代且无校正的加速自举法来构建95%置信区间;样本分布无偏态。据估计,380例存在炎症的MRI扫描验证样本足以测量出70%的敏感度,在此情况下,95% 概率保证95%置信区间下限大于62%。同样,据估计,260例MRI扫描阴性的验证样本足以测量出80%的特异度,在此情况下,95%概率保证95%置信区间下限大于71%。
结 果
验证设置
总体而言,来自RAPID-ax-SpA和C-OPTIMISE研究、同时具备模型预测结果和中心阅片结果的731名患者被纳入验证集(图 1)。经专家阅片判定MRI显示存在炎症的患者,与判定MR未显示炎症的患者,其基线人口统计学特征大致相似。不过,与MRI未显示炎症的患者(295 例中有110 例,占37.3%)相比,MRI显示存在炎症的患者中,非放射学中轴型脊柱关节炎(nr-ax-SpA)患者的比例更高(436例中有216例,占49.5%;表1)。总体上,约一半患者(731例中有326例,占44.6%)被归类为 nr-ax-SpA,731例中有608例(83.2%)HLA-B27 呈阳性。患者的平均年龄(标准差)为34.2(8.6)岁,731 例中有505例(69.1%)为男性,731例中有681例(93.2%)为白人。平均病程(标准差)为3.1(4.1)年,平均症状持续时间为4.8(5.6)年。
采集特征显示,扫描仪和采集设置存在较大差异。在RAPID-ax-SpA研究中,MRI扫描使用了来自5家制造商的14种型号的设备(其中80%来自西门子和通用电气医疗系统)。138次扫描使用1.5 特斯拉扫描仪,7次扫描使用3特斯拉扫描仪。两项试验中扫描层厚的中位数均为4毫米。在C-OPTIMISE 研究中,MRI扫描使用了来自5家制造商的 31种型号的设备(其中90% 来自西门子和通用电气医疗系统)。7次扫描使用1特斯拉扫描仪,980次扫描使用1.5 特斯拉扫描仪,96次扫描使用3特斯拉扫描仪。RAPID-ax-SpA 的患者来自北美、拉丁美洲和欧洲的128个研究站点,而C-OPTIMISE 的患者来自北美、欧洲和亚洲的108个研究站点。
深度学习算法的性能
总体而言,深度学习算法判定731名患者中有371名(50.8%)MRI 显示无炎症,360 名(49.2%)MRI显示有炎症;而专家阅片判定731名患者中有436名(59.6%)MRI显示有炎症(图 2)。
讨 论
在本研究中,我们先前训练的深度学习算法能够在一大组外部验证的中轴型脊柱关节炎(ax-SpA)患者中,实现对骶髂关节(SIJ)炎症存在情况的可接受检测。将该算法与中心专家的判读结果进行比较时,我们发现Cohen’s kappa值(0.49)和MCC(0.50),这两个值低于我们之前在较小队列研究中的结果,但仍表明存在中度一致性。
先前一项针对 DESIR 队列中患者的中轴型脊柱关节炎(ax-SpA)分类的评估,该评估基于骶髂关节(SIJ)的磁共振成像(MRI)和X射线检查,对比了当地专家与中心专家阅片的一致性,发现两者具有高度一致性(Cohen’s kappa 值 = 0.70)。然而,该研究并未采用脊柱关节炎国际协会(ASAS)关于MRI上炎症存在的定义,而是使用了另一种定义(若≥1个骶髂关节的炎症评分≥2分(异常),则判定为存在炎症)。在一项针对英国269名放射科医生的研究中,分别仅有31%和25%的放射科医生知晓骶髂关节和脊柱MRI上炎症存在的定义,而且MRI检查方案差异很大,这表明在临床实践中,专科放射科医生或风湿病科医生的专业优势可能有限。
此次研究中的一致性低于先前在脊柱关节炎国际协会(ASAS)分类队列(Cohen’s kappa值为 0.74)和 DESIR 队列(Cohen’s kappa值为 0.73)中专家阅片者之间的一致性 。然而,我们的深度学习算法的敏感性和特异性(分别为0.70和0.81),与其他针对检测中轴型脊柱关节炎(ax-SpA)的深度学习算法的外部队列验证研究结果相当。这些先前针对ax-SpA的深度学习算法验证研究发现,在检测骶髂关节(SIJ)磁共振成像(MRI)中的骨髓水肿(BME)方面表现良好,尽管这些研究未专门纳入放射学阴性中轴型脊柱关节炎(nr - axSpA)患者,或在所评估的队列中未区分放射学阳性中轴型脊柱关节炎(r - ax-SpA)和 nr-axSpA。一项关于机器学习算法在鉴别MRI上骶髂关节炎特征表现的系统评价发现,敏感性范围为0.56~1.00,特异性范围为0.67~1.00,这与同一队列中放射科医生0.67~ 1.00的敏感性和0.78 ~1.00 的特异性相当。
我们的研究首次在一个由700多名患者组成的外部验证队列中,测试一种预先训练好的算法,该算法用于自动检测骶髂关节(SIJ)磁共振成像(MRI)中指示中轴型脊柱关节炎(ax-SpA)的炎性病变。本研究的样本采集具有广泛的特点,涵盖了来自北美、南美、亚洲和欧洲100多个地点的放射学阳性中轴型脊柱关节炎(r-axSpA)和放射学阴性中轴型脊柱关节炎(nr-axSpA)患者。SIJ的MRI扫描是通过5个制造商生产的30多种不同型号的扫描仪完成的。本研究样本量更大,样本采集特点也比其他MRI验证研究更为广泛,而那些研究同样发现深度学习算法在axSpA诊断中的应用前景可观。
在本研究中,深度学习算法的结果与多达三名专家阅片者的集中判读结果进行了对比。尽管与我们自身的外部金标准相比,该算法对MRI上炎症的判读存在漏报情况,但必须考虑到,用于定义MRI上炎症的标准(≥2个骶髂关节存在炎症)较为保守,而且本研究中用于提供金标准的专家阅片者在判定炎症是否存在时,可能使用了其他背景信息或临床信息(例如,C反应蛋白水平或HLA-B27阳性)。事实上,在先前一项开发用于检测短时间反转恢复序列(STIR)MRI上活动性炎性骶髂关节炎的深度学习算法的研究中,该算法的敏感性和特异性与放射科医生的判读相当,但优于风湿科医生的判读,这进一步支持了在可能缺乏专家阅片者的情况下机器学习算法的潜在应用价值。此外,本研究中的漏报情况可能是由于训练集(DESIR队列)与评估集(RAPID-ax-SpA和C-OPTIMISE队列)之间炎症存在情况的分布不同所致,后者的阳性样本更多。这凸显了未来研究有必要对该算法进行验证,并根据实际数据对其进行优化。
本研究存在一些局限性。其一,在临床试验背景下由专家采集和标注的图像,可能无法代表临床实践中的图像。本研究中的患者均已确诊为中轴型脊柱关节炎(ax-SpA),平均(标准差)病程为3.1(4.1)年,平均(标准差)症状持续时间为4.8(5.6)年,且均在临床试验环境中开始接受新的治疗。而在临床实践中,若患者正接受用于诊断的核磁共振成像(MRI)检查,此时他们尚未确诊,因此本研究纳入的患者可能代表病情更严重的情况。此外,本研究未评估该算法在非中轴型脊柱关节炎患者队列中自动检测炎性病变的性能,也没有足够的统计效力来分析放射学阳性中轴型脊柱关节炎(r-axSpA)患者与放射学阴性中轴型脊柱关节炎(nr-axSpA)患者之间的性能差异。
此外,磁共振成像(MRI)上识别骶髂关节(SIJ)的标准在不断更新,然而解读结果仍存在显著差异。自本研究开始以来,脊柱关节炎国际协会(ASAS)的分类标准已得到更新和完善;为降低假阳性结果的可能性,需要依据更新后的标准对我们的算法进行训练和评估。本研究用于定义MRI活动性病变的基础 ——2009年ASAS分类MRI阳性标准,也存在局限性。据报道,高达40%的健康个体以及患有非特异性背部疾病的人群中,会出现假阳性的骨髓水肿(BME)病变。此后,新的、更为严格的临界值被提出,其中既包括 MRI 炎性病变,也涵盖结构性病变。因此,在未来的研究中,利用这一最新定义对我们的算法进行优化或许会有所裨益。在临床实践中,放射科医生和风湿科医生在诊断中轴型脊柱关节炎(ax-SpA)时,会同时考虑炎症和结构损伤情况。尽管我们的算法并未在结构损伤这一更广泛的背景下考量炎症,但MRI显示骶髂关节存在炎症是ASAS对ax-SpA 分类标准的重要组成部分,而我们的算法可用于辅助检测这一炎症。
最后,我们没有针对可能需要不同诊断技术的情况对模型进行评估,比如剧烈运动后或产后出现的骨髓水肿(BME)情况。有必要进一步研究该算法在不同亚组中的表现,例如,对比男性和女性、不同年龄组、不同种族以及不同扫描仪设置下的情况,以便更好地了解潜在的偏差。
尽管如此,在本研究中,我们先前训练的深度学习算法在将人工智能应用于检测骶髂关节(SIJ)磁共振成像(MRI)中的骨髓水肿(BME)病变方面展现出了有前景的结果,并且在一个大型验证集中具有良好的通用性。因此,这种深度学习算法有可能成为一种有用的工具,帮助早期准确诊断中轴型脊柱关节炎(ax-SpA),特别是对非专家级的放射科医生和风湿科医生而言。然而,为了使该模型能够在临床实践中应用,未来的外部验证研究应前瞻性地检验这种人工智能算法的性能,采用最新的脊柱关节炎国际协会(ASAS)标准,并纳入结构性病变的考量,以提高对ax-SpA患者诊断结果的特异性。还应对更大规模的未确诊患者临床队列进行进一步评估,并评估该人工智能算法区分由ax-SpA相关炎症导致的BME病变与机械性诱发的BME病变的能力。我们认为,本研究呈现的结果是朝着更好地理解自动化算法辅助临床医生诊断ax-SpA能力迈出的重要一步。
来源:小鱼医生健康之道