YOLO算法+关键点检测,助力牙周病精准诊断

360影视 国产动漫 2025-05-15 00:27 5

摘要:计算骨质流失百分比是牙周病分期的一项关键检测指标,但人工计算有时并不精确且耗时。本研究评估了深度学习关键点和对象检测模型 YOLOv8-pose在自动识别局部牙周骨质流失地标、条件和分期方面的应用。YOLOv8-pose在193张有注释的根尖周放射照片上进行了

论文题目:

Periodontal Bone Loss Analysis via Keypoint Detection With Heuristic Post-Processing

论文链接:

摘要

计算骨质流失百分比是牙周病分期的一项关键检测指标,但人工计算有时并不精确且耗时。本研究评估了深度学习关键点和对象检测模型 YOLOv8-pose在自动识别局部牙周骨质流失地标、条件和分期方面的应用。YOLOv8-pose在193张有注释的根尖周放射照片上进行了微调。我们提出了一个关键点检测指标,即相对正确关键点百分比(PRCK),该指标根据图像中牙齿的平均尺寸进行归一化处理。我们提出了一个启发式后处理模块,利用在开源辅助数据集上训练的支持实例分割模型,调整某些关键点预测,使其与相关牙齿的边缘对齐。该模型可以充分检测骨质流失关键点、牙盒和牙槽嵴吸收,但在检测牙周韧带脱落和毛面受累方面性能不足。经过后处理的模型在关键点检测方面的PRCK0.25为0.726(±0.045),PRCK0.05为0.40(±0.050),在牙齿对象检测方面的mAP 0.5为0.715(±0.296),在牙周分期方面的中轴骰分为0.593(±0.033),在毛细血管嵴受累方面的骰分为0.280(±0.098)。我们的标注方法确保图像中的每颗牙齿都有大多数关键点,从而为牙周病检测提供了一种与分期无关的方法,允许使用小型不平衡数据集。我们的 PRCK 指标可对牙科领域的关键点进行精确评估。我们的后处理模块能正确调整重新预测的关键点,但这取决于姿态检测和分割模型的最低预测质量。

引言

牙周骨质流失是指牙齿周围的牙槽骨退化和流失,主要是由于牙周疾病引起的[1]。这些疾病是影响口腔的炎症,范围从牙龈炎到牙周炎,导致软组织和硬组织的损失。牙周骨质流失是牙周健康的一个重要指标,如果不能及时发现和处理,可能会导致牙齿脱落。

传统的诊断方法依赖于物理探查和放射影像评估,通常是通过根尖周放射影像来评估骨质流失的百分比。然而,这些方法需要耗时的专家判读,并可能导致诊断的不一致性。鉴于这些局限性,将深度学习整合到基于放射学的牙周诊断中,可以提供准确、高效、经济的骨健康评估。采用这些自动化方法的挑战在于确保临床可解释性、可读性和错误识别。

在本研究中,我们研究了如何应用深度学习模型来改进牙周骨质流失的检测。我们的方法包括对193张口内根尖周炎X光片数据集进行分类和注释。该问题被表述为对象检测和关键点检测任务,能够精确识别牙科结构和临床相关地标,如牙釉质交界处(CEJ)、当前骨水平(BL)和根水平(RL)。此外,我们还旨在检测牙周疾病相关情况,如牙周韧带间隙脱落、毛囊受累和牙槽嵴吸收。这些检测到的关键点和条件与牙齿方向相结合,有助于自动计算局部骨质流失的百分比,帮助对牙周疾病进行准确分期。我们选择YOLOv8作为本文的基线模型。

我们采用YOLOv8架构作为基准模型,充分利用其在姿态估计、物体检测和实例分割方面的能力。具体来说,我们对 OLOv8-pose进行了微调,以检测关键的牙科地标和条件,并在一个单独的辅助数据集上对YOLOv8-seg进行预训练,以分割射线照片中的牙齿。然后利用预测的分割掩模进行后处理,通过将它们与牙齿外边界对齐来完善关键点的位置,从而提高关键点的准确性。我们的实验结果表明,该模型能有效识别关键的解剖地标,当初始预测显示出一定的准确性时,后处理有助于提高性能。然而,当模型生成的关键点或牙齿分割质量较差时,性能就会下降。这项研究表明了机器学习在牙科诊断中的变革潜力,为开发更方便、更高效的工具以改善患者牙周健康状况铺平了道路。

Coovally AI模型训练与应用平台

Coovally新一代AI开发平台,为研究者和产业开发者提供极简高效的AI训练与优化体验!Coovally即将支持计算机视觉全任务类型,包括目标检测、文字识别、实例分割、关键点检测、多模态3D检测、目标追踪等。

无需代码,训练结果即时可见!

在Coovally平台上,上传数据集、选择模型、启动训练无需代码操作,训练结果实时可视化,准确率、损失曲线、预测效果一目了然。无需等待,结果即训即看,助你快速验证算法性能!

大模型加持,智能辅助模型调优!

若对模型效果不满意?Coovally即将推出大模型智能调参能力,针对你的数据集与任务目标,自动推荐超参数优化方案,让模型迭代事半功倍!

千款模型+海量数据,开箱即用!

平台汇聚国内外开源社区超1000+热门模型,覆盖YOLO系列、Transformer、ResNet等主流视觉算法。同时集成丰富公开数据集,涵盖图像分类、目标检测、语义分割等场景,一键下载即可投入训练,彻底告别“找模型、配环境、改代码”的繁琐流程!

从实验到落地,全程高速零代码!

无论是学术研究还是工业级应用,Coovally均提供云端一体化服务:

✅ 免环境配置:直接调用预置框架(PyTorch、TensorFlow等);

✅ 免复杂参数调整:内置自动化训练流程,小白也能轻松上手;

✅ 高性能算力支持:分布式训练加速,快速产出可用模型;

✅ 无缝部署:训练完成的模型可直接导出,或通过API接入业务系统。

!!点击下方链接,立即体验Coovally!!

平台链接:https://www.coovally.com

无论你是算法新手还是资深工程师,Coovally以极简操作与强大生态,助你跳过技术鸿沟,专注创新与落地。访问官网,开启你的零代码AI开发之旅!

方法

数据集注释

数据集包括193张根尖周炎 X 光片,收集自193名患者,这些患者代表了不同的人口统计学特征和不同程度的牙周健康状况。数据集中共有582颗牙齿,包括386颗单根牙齿、160颗双根牙齿和34颗三根牙齿。

射线照片的收集工作由一名牙周病医师(NG)和一名放射科医师(MG)负责,两人都有至少10年的临床经验。牙周病程度的评估没有时间限制,可根据观察者的时间调整评估时间。观察者的任务是将骨质流失最严重的区域分为四类:无骨质流失、轻度骨质流失、中度骨质流失和重度骨质流失。两名观察者达成共识,为每张图像分配最终类别。

我们对收集到的射线照片进行了全面注释,分为四个步骤。其中包括为每颗牙齿标注骨水平关键点 (BLK)、识别牙齿边界框 (TBB)、标注牙槽嵴吸收关键点 (ARR),以及标注牙周韧带空间边界框 (PLS)。图1提供了注释的直观示例。

骨水平关键点 (BLK)

第一步是在牙齿的中侧(-m)和远侧(-d)标注与牙釉质交界处(CEJ)、当前骨水平(BL)和根水平(RL)相关的关键点。对于三根牙和单根牙,还包括中央根水平(RL-c),单根牙不包含RL-m或RL-d关键点。对于多根牙齿,还标注了额外的关键点,以显示毛囊的参与情况。这些关键点包括毛囊顶(FA)和毛囊骨水平中/远端(FBL-m, FBL- d),用于指示毛囊受累情况,以及毛囊骨水平健康(FBL-H)和FA,用于指示健康的毛囊区域。模型不使用FBL-h关键点,但如果在标注过程中丢失或遗漏了毛囊受累关键点,标注者可通过FBL-h关键点识别健康毛囊区域的指示。这些注释为评估骨质流失和牙周疾病的程度提供了关键信息,使任务与计算机视觉问题相一致。

牙槽嵴吸收 (ARR)

在ARR注释步骤中,重点是识别牙槽嵴吸收的区域。这包括在牙齿缺失和骨吸收开始的位置标注当前的骨水平。牙槽嵴吸收的注释以边界框的形式完成,边界框表示缺牙区域,关键点表示缺牙局部区域内牙槽嵴吸收的最低点。

牙周韧带空间 (PLS)

在这一步中,对牙周韧带间隙脱落的区域进行标注。该类别中的PLS注释表示韧带空间已从牙齿上脱离,并带有旋转边界框,可作为牙周健康受损而非健康韧带空间的指标。

牙齿边界框 (TBB)

标注过程的最后一步是在每颗牙齿周围标注旋转边界框。这些方框可作为模型检测BLK位置的参考方框,并通过识别牙齿方向来帮助计算骨质流失的百分比。

注释清理和处理

注释完成后,对数据集进行清理,为训练做准备。有些注释,如某些牙齿的ARR关键点和边界框,要么缺失,要么分类错误。此外,关键点最初也没有链接到相应的边界框。为了解决这些问题,通过测量每个关键点与每个边界框中心之间的水平距离,选择每个关键点类别的最短距离,将关键点与其边界框自动匹配。如果自动匹配失败,则进行手动调整,以正确分配关键点。

图2显示了清理后每个边框和关键点类别的实例计数。图2a显示了边界框的计数,图2b显示了关键点计数。一些关键点类别(如三重根方框、ARR方框FBL-m和FBL-d关键点)的实例计数较低,这可能会带来与模型过拟合相关的挑战。

鉴于当前姿势估计模型不支持边界框旋转指数的局限性,我们从TBB和PLS边界框中移除了旋转部分。但是,如果在实际场景中部署,还需要一种牙齿方向检测方法。

YOLOv8-pose 模型要求将所有关键点检测为可见性标识符并分配到边界框中,为了确保与该模型兼容,我们将数据格式化为五个边界框类别:“单根”、“双根”、“三根”、“ARR”和 “PLS”。每个方框类别的每个关键点都分配了一个可见度值,具体如下:可见度0(不可见,未经过训练)、可见度1(部分可见,经过训练)和可见度2(可见,经过训练)。表1显示了每个关键点的可见度分配摘要,具体取决于其所附的边框类别。

CEJ和BL关键点出现在所有三个牙齿边界框中,而 RL 关键点则根据牙齿中牙根的数量而有所不同。对于窝沟牵涉,健康的窝沟区域被认为包括与窝沟顶点(FA)关键点相同位置的FBL-m和FBL-d关键点,可见度为 1,以确保模型可以在所有实例上进行训练,无论窝沟区域是否患病。ARR关键点有自己的 ARR边界框,ARR是唯一经过训练的关键点。此外,在检测 PLS 对象时没有使用任何关键点,因为它完全基于边界框检测。

完成标注和预处理步骤后,最终的数据集由193幅图像、582个齿状边界框和总共3520个关键点组成。在处理之前,数据集包括19个FBL-m和19个FBL-d关键点,这两个关键点表明有毛囊参与。但是,在加入了健康毛面区域的 FBL 关键点后,数据集现在包含了191个FBL-m和FBL-d关键点实例。

启发式后处理

计算局部骨质流失百分比所需的大部分牙周骨质流失相关关键点必须存在于最近的牙齿边缘。这是因为骨质流失的百分比是相对于最近的牙根长度来确定的。如果姿势检测模型无法预测关键点的准确位置,特别是当预测结果脱离受影响牙齿的边缘时,我们可以对关键点进行后处理,使其重新对准牙齿边缘,从而改进关键点预测。

我们提出了一种基于启发式的后处理模块,该模块利用先前的解剖学知识和独立的预训练牙齿分割模型,该模型已在辅助牙齿识别数据集上进行过训练。分割模型确定图像中每颗牙齿的轮廓,模块调整关键点预测,使其与相关牙齿的边缘对齐。

后处理模块使用给定图像的预测分割掩码和关键点,并将每组可见关键点与最接近的分割掩码相匹配。该模块通过测量一组预测关键点中的每个关键点与分割掩膜上最近的边缘像素之间的平均欧氏距离来实现这一目的。与一组可见关键点的平均欧氏距离最小的分割掩膜就是匹配掩膜。然后,模块将可见的预测关键点坐标替换为匹配的边缘像素坐标。图3举例说明了这一过程。

关键点相对正确率指标

我们提出了一个评估指标,即 “关键点相对正确率”(Percentage of Relative Correct Key-points,PRCK),它基于用于姿态估计的“关节检测率”(Percentage of Detected Joints,PDJ)指标。PDJ遵循与NME相同的原则,即根据图像中物体的相对比例调整指标的归一化系数。如果预测的关键点与目标关键点的归一化系数在指定的阈值范围内,PDJ和PRCK就会计算数据集中正确预测关键点的百分比,这意味着指标越高,性能越好。这两个指标的计算公式相似,但PDJ的归一化因子L是给定关键点的当前边框对角线距离,而PRCK使用的是图像中所有边框的平均边框对角线距离。

PDJ可作为人类姿态检测的度量标准,因为当人类横向面对摄像机时,目标人类关键点之间的距离就会压缩,因此对于横向人类(边界框对角线较短)的错误预测关键点,度量标准的惩罚力度应大于正面人类(边界框对角线较大)的错误预测关键点。然而,这并不适用于我们的领域,因为我们可能会在同一幅图像中使用三种不同大小的牙齿,这将对单根牙齿而非多根牙齿造成不公平的惩罚。我们使用平均盒对角线距离来计算 PRCK,这样就能根据给定图像中对象的相对大小来确定度量标准,同时还能将图像中所有牙齿对象的阈值标准化。PRCK 指标用公式 (1) 表示。

其中,bool 是一个函数,条件为真时返回1,条件为假时返回 0;dthresh 是一个指定的阈值,介于0和1之间,是归一化因子的一部分。归一化系数 L 与 NME 相同。

用于牙槽骨缺损和牙齿分割的YOLOv8

受YOLO-pose在COCO数据集上进行人体姿态估计的结果的启发,我们利用YOLOv8-pose进行骨缺失关键点检测,因为问题陈述与人体姿态估计类似。我们还利用YOLOv8-seg进行实例分割,并在单独的辅助数据集上进行训练,以支持二元类牙齿分割。YOLOv8-pose和YOLOv8-seg模型是在有监督的情况下进行训练的,其输入为图像xi∈Rh×w×c,YOLOv8-pose在公式 (2) 中输出预测的边界框和关键点,YOLOv8-seg在公式 (3) 中输出预测的分割掩码,其中h×w×c分别为图像的高度、宽度和通道。

实验和结果

实验设置

评估指标

我们通过两个主要模块评估模型在数据集上的性能:姿态检测指标和局部疾病分类指标。姿态检测指标包括标准边界框指标和改进的姿态检测指标,而疾病分类指标则评估每颗牙齿近中侧和远中侧的骨流失阶段分类结果。

关键点和边界框指标

对于边界框性能评估,我们采用平均精度均值(mAP),并计算两种交并比(IoU)阈值下的结果:0.5和0.5:0.95。0.5 IoU阈值下的mAP用于评估预测边界框与真实边界框显著重叠时的检测性能,而0.5:0.95 IoU范围内的mAP则评估模型在不同检测场景下的鲁棒性。mAP值越高,表明目标检测整体性能越好。我们还使用精确率(Precision)和召回率(Recall)进行评估,其中精确率衡量正样本检测的准确性,召回率衡量检测的完整性。

关键点性能通过两个主要指标评估:归一化平均误差(NME)和我们提出的PRCK。NME通过比较预测关键点与目标关键点位置的相对距离来评估误差,其值越低表示性能越好。NME计算公式为:

其中,nn为某类别的关键点总数,yiyi为目标关键点,y^iy^i为预测关键点,LL为归一化因子(定义为图像中所有牙齿边界框对角线长度的平均值),∣yi−y^i∣2∣∣yi−y^i∣∣2为欧氏距离。PRCK在归一化因子阈值为0.5、0.25和0.05时进行评估。

疾病分类指标

为评估模型对牙周病阶段的分类能力,我们采用另一组指标,重点关注牙周病诊断所需的分类性能。

通过计算牙骨质釉质界(CEJ)、骨流失线(BL)和根尖点(RL)关键点的骨流失百分比(PBL),我们分别评估每颗牙齿近中侧和远中侧的骨流失情况。BL和RL关键点沿目标旋转边界框角度延伸为直线,PBL计算公式为:

其中,分子为CEJ与BL的欧氏距离,分母为CEJ与RL的欧氏距离。PBL值最高的牙根被选为真实值,因为临床实践中骨流失百分比以最短牙根为基准。根据PBL值,我们将疾病阶段分为四类:健康(PBL

此外,我们通过测量分叉区骨流失(FBL)关键点与分叉顶点(FA)的欧氏距离来评估分叉病变。若任一FBL关键点距离超过图像中所有边界框平均对角线长度的0.05倍,则判定为存在分叉病变。基于上述分类的混淆矩阵,我们计算精确率、召回率/灵敏度、Dice系数/F1分数和特异度。由于深度学习中真实阴性样本的不确定性,我们未纳入准确率指标,以避免数据不平衡导致的偏差。

训练过程

我们使用COCO数据集预训练的权重对YOLOv8-pose模型进行微调。初始学习率为0.001,若损失连续3轮未改善,则降低0.001。所有图像调整为640×640分辨率进行训练和评估。在划分训练集和验证集前,我们预留了18张图像作为测试集。剩余175张图像通过5折交叉验证训练5个模型,每次以140:35的比例划分训练集和验证集,以计算平均性能和标准差。测试集结果见第5节。

后处理

为实现启发式后处理,我们需定位图像中每颗独立牙齿的边缘。我们在开源全景放射影像辅助数据集上微调YOLOv8-seg模型,仅用于推断我们的根尖周放射影像数据集。该辅助数据集包含598张由刚果民主共和国15名受训医师标注的图像,患者来自巴拉圭。由于辅助数据集仅含全景影像,我们将其手动裁剪为6个子图像以模拟根尖周影像的局部特征,最终生成3,588张图像(90%训练集,10%验证集)。

后处理模块不适用于分叉区关键点(FA、FBL-m、FBL-d)和牙槽嵴吸收(ARR)关键点。原因是多根牙的重叠区域可能导致分叉区分割失败,且ARR关键点位于缺牙区,无邻近牙齿可供调整。

结果

定量结果

表2和表3分别展示了YOLOv8-pose nano模型在验证集上的边界框和关键点评估指标。表3对比了使用后处理前后的关键点性能。边界框指标包括0.5和0.5:0.95 IoU阈值下的mAP、精确率和召回率;关键点指标包括归一化因子阈值0.5、0.25和0.05下的PRCK及NME。所有指标均以5折交叉验证的平均值(标准差)呈现,并按类别和整体平均值汇总。

单根牙、双根牙及三根牙的边界框检测性能表现优异,五折交叉验证结果偏差较低。但牙槽嵴吸收(ARR)边界框的检测性能(尤其是mAP 0.5-0.95指标)显著下降,表明模型对ARR区域的精确定位存在困难,这可能源于样本量不足,但ARR检测的核心评估指标仍为关键点性能。牙周膜间隙(PLS)的检测在所有指标中均表现极差,尽管其标注实例数(142例)高于ARR(52例),这表明在当前数据规模下,模型难以区分健康与病变的牙周膜间隙。

根据PRCK 0.5和0.25指标,所有关键点类别均能较好预测目标区域,但PRCK 0.05指标显示多数关键点定位精度不足。例如,远中根尖点(RL-d)的PRCK 0.05仅为0.174,表明模型对远中牙根尖端的精确定位能力较差。分叉区(FA/FBL)和ARR关键点的性能最为稳定且优异,但由于分叉病变判定需结合疾病分类指标(表4-5),其关键点性能高并不直接反映模型对分叉病变的识别能力。

定性分析结果

通过定性观察未经后处理的模型预测结果可见,大多数关键点预测位置与其真实标记点较为接近。然而在图4a中,模型对牙周膜间隙(PLS)边界框的检测表现较差,存在假阳性与假阴性预测。此外,模型偶尔会对X光片中因信息不足而未标注的边缘牙齿进行预测,这类情况下关键点预测效果通常较差,主要由于图像信息缺失及训练样本不足。我们还观察到,当第三磨牙与第二磨牙位置相邻时,模型可能对第三磨牙邻近关键点的定位产生混淆。对于健康分叉区的关键点预测,模型倾向于将所有三个分叉关键点密集预测在根尖附近。

图4b显示,经后处理的模型预测关键点更接近真实位置。但仍存在一个反复出现的问题:关键点在牙齿垂直方向上的相对位置预测准确,但在水平方向上可能明显偏离牙齿边缘(位于牙体内部或远离边缘)。该图同时展示了模型对牙槽嵴吸收(ARR)关键点及边界框的准确检测能力,但也存在无吸收区域出现假阳性ARR关键点预测的情况。

对比观察经后处理的模型预测结果,可见关键点定位整体优于未后处理模型。图5a展示了后处理模块对异常关键点的修正效果:当模型将关键点预测在不可能的位置(如脱离牙齿边缘)时,后处理能将其调整至合理位置。但如图5b所示,当关键点初始预测或牙齿分割掩膜质量极差时,后处理模块可能失效,反而使关键点进一步偏离目标位置。图4c-d进一步显示,后处理模块虽能改善牙骨质釉质界(CEJ)和骨流失线(BL)关键点的定位,但对于根尖点(RL)可能因分割掩膜误差产生错误调整。

结论

本研究提出了一套创新的数据集标注方法,用于检测牙周病相关关键点与病变特征,旨在为临床医生提供快速、准确的诊断依据。我们同时开发了适用于牙科影像的关键点检测评估指标——相对正确关键点百分比(PRCK),该指标在"已检测关节百分比"(PDJ)基础上进行改良,通过图像中牙齿平均尺寸实现归一化处理。此外,我们还提出了一种后处理技术,可将特定关键点预测结果自动调整至对应牙齿边缘位置。

基于现成的YOLOv8-pose nano算法,我们训练了可用于牙周病诊断的关键点及边界框检测模型。实验结果表明,该方法在部分关键点类别和边界框检测中表现优异,但由于模型固有局限及某些类别样本量不足,在其他任务中仍有提升空间。未来工作计划从三个方面进行改进:1)扩大数据集样本规模;2)开发更精准的牙周病关键点检测模型;3)优化后处理技术。

来源:小码科普君

相关推荐