2501.10071v1_360影视

摘要：近年来，无参考点云质量评估（NR-PCQA）研究取得了显著进展。然而，现有的方法大多寻求直接将视觉数据映射到平均意见分数（MOS），这与实际主观评价机制相矛盾。为了解决这个问题，研究人员提出了一个基于语言驱动的PCQA新方法——CLIP-PCQA。该方法采用检

近年来，无参考点云质量评估（NR-PCQA）研究取得了显著进展。然而，现有的方法大多寻求直接将视觉数据映射到平均意见分数（MOS），这与实际主观评价机制相矛盾。为了解决这个问题，研究人员提出了一个基于语言驱动的PCQA新方法——CLIP-PCQA。该方法采用检索式映射策略，模拟人类使用离散的质量描述（如“优秀”和“差”）而不是具体分数来描述视觉质量的过程。基于CLIP哲学，该方法计算视觉特征和多个文本特征之间的余弦相似度，其中引入了有效的对比损失和可学习提示以增强特征提取。同时，考虑到主观实验中的个人限制和偏见，该方法进一步将特征相似性转换为概率，并考虑意见分布（OSD）而不是单个MOS作为最终目标。实验结果表明，CLIP-PCQA优于其他现有最佳方法。

该研究旨在开发一种基于语言驱动的点云质量评估（PCQA）方法，以模拟主观评价机制。该方法包括两个主要部分：多模态特征提取和视觉语言对齐。首先，使用预训练的CLIP模型将3D点云投影为多个视角的颜色和深度图像，并通过两个独立更新的ViT网络分别提取颜色和深度图像的视觉特征。然后，使用对比学习损失函数来增强特征提取，并引入可学习的提示来提高文本编码器的性能。最后，通过计算颜色和深度图像之间的相似度，将其转换为概率分布，从而实现视觉语言对齐。

该方法与传统的零样本预测方法不同，因为它在训练过程中使用了自适应的特征提取策略。具体来说，它不仅考虑了颜色和深度图像的视觉特征，还使用了可学习的提示来提高文本编码器的性能。此外，它还采用了对比学习损失函数来增强特征提取，并通过视觉语言对齐来更好地区分不同的样本和视角。

该方法解决了传统PCQA方法中存在的问题，即不能准确地反映人类主观评价过程中的不确定性。通过模仿人类主观评价的过程，该方法能够更准确地估计点云的质量，并且可以用于实际应用中。

本文主要介绍了CLIP-PCQA模型在点云图像质量预测任务中的表现，并进行了多组对比实验以验证其有效性。具体来说，本文使用了三个基准数据库（SJTU-PCQA、LS-PCQA和BASICS），并采用了三种常用的评价指标（PLCC、SRCC和RMSE）来衡量模型的性能。实验结果表明，CLIP-PCQA模型在三个数据库上的表现均优于其他13种SOTA方法，且具有较好的泛化能力。此外，文章还通过可视化实验进一步验证了模型的有效性，并进行了多个方面的ABlation实验，包括输入模态、提示设计和损失函数等，得出了相应结论。总之，本文对该领域的研究提供了有价值的参考。