摘要:近日,由我校信息与通信工程学院广播电视工程系史萍教授指导,2023级通信与信息系统专业硕士研究生亓泽鲁、王书琪,2024级信息与通信工程专业博士研究生张朝阳组成的学生团队,在计算机视觉国际顶级会议——国际计算机视觉与模式识别会议(CVPR)2025 NTIRE
AI生成视频质量评价赛道任务旨在基于提示词-视频对及其主观质量评价标签(MOS分),预测AI生成视频的感知质量分数。比赛结果以参赛方案预测结果与MOS分的一致性为准。比赛数据集规模达34,029个视频,涵盖14种主流视频生成模型,视频涵盖了多种失真类型,对于质量评测任务而言具较强挑战性。
我校学生团队针对AI生成视频中常见的时空失真提出了多分支编码器架构,将视觉质量分解为技术质量、运动质量、语义内容三个维度,进行全面建模。团队设计了多模态提示词工程框架,将上述三类视觉特征对齐至语言空间,同时引入语义锚点,辅助大语言模型建立三类特征的关联推理。在训练阶段,采用LoRA微调技术对大语言模型进行任务定向微调,显著提升质量预测准确性。我校团队方案为本赛道中在测试集上与MOS分一致性超过60%的两个方案之一,展示了优秀的建模能力与实际性能。相关研究成果将以论文形式由CVPR 2025 Workshop发表。
中国传媒大学信息与通信工程学院紧紧围绕国家人工智能发展战略,在视频质量评价技术领域持续开展原创性研究,探索视频理解与生成的有效评估方法,为AI生成技术的规范化发展贡献了智慧与方案。
编审|袁冶 储钰琦
来源:中国传媒大学