摘要:大量由扩散模型生成的合成视频给信息安全和真实性带来威胁,致使对生成内容检测的需求日益增长。然而,现有的视频级检测算法主要着眼于检测面部造假,常常难以识别各种语义的扩散生成内容。为推动视频取证领域的进步,我们提出了一种创新算法——多模态检测(MM-Det),用于
《On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection》
地址:https://arxiv.org/pdf/2410.23623
大量由扩散模型生成的合成视频给信息安全和真实性带来威胁,致使对生成内容检测的需求日益增长。然而,现有的视频级检测算法主要着眼于检测面部造假,常常难以识别各种语义的扩散生成内容。为推动视频取证领域的进步,我们提出了一种创新算法——多模态检测(MM-Det),用于检测扩散生成的视频。MM-Det 借助大型多模态模型(LMMs)的深度感知和综合能力,从 LMM 的多模态空间生成多模态伪造表示(MMFR),提升检测未曾见过的伪造内容的能力。另外,MM-Det 运用帧内和帧间注意力(IAFA)机制在时空域进行特征增强。动态融合策略有助于优化伪造表示以实现融合。而且,我们构建了一个涵盖广泛伪造视频的综合性扩散视频数据集,名为扩散视频取证(DVF)。MM-Det 在 DVF 中展现出了最先进的性能,证明了我们算法的有效性。
这篇论文提出了一个名为Multi-Modal Detection (MM-Det)的创新算法来检测扩散生成的视频。具体来说,
多模态伪造表示(MMFR): 利用大型多模态模型(LMMs)从多模态空间生成多模态伪造表示(MMFR),增强检测未见伪造内容的能力。帧内和跨帧注意力机制(IAFA): 在时空域中进行特征增强,通过动态融合策略细化伪造表示。扩散视频取证(DVF)数据集: 构建了一个包含多种伪造类型和高质量生成内容的扩散视频数据集,作为真实世界场景中的基准。这篇论文提出了一种名为MM-Det的视频级检测算法,利用LMMs的多模态表示和IAFA机制有效检测扩散生成的视频。实验结果表明,MM-Det在DVF数据集上取得了最先进的检测性能,并且在不同后处理操作下表现出较强的鲁棒性。该研究为未来的多媒体取证研究提供了新的思路和方法。
来源:宁教授网络空间元宇宙