摘要:这篇论文介绍了一种名为DiffuEraser的视频修复模型,该模型基于稳定的扩散过程,旨在填充被遮挡区域并提供更详细和连贯的结构。作者将先验信息用于初始化和弱条件,以减轻噪声和抑制幻觉,并通过扩展先验模型和DiffuEraser的时间感受野以及利用视频扩散模型
这篇论文介绍了一种名为DiffuEraser的视频修复模型,该模型基于稳定的扩散过程,旨在填充被遮挡区域并提供更详细和连贯的结构。作者将先验信息用于初始化和弱条件,以减轻噪声和抑制幻觉,并通过扩展先验模型和DiffuEraser的时间感受野以及利用视频扩散模型的时空平滑性质进一步增强一致性。实验结果表明,该方法在内容完整性和时序一致性方面优于现有技术,并且具有可接受的效率。
该研究提出了一个名为DiffuEraser的视频修复模型,它结合了图像填充技术和稳定的扩散模型。该模型主要由两个组件组成:基于DDIM的图像填充模块BrushNet和用于稳定扩散的网络结构。在输入视频中,该模型通过传播已知像素、生成未知像素以及维护已完成内容的时间一致性来实现视频修复。
为了解决视频修复中的问题,研究人员引入了以下改进:
利用DDIM逆向技术,在BrushNet输出的基础上进行逆向处理,并将其添加到噪点图像中,以提高噪点图像的质量。选择Propainter作为先验模型,可以更好地完成已有像素的传播,并有助于初始化DiffuEraser,从而生成更有意义且稳定的修复结果。在长序列推理过程中,通过预推断和扩展现有时间窗口来优化时空连续性,确保跨多个剪辑之间的无缝过渡噪音图像质量低,导致修复后的图像不清晰或存在大量噪点。先验模型的选择可能会影响最终的结果,但正确的选择可以显著提高修复效果。长序列推理时,由于信息共享受限,可能导致剪辑之间出现明显的差异,而优化后的时间窗口扩展可以有效缓解这个问题。本文主要介绍了使用Panda-70M数据集进行的视频插帧任务中的实验结果和比较分析。具体来说,本文进行了以下两个方面的实验:
算法性能比较实验:将本模型与Propainter进行比较,评估了它们在纹理质量和时间一致性方面的表现。该实验使用的评估指标为PSNR和SSIM,结果显示本模型在两者方面均优于Propainter。
模型效率比较实验:通过比较处理相同长度视频所需的时间,评估了本模型相对于其他方法的效率。该实验使用的评估指标为处理速度,结果显示本模型比其他方法更快。
总之,本文的实验结果表明,本模型在视频插帧任务中具有更好的性能和更高的效率。
来源:宁教授网络空间元宇宙