摘要:继 Meta Segment Anything Model (SAM) 用于图像取得成功之后,我们发布了 SAM 2,这是一种统一的模型,用于在图像和视频中实时提示对象分割,可实现最先进的性能。为了与我们的开放科学方法保持一致,我们通过宽松的 Apache 2
继 Meta Segment Anything Model (SAM) 用于图像取得成功之后,我们发布了 SAM 2,这是一种统一的模型,用于在图像和视频中实时提示对象分割,可实现最先进的性能。为了与我们的开放科学方法保持一致,我们通过宽松的 Apache 2.0 许可证共享代码和模型权重。
我们还将共享 SA-V 数据集,包括大约 51,000 个真实世界视频和超过 600,000 个掩码(时空掩码)。SAM 2 可以分割任何视频或图像中的任何对象,即使是以前从未见过的对象和视觉域,无需自定义调整即可实现各种用例。
SAM 2 有许多潜在的实际应用。例如,SAM 2 的输出可以与生成视频模型一起使用,以创建新的视频效果并解锁新的创意应用程序。SAM 2 还可以帮助更快地使用视觉数据注释工具,以构建更好的计算机视觉系统。
今天,我们宣布推出 Meta Segment Anything Model 2 (SAM 2),这是 Meta Segment Anything Model 的下一代产品,现在支持视频和图像中的对象分割。我们将在 Apache 2.0 许可下发布 SAM 2,因此任何人都可以使用它来构建自己的体验。我们还将分享 SA-V,这是我们在 CC BY 4.0 许可下用于构建 SAM 2 的数据集,并发布了基于 Web 的演示体验,每个人都可以在其中试用我们模型的一个版本。
对象分割是计算机视觉领域的一项基本任务。去年发布的 Meta Segment Anything Model (SAM) 在图像上为这项任务引入了一个基础模型。我们的最新型号 SAM 2 是首个用于在图像和视频中进行实时、可提示对象分割的统一模型,可实现视频分割体验的阶跃式改变,并在图像和视频应用中无缝使用。SAM 2 在图像分割精度方面超越了以前的能力,并实现了比现有工作更好的视频分割性能,同时需要的交互时间减少了三倍。SAM 2 还可以分割任何视频或图像中的任何对象,这意味着它可以应用于以前看不见的视觉内容,而无需自定义调整。
在 SAM 发布之前,为特定图像任务创建准确的对象分割模型需要技术专家进行高度专业化的工作,这些技术专家可以访问 AI 训练基础设施和大量经过仔细注释的域内数据。SAM 彻底改变了这一领域,通过提示技术,它使应用能够应用于各种真实世界的图像分割和开箱即用的用例,类似于大型语言模型无需自定义数据或昂贵的调整即可执行一系列任务。
自我们推出 SAM 以来的一年里,该模型在各个学科领域产生了巨大的影响。它激发了 Meta 系列应用中的全新 AI 体验,例如 Instagram 上的 Backdrop 和 Cutouts,并促进了科学、医学和许多其他行业的各种应用。许多最大的数据标注平台已将 SAM 集成为图像中对象分割标注的默认工具,从而节省了数百万小时的人工标注时间。SAM还被用于海洋科学中,用于分割声纳图像和分析珊瑚礁,用于救灾的卫星图像分析,以及在医疗领域,用于分割细胞图像和帮助检测皮肤癌。
正如马克·扎克伯格上周在一封公开信中指出的那样,开源人工智能“比任何其他现代技术都具有更大的潜力,可以提高人类的生产力、创造力和生活质量”,同时加速经济增长并推进突破性的医学和科学研究。AI 社区使用 SAM 取得的进展给我们留下了深刻的印象,我们设想 SAM 2 将解锁更多令人兴奋的可能性。
为了与我们的开放科学方法保持一致,我们正在与社区分享我们对 SAM 2 的研究,以便他们能够探索新功能和用例。我们今天分享的工件包括:
SAM 2 代码和权重,它们在宽松的 Apache 2.0 许可证下开源。我们在 BSD-3 许可下共享我们的 SAM 2 评估代码。
SA-V 数据集,与现有最大的视频分割数据集相比,其视频数量是现有最大视频分割数据集的 4.5 倍,注释数量是 53 倍。此版本包括 ~51k 真实世界视频和超过 600k 掩膜。我们在 CC BY 4.0 许可下共享 SA-V。
一个Web演示,支持对短视频进行实时交互式分割,并对模型预测应用视频效果。
作为一个统一的模型,SAM 2 可以无缝地支持图像和视频数据的用例,并扩展到以前看不见的视觉域。对于人工智能研究界和其他人来说,SAM 2可以成为更大的人工智能系统的一部分,以实现对世界的更普遍的多模态理解。在工业领域,它可以为视觉数据提供更快的注释工具,以训练下一代计算机视觉系统,例如自动驾驶汽车中使用的系统。SAM 2 的快速推理功能可以激发在实时或实时视频中选择对象并与之交互的新方法。对于内容创作者来说,SAM 2 可以在视频编辑中实现创造性应用,并为生成视频模型增加可控性。SAM 2 还可用于辅助科学和医学研究,例如,在无人机镜头中跟踪濒临灭绝的动物,或在医疗过程中定位腹腔镜摄像头中的区域。我们相信可能性是广阔的,我们很高兴能与 AI 社区分享这项技术,看看他们构建和学习什么。
SAM 能够了解图像中对象的一般概念。然而,图像只是动态现实世界的静态快照,在这个世界中,视觉部分可以表现出复杂的运动。许多重要的现实世界用例都需要在视频数据中准确分割对象,例如在混合现实、机器人、自动驾驶汽车和视频编辑中。我们认为,通用的分割模型应该适用于图像和视频。
图像可以被认为是具有单帧的非常短的视频。我们采用这种视角来开发一个统一的模型,无缝支持图像和视频输入。处理视频的唯一区别是,模型需要依靠内存来调用该视频的先前处理过的信息,以便在当前时间步长准确地分割对象。
要成功分割视频中的对象,需要了解实体在空间和时间中的位置。与图像中的分割相比,视频带来了重大的新挑战。物体运动、变形、遮挡、照明变化和其他因素可能会在帧与帧之间发生巨大变化。由于摄像机运动、模糊和分辨率较低,视频的质量通常低于图像,这增加了难度。因此,现有的视频分割模型和数据集在为视频提供可比的“分割任何东西”功能方面存在不足。在构建 SAM 2 和新的 SA-V 数据集的过程中,我们解决了许多挑战。
与用于 SAM 的方法类似,我们对启用视频分割功能的研究涉及设计新任务、模型和数据集。我们首先开发可提示的视觉分割任务,并设计一个能够执行此任务的模型(SAM 2)。我们使用 SAM 2 来帮助创建视频对象分割数据集 (SA-V),该数据集比当前存在的任何东西都大一个数量级,并使用它来训练 SAM 2 以实现最先进的性能。
可提示的视觉分割
我们设计了一个可提示的视觉分割任务,将图像分割任务推广到视频域。SAM 经过训练,将图像中的框或掩码作为输入点,以定义目标对象并预测分割掩码。使用 SAM 2,我们训练它在视频的任何帧中获取输入提示,以定义要预测的时空掩码(即“masklet”)。SAM 2 根据输入提示立即预测当前帧上的掩码,并对其进行时间传播,以在所有视频帧中生成目标对象的掩码。一旦预测了初始 masklet,就可以通过在任何帧中向 SAM 2 提供额外的提示来迭代优化它。可以根据需要多次重复此操作,直到获得所需的掩膜。
SAM 2 架构可以看作是 SAM 从图像域到视频域的泛化。SAM 2 可以通过单击(正或负)、边界框或蒙版来提示,以定义给定帧中对象的范围。轻量级掩码解码器采用当前帧的图像嵌入和编码提示以输出帧的分割掩码。在视频设置中,SAM 2 将此掩码预测传播到所有视频帧,以生成掩码。然后,可以在任何后续帧上迭代添加提示,以优化 masklet 预测。
为了准确预测所有视频帧的掩码,我们引入了一种由内存编码器、内存组和内存注意力模块组成的内存机制。当应用于图像时,内存组件是空的,模型的行为类似于 SAM。对于视频,内存组件可以存储有关该会话中对象
注明:来自META
来源:阿九看动漫