Meta发布“分割一切”AI 模型

admin2023-04-08 00:00:04186

今年毫无疑问是AI的超级大年，Ai领域的每一次重大技术突破都会带动核心品种的主升行情，相关品种数不胜数。近日，AI模型又出现了一个新的重大突破：Meta最新发布的”分割一切“

Meta 在论文中发布的新模型名叫 Segment Anything Model (SAM) 。他们在博客中介绍说，「SAM 已经学会了关于物体的一般概念，并且它可以为任何图像或视频中的任何物体生成 mask，甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用，可以涵盖广泛的用例，并且可以在新的图像『领域』上即开即用，无需额外的训练。」在深度学习领域，这种能力通常被称为零样本迁移，这也是 GPT-4 震惊世人的一大原因。
d86一流镖客

论文地址：https://arxiv.org/abs/2304.02643
d86一流镖客

项目地址：https://github.com/facebookresearch/segment-anythingd86一流镖客

Demo 地址：https://segment-anything.com/d86一流镖客

除了模型，Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion (SA-1B)，据称这是有史以来最大的分割数据集。该数据集可用于研究目的，并且 Segment Anything Model 在开放许可 (Apache 2.0) 下可用。d86一流镖客

我们先来看看效果。如下面动图所示，SAM 能很好的自动分割图像中的所有内容：d86一流镖客

d86一流镖客

SAM 还能根据提示词进行图像分割。例如输入 Cat 这个提示词，SAM 会在照片中的几只猫周围绘制框并实现分割：
d86一流镖客

d86一流镖客

SAM 还能用交互式点和框的方式进行提示：
d86一流镖客

d86一流镖客

此外，SAM 还能为不明确的提示生成多个有效掩码：
d86一流镖客

d86一流镖客

英伟达人工智能科学家 Jim Fan 表示：「对于 Meta 的这项研究，我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念，即使对于未知对象、不熟悉的场景（例如水下图像）和模棱两可的情况下也能进行很好的图像分割。最重要的是，模型和数据都是开源的。恕我直言，Segment-Anything 已经把所有事情（分割）都做的很好了。」
d86一流镖客

d86一流镖客

此前解决分割问题大致有两种方法。第一种是交互式分割，该方法允许分割任何类别的对象，但需要一个人通过迭代细化掩码来指导该方法。第二种，自动分割，允许分割提前定义的特定对象类别（例如，猫或椅子），但需要大量的手动注释对象来训练（例如，数千甚至数万个分割猫的例子）。这两种方法都没有提供通用的、全自动的分割方法。
d86一流镖客

SAM 很好的概括了这两种方法。它是一个单一的模型，可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它，只需为模型设计正确的提示（点击、boxes、文本等），就可以完成范围广泛的分割任务。d86一流镖客

总而言之，这些功能使 SAM 能够泛化到新任务和新领域。这种灵活性在图像分割领域尚属首创。d86一流镖客

Meta 表示，他们受到语言模型中提示的启发，因而其训练完成的 SAM 可以为任何提示返回有效的分割掩码，其中提示可以是前景、背景点、粗框或掩码、自由格式文本，或者说能指示图像中要分割内容的任何信息。而有效掩码的要求仅仅意味着即使提示不明确并且可能指代多个对象（例如，衬衫上的一个点可能表示衬衫或穿着它的人），输出也应该是一个合理的掩码（就如上面动图「SAM 还能为为不明确的提示生成多个有效掩码」所示）。此任务用于预训练模型并通过提示解决一般的下游分割任务。d86一流镖客

在 web 浏览器中，SAM 有效地映射图像特征和一组提示嵌入以产生分割掩码d86一流镖客

1100 万张图片，1B+ 掩码d86一流镖客

数据集是使用 SAM 收集的。标注者使用 SAM 交互地注释图像，之后新注释的数据又反过来更新 SAM，可谓是相互促进。d86一流镖客

使用该方法，交互式地注释一个掩码只需大约 14 秒。与之前的大规模分割数据收集工作相比，Meta 的方法比 COCO 完全手动基于多边形的掩码注释快 6.5 倍，比之前最大的数据注释工作快 2 倍，这是因为有了 SAM 模型辅助的结果。d86一流镖客

最终的数据集超过 11 亿个分割掩码，在大约 1100 万张经过许可和隐私保护图像上收集而来。SA-1B 的掩码比任何现有的分割数据集多 400 倍，并且经人工评估研究证实，这些掩码具有高质量和多样性，在某些情况下甚至在质量上可与之前更小、完全手动注释的数据集的掩码相媲美。d86一流镖客

Segment Anything 对使用数据引擎收集的数百万张图像和掩码进行训练的结果，得到一个包含 10 亿个分割掩码的数据集，是以往任何分割数据集的 400 倍。d86一流镖客

SA-1B 的图像来自跨不同地理区域和收入水平的多个国家或地区的照片提供者，在拥有更多图像的同时对所有地区的总体代表性也更好。Meta 分析了其模型在感知性别表现、感知肤色和年龄范围方面的潜在偏差，结果发现 SAM 在不同群体中的表现类似。d86一流镖客

SA-1B 可以帮助其他研究人员训练图像分割的基础模型。Meta 也进一步希望这些数据能够成为带有附加注释的新数据集的基础，例如与每个 mask 相关的文本描述。d86一流镖客

未来展望d86一流镖客

通过研究和数据集共享，Meta 希望进一步加速对图像分割以及更通用图像与视频理解的研究。可提示的分割模型可以充当更大系统中的一个组件，执行分割任务。作为一种强大的工具，组合（Composition）允许以可扩展的方式使用单个模型，并有可能完成模型设计时未知的任务。d86一流镖客

未来在像素级别的图像理解与更高级别的视觉内容语义理解之间，我们将看到更紧密的耦合，进而解锁更强大的 AI 系统。
d86一流镖客

周末复盘，有发现再与大家分享。d86一流镖客



Meta发布“分割一切”AI 模型

其他股票