阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

CV 又卷起来了!Meta AI 开源万物可分割 AI 模型,11 亿 + 掩码数据集可提取

  • 2023-04-07
    北京
  • 本文字数:3405 字

    阅读完需:约 11 分钟

CV又卷起来了!Meta AI开源万物可分割AI模型,11亿+掩码数据集可提取

4 月 6 日,根据 Meta AI 官方博客,Meta AI 宣布推出了一个 AI 模型 Segment Anything Model(SAM,分割一切模型)。据介绍,该模型能够根据文本指令等方式实现图像分割,而且万物皆可识别和一键抠图。


图像分割——即识别出图像中的哪些像素隶属于同一对象——是计算机视觉领域的一项核心任务,在科学图像分析、照片编辑等各类场景中拥有广泛应用。但为特定任务创建精准分割模型是一项需要由技术专家精心处理的高度专业化工作,往往需要结合 AI 训练基础设施和大量精确标注的域内数据才能实现。


Meta AI 表示,推出 Segment Anything 项目的目的是为了实现分割技术的大众化:“正如我们在研究论文中做出的解释,这是一套用于图像分割的新型任务、数据集与模型。除通用 Segment Anything 模型(SAM)之外,我们还发布了 Segment Anything 1-Billion(SA-1B)掩码数据集。作为有史以来体量最大的分割数据集,Segment Anything 能够支持广泛的应用场景,并助力计算机视觉基础模型的进一步研究。我们正使用 SA-1B 数据集用于研究目的,且 Segment Anything 模型在开放许可(Apache 2.0)下开放。”

SAM 的核心目标是什么?

Segment Anything 项目的核心目标,就是减少特定任务对于建模专业往右、训练计算量和图像分割中自定义数据标注的需求。为了实现这个目标,Meta AI 团队希望建立一套图像分割基础模型:这是一个可提示模型,在不同数据集上接受训练并能够适应特定任务,类似于在自然语言处理模型中通过揭示词进行生成的方式。但与互联网上丰富的图像、视频和文本形成鲜明反差,训练图像分割模型所需要的数据在网上并不容易获取。因此,研究人员在 Segment Anything 项目中还同步开发了一套通用的可提示分割模型,用它创建出一套规模空前的分割数据集。


SAM 已经能够理解对象的一般概念,可以为任意图像或视频中的任何对象生成掩码,甚至支持它在训练期间从未见过的对象和图像类型。SAM 的通用性足以涵盖广泛用例,并可开箱即用于新的图像“领域”——包括水下照片和细胞显微镜图像,无需任何额外训练(即所谓「零样本迁移」)。


未来,SAM 能够在各种需要通过图像查找并分割任意对象的应用中发挥作用。对于 AI 研究社区及其他关注者而言,SAM 还可成为更大 AI 系统中的组成部分,用于对真实世界做更加普遍化的多模态理解,包括理解网页的视觉与文本内容。在 AR/VR 领域,SAM 可根据用户的视线选择对象,再将其“升维”为 3D 形式。对于内容创作者,SAM 可用于改进创意应用,例如提取图像区域以执行拼贴或编辑视频。SAM 还可用于帮助地球乃至太空环境下的自然事件做科学研究,例如定位视频中的动物或物体以开展跟踪和研究。Meta AI 团队称,他们相信 Segment Anything 中蕴藏着巨大的可能性,也对这些目前甚至难以想象的潜在用例感到无比兴奋。


Segment Anything 的提示设计可与其他系统灵活集成。SAM 能够接收输入提示,例如来自 AR/VR 头显用户的视线信息。

SAM 说到底是一种通用的图像分割方法

以往,要解决任何图像分割问题,我们只能选择两类方法。其一是交互式分割,虽然允许分割任意类别的对象,但需要由人类迭代细化掩码来做引导。其二是自动分割,可以提前定义特定的对象类别(例如小猫或椅子),但需要大量的手动标注对象以完成训练(例如提供成千上万的小猫图像分割示例),并配合大量计算资源和专业知识以训练分割模型。这两种方法都无法提供真正通用的全自动分割方法。


SAM 是对这两类方法的汇总。作为单一模型,它能够轻松完成交互式分割和自动分割。该模型的可提示界面(后文将具体介绍)提供灵活的使用方式,只需为模型设计正确的提示线索(点击、框选、文本等)即可完成广泛的分割任务。此外,SAM 在包含超过 10 亿个掩码的多样化、高质量数据集(作为项目的一部分)上接受训练,其分割功能可以泛化到新的对象和图像类型当中,远超其在训练期间实际观察过的内容。这种良好的泛化能力,意味着从业者一般不需要自行收集细分数据来针对特定用例做模型微调。


总而言之,这些功能让 SAM 得以泛化到新的任务和领域当中,实现了图像分割领域前所未见的功能灵活性。

SAM 的工作原理:提示分割

在自然语言处理和最近的计算机视觉领域,最令人兴奋的发展成果之一在于基础模型。这些基础模型能够使用“提示”技术对新数据集和任务执行零样本和少样本学习。Meta AI 团队也从这方面进展中汲取了灵感。


经过训练,SAM 能够根据任何提示返回有效的分割掩码,包括前景/背景点、粗框或掩码、自由格式文本等一切能够指示图像内分割内容的信息。即使提示不够明确且可能指代多个对象(例如指向衬衫上的一个点可能代表衬衫本体,也可能代表穿着衬衫的人),输出也应合理有效。Meta AI 团队通过这项任务对模型进行预训练,引导其通过提示解决常规的下游分割任务。


研究人员观察到,预训练任务和交互式数据集对模型设计施加了特定约束。具体来讲,该模型需要在网络浏览器的 CPU 上实时运行,这样标注者才能与 SAM 实时交互并高效进行标注。虽然运行时约束意味着要在质量和运行时间之间取得权衡,但他们发现简单的设计在实践中能够取得良好结果。


在工作原理层面,图像编码器会为图像生成一次性嵌入,而轻量级编码器则将所有提示实时转换为嵌入向量。之后,将这两个信息源组合在一个负责预测分割掩码的轻量级解码器内。在计算图像嵌入之后,SAM 能够在 50 毫秒内根据网络浏览器中的任意提示生成相应分割。


在网络浏览器中,SAM 能够有效将图像特征与一组提示嵌入映射起来,借此生成分割掩码。

10 亿分割掩码:我们如何构建 SA-1B

为了训练模型,需要大量更多样的数据源,但这些在工作之初并不存在。Meta AI 此次发布的分割数据集是迄今为止体量最大的,且数据收集同样由 SAM 完成。具体来讲,标注者使用 SAM 以交互方式标记图像,之后使用新标注的数据依次更新 SAM。通过多次重复此循环,以迭代方式改进模型和数据集。


使用 SAM,分割掩码的收集速度远超以往任何时候。使用该工具,只需约 14 秒即可以交互方式标注掩码。每个掩码标注过程的耗时仅相当于标注边界框的 2 倍,后者在使用最快的注释界面时也需要约 7 秒。与之前的大规模分割数据收集工作相比,SAM 模型比 COCO 全手动多边形掩码标注快 6.5 倍,较之前规模最大的模型辅助数据标注工作快 2 倍。


然而,单靠交互式注释掩码并不足以充分扩展至需要的 10 亿掩码数据集。因此,Meta AI 团队构建了一套数据引擎以创建 SA-1B 数据集。该数据引擎具有三个“挡位”:一挡为模型协助标注器,如前文所述;二挡是全自动标注与辅助标注混合选项,有助于增加收集掩码的多样性;数据引擎的第三挡则是全自动掩码创建,可帮助实现数据集扩展。


最终,数据集包含从约 1100 万许可和隐私保护图像上收集到的超 11 亿个分割掩码。SA-1B 的掩码比任何现有分割数据集都多出 400 倍,而且经过人工评估证实,这些掩码质量出色、多样性丰富,在某些情况下在质量上甚至可以媲美之前体量较小、纯由手动标注的掩码数据集。



Segment Anything 的功能,是利用数据引擎收集的数百万张图像与掩码进行训练的结果。最终成果是一套包含超 10 亿个分割掩码的数据集,比以往任何分割数据集都要大出 400 倍。


SA-1B 的图像来自多个国家/地区的照片提供商,其跨越不同地理区域和收入水平。虽然 Meta AI 团队意识到某些地理区域的代表性仍然不足,但与以往的分割数据集相比,SA-1B 拥有更多图像、对所有地区的总体代表性也更好。此外,Meta AI 团队还分析了模型在性别认知、肤色认知和年龄范围认知方面的潜在偏见,发现 SAM 在不同群体间的表现比较统一。Meta AI 团队希望这能让他们的工作成果更公平地服务于真实世界中的用例。

展望未来

未来,SAM 可通过 AR 眼镜识别日常物品,并向用户发出提醒和提示。



SAM 拥有广泛的潜在影响范围,也许有一天能帮助农牧业和生物学家开展研究。


最后,Meta AI 团队表示,“通过共享我们的研究和数据集,我们希望进一步加快对分割、乃至其他更具普遍性的图像和视频理解的研究。我们的可提示分割模型可以充当大体量系统中的组件以执行图像分割任务。通过组合方式,大家将能够以可扩展方式使用单个模型,完成模型在设计之初并未考虑到的应用。我们预计由提示工程等技术实现的可组合系统设计,将比特定一组面向固定任务训练的系统具备更广阔的功能空间,也有望让 SAM 在 AR/VR、内容创造、科学研究和通用 AI 等领域贡献自己的力量。展望未来,我们相信像素级图像理解与视觉内容将与更高级别的语义理解紧密耦合,最终解锁出更加强大的 AI 系统”。


参考链接:


https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-04-07 17:435909
用户头像
李冬梅 加V:busulishang4668

发布了 811 篇内容, 共 379.3 次阅读, 收获喜欢 999 次。

关注

评论

发布
暂无评论
发现更多内容

龙蜥开发者说:给芯片以系统、给系统以社区 | 第 17 期

OpenAnolis小助手

开源 操作系统 芯片 社区 龙蜥开发者说

GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

Openlab_cosmoplat

机器学习 开源社区 智能 ChatGPT GPT-4

中康科技黄毅宁:AI+医疗,于我而言是圆梦

飞桨PaddlePaddle

黄牛党“屯购”OPPO Find X6 无感验证护航官方商城安全

Geek_2d6073

关于应用开发中“重复造轮子”的一些思考

这我可不懂

低代码 低代码平台 JNPF

两项大奖加持,浩鲸科技福利小店-WHALE SELECT

鲸品堂

福利 平台 平台搭建 企业号 3 月 PK 榜

山东大学-飞桨人工智能教育创新中心正式挂牌,打造区域产教融合新范式

飞桨PaddlePaddle

一文看懂数据产品经理

Taylor

产品 #数据产品经理 #数据产品 #职业发展 #产品思维

数禾科技 AI 模型服务 Serverless 容器化之旅

云布道师

阿里云

质量内建落地的四要素

老张

质量保障 质量内建 交付质量

数据库领域3月大事件

NineData

数据库 云计算

软件测试/测试开发丨在Docker 上搭建持续集成平台 Jenkins

测试人

软件测试 自动化测试 测试开发

草图大师;SketchUp Pro 2022 mac中英双语

真大的脸盆

Mac 3D 建模软件 建模工具 3d建模

Icons8 for mac(logo图标素材大全)

魔仙苹果mac堡

Icons8 logo图标 素材大全 Icons8 for mac

简述几种常用的排序算法

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 3 月 PK 榜

华为昇思MindSpore开源社区三周年生日会,三大亮点不容错过!

Geek_2d6073

一点点进步的OceanBase数据库文档!

OceanBase 数据库

数据库 oceanbase

合约跟单项目系统开发(技术源码)丨合约量化系统开发技术(成熟案例)

I8O28578624

批量上传iOS应用程序截图的实用技巧

雪奈椰子

git客户端软件:Sublime Merge 激活版

真大的脸盆

Mac Mac 软件 Git客户端

安装Red Giant Maxon App时提示错误11025:无法连接到Red Giant服务

魔仙苹果mac堡

红巨人特效插件 Red Giant 后期制作

自动调优工具AOE,让你的模型在昇腾平台上高效运行

华为云开发者联盟

人工智能 华为云 昇腾 华为云开发者联盟 企业号 3 月 PK 榜

多功能PDF编辑工具:Nitro PDF Pro激活版

真大的脸盆

Mac PDF Mac 软件 PDF编辑 pdf编辑工具

内核不中断前提下,Gaussdb(DWS)内存报错排查方法

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

软件测试/测试开发丨app自动化之如何参数化用例

测试人

软件测试 自动化测试 测试开发

低代码开发:助力企业高效实现数字转型的一大利器

加入高科技仿生人

大数据 低代码 数字化 数字转型

模拟经营类游戏:城市天际线Cities Skylines 怎么设置无限金币?

魔仙苹果mac堡

城市天际线 Mac城市建造类游戏 Cities: Skylines

分析机构称AMD的PC市场空间正被蚕食,英特尔第12/13代酷睿处理器更具竞争力

科技之家

如何解决Mac苹果上运行VMware Fusion虚拟机提示“未找到文件”

魔仙苹果mac堡

VM虚拟机 未找到文件 VMware Fusion虚拟机 苹果系统虚拟机

软件测试/测试开发丨APP自动化Android特殊控件Toast识别

测试人

软件测试 自动化测试 测试开发

ADDS-DepthNet:基于域分离的全天图像自监督单目深度估计

飞桨PaddlePaddle

CV又卷起来了!Meta AI开源万物可分割AI模型,11亿+掩码数据集可提取_文化 & 方法_李冬梅_InfoQ精选文章