写点什么

CV 又卷起来了!Meta AI 开源万物可分割 AI 模型,11 亿 + 掩码数据集可提取

  • 2023-04-07
    北京
  • 本文字数:3405 字

    阅读完需:约 11 分钟

CV又卷起来了!Meta AI开源万物可分割AI模型,11亿+掩码数据集可提取

4 月 6 日,根据 Meta AI 官方博客,Meta AI 宣布推出了一个 AI 模型 Segment Anything Model(SAM,分割一切模型)。据介绍,该模型能够根据文本指令等方式实现图像分割,而且万物皆可识别和一键抠图。


图像分割——即识别出图像中的哪些像素隶属于同一对象——是计算机视觉领域的一项核心任务,在科学图像分析、照片编辑等各类场景中拥有广泛应用。但为特定任务创建精准分割模型是一项需要由技术专家精心处理的高度专业化工作,往往需要结合 AI 训练基础设施和大量精确标注的域内数据才能实现。


Meta AI 表示,推出 Segment Anything 项目的目的是为了实现分割技术的大众化:“正如我们在研究论文中做出的解释,这是一套用于图像分割的新型任务、数据集与模型。除通用 Segment Anything 模型(SAM)之外,我们还发布了 Segment Anything 1-Billion(SA-1B)掩码数据集。作为有史以来体量最大的分割数据集,Segment Anything 能够支持广泛的应用场景,并助力计算机视觉基础模型的进一步研究。我们正使用 SA-1B 数据集用于研究目的,且 Segment Anything 模型在开放许可(Apache 2.0)下开放。”

SAM 的核心目标是什么?

Segment Anything 项目的核心目标,就是减少特定任务对于建模专业往右、训练计算量和图像分割中自定义数据标注的需求。为了实现这个目标,Meta AI 团队希望建立一套图像分割基础模型:这是一个可提示模型,在不同数据集上接受训练并能够适应特定任务,类似于在自然语言处理模型中通过揭示词进行生成的方式。但与互联网上丰富的图像、视频和文本形成鲜明反差,训练图像分割模型所需要的数据在网上并不容易获取。因此,研究人员在 Segment Anything 项目中还同步开发了一套通用的可提示分割模型,用它创建出一套规模空前的分割数据集。


SAM 已经能够理解对象的一般概念,可以为任意图像或视频中的任何对象生成掩码,甚至支持它在训练期间从未见过的对象和图像类型。SAM 的通用性足以涵盖广泛用例,并可开箱即用于新的图像“领域”——包括水下照片和细胞显微镜图像,无需任何额外训练(即所谓「零样本迁移」)。


未来,SAM 能够在各种需要通过图像查找并分割任意对象的应用中发挥作用。对于 AI 研究社区及其他关注者而言,SAM 还可成为更大 AI 系统中的组成部分,用于对真实世界做更加普遍化的多模态理解,包括理解网页的视觉与文本内容。在 AR/VR 领域,SAM 可根据用户的视线选择对象,再将其“升维”为 3D 形式。对于内容创作者,SAM 可用于改进创意应用,例如提取图像区域以执行拼贴或编辑视频。SAM 还可用于帮助地球乃至太空环境下的自然事件做科学研究,例如定位视频中的动物或物体以开展跟踪和研究。Meta AI 团队称,他们相信 Segment Anything 中蕴藏着巨大的可能性,也对这些目前甚至难以想象的潜在用例感到无比兴奋。


Segment Anything 的提示设计可与其他系统灵活集成。SAM 能够接收输入提示,例如来自 AR/VR 头显用户的视线信息。

SAM 说到底是一种通用的图像分割方法

以往,要解决任何图像分割问题,我们只能选择两类方法。其一是交互式分割,虽然允许分割任意类别的对象,但需要由人类迭代细化掩码来做引导。其二是自动分割,可以提前定义特定的对象类别(例如小猫或椅子),但需要大量的手动标注对象以完成训练(例如提供成千上万的小猫图像分割示例),并配合大量计算资源和专业知识以训练分割模型。这两种方法都无法提供真正通用的全自动分割方法。


SAM 是对这两类方法的汇总。作为单一模型,它能够轻松完成交互式分割和自动分割。该模型的可提示界面(后文将具体介绍)提供灵活的使用方式,只需为模型设计正确的提示线索(点击、框选、文本等)即可完成广泛的分割任务。此外,SAM 在包含超过 10 亿个掩码的多样化、高质量数据集(作为项目的一部分)上接受训练,其分割功能可以泛化到新的对象和图像类型当中,远超其在训练期间实际观察过的内容。这种良好的泛化能力,意味着从业者一般不需要自行收集细分数据来针对特定用例做模型微调。


总而言之,这些功能让 SAM 得以泛化到新的任务和领域当中,实现了图像分割领域前所未见的功能灵活性。

SAM 的工作原理:提示分割

在自然语言处理和最近的计算机视觉领域,最令人兴奋的发展成果之一在于基础模型。这些基础模型能够使用“提示”技术对新数据集和任务执行零样本和少样本学习。Meta AI 团队也从这方面进展中汲取了灵感。


经过训练,SAM 能够根据任何提示返回有效的分割掩码,包括前景/背景点、粗框或掩码、自由格式文本等一切能够指示图像内分割内容的信息。即使提示不够明确且可能指代多个对象(例如指向衬衫上的一个点可能代表衬衫本体,也可能代表穿着衬衫的人),输出也应合理有效。Meta AI 团队通过这项任务对模型进行预训练,引导其通过提示解决常规的下游分割任务。


研究人员观察到,预训练任务和交互式数据集对模型设计施加了特定约束。具体来讲,该模型需要在网络浏览器的 CPU 上实时运行,这样标注者才能与 SAM 实时交互并高效进行标注。虽然运行时约束意味着要在质量和运行时间之间取得权衡,但他们发现简单的设计在实践中能够取得良好结果。


在工作原理层面,图像编码器会为图像生成一次性嵌入,而轻量级编码器则将所有提示实时转换为嵌入向量。之后,将这两个信息源组合在一个负责预测分割掩码的轻量级解码器内。在计算图像嵌入之后,SAM 能够在 50 毫秒内根据网络浏览器中的任意提示生成相应分割。


在网络浏览器中,SAM 能够有效将图像特征与一组提示嵌入映射起来,借此生成分割掩码。

10 亿分割掩码:我们如何构建 SA-1B

为了训练模型,需要大量更多样的数据源,但这些在工作之初并不存在。Meta AI 此次发布的分割数据集是迄今为止体量最大的,且数据收集同样由 SAM 完成。具体来讲,标注者使用 SAM 以交互方式标记图像,之后使用新标注的数据依次更新 SAM。通过多次重复此循环,以迭代方式改进模型和数据集。


使用 SAM,分割掩码的收集速度远超以往任何时候。使用该工具,只需约 14 秒即可以交互方式标注掩码。每个掩码标注过程的耗时仅相当于标注边界框的 2 倍,后者在使用最快的注释界面时也需要约 7 秒。与之前的大规模分割数据收集工作相比,SAM 模型比 COCO 全手动多边形掩码标注快 6.5 倍,较之前规模最大的模型辅助数据标注工作快 2 倍。


然而,单靠交互式注释掩码并不足以充分扩展至需要的 10 亿掩码数据集。因此,Meta AI 团队构建了一套数据引擎以创建 SA-1B 数据集。该数据引擎具有三个“挡位”:一挡为模型协助标注器,如前文所述;二挡是全自动标注与辅助标注混合选项,有助于增加收集掩码的多样性;数据引擎的第三挡则是全自动掩码创建,可帮助实现数据集扩展。


最终,数据集包含从约 1100 万许可和隐私保护图像上收集到的超 11 亿个分割掩码。SA-1B 的掩码比任何现有分割数据集都多出 400 倍,而且经过人工评估证实,这些掩码质量出色、多样性丰富,在某些情况下在质量上甚至可以媲美之前体量较小、纯由手动标注的掩码数据集。



Segment Anything 的功能,是利用数据引擎收集的数百万张图像与掩码进行训练的结果。最终成果是一套包含超 10 亿个分割掩码的数据集,比以往任何分割数据集都要大出 400 倍。


SA-1B 的图像来自多个国家/地区的照片提供商,其跨越不同地理区域和收入水平。虽然 Meta AI 团队意识到某些地理区域的代表性仍然不足,但与以往的分割数据集相比,SA-1B 拥有更多图像、对所有地区的总体代表性也更好。此外,Meta AI 团队还分析了模型在性别认知、肤色认知和年龄范围认知方面的潜在偏见,发现 SAM 在不同群体间的表现比较统一。Meta AI 团队希望这能让他们的工作成果更公平地服务于真实世界中的用例。

展望未来

未来,SAM 可通过 AR 眼镜识别日常物品,并向用户发出提醒和提示。



SAM 拥有广泛的潜在影响范围,也许有一天能帮助农牧业和生物学家开展研究。


最后,Meta AI 团队表示,“通过共享我们的研究和数据集,我们希望进一步加快对分割、乃至其他更具普遍性的图像和视频理解的研究。我们的可提示分割模型可以充当大体量系统中的组件以执行图像分割任务。通过组合方式,大家将能够以可扩展方式使用单个模型,完成模型在设计之初并未考虑到的应用。我们预计由提示工程等技术实现的可组合系统设计,将比特定一组面向固定任务训练的系统具备更广阔的功能空间,也有望让 SAM 在 AR/VR、内容创造、科学研究和通用 AI 等领域贡献自己的力量。展望未来,我们相信像素级图像理解与视觉内容将与更高级别的语义理解紧密耦合,最终解锁出更加强大的 AI 系统”。


参考链接:


https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/

2023-04-07 17:437217
用户头像
李冬梅 加V:busulishang4668

发布了 1194 篇内容, 共 819.8 次阅读, 收获喜欢 1307 次。

关注

评论

发布
暂无评论
发现更多内容

本周二晚19:00战码先锋直播丨轻松入门,成为媒体子系统贡献者

OpenHarmony开发者

Open Harmony

C#入门系列(六) -- 分支语句

陈言必行

C# 6月月更

信息时代,您需要这样的知识管理工具

小炮

【私有云】多云管理平台和私有云是什么关系?能通俗解释一下吗?

行云管家

云计算 私有云 云管平台

四家正规新疆等保测评公司名称、地址详细公布

行云管家

网络安全 等保 新疆 等保测评

大容量、高性能,国家级实验室分布式并行文件存储实践

焱融科技

人工智能 大数据 AI 基础设施 存储

【智人智语】剑维软件大中华区油气和智能制造业务部总经理刘晓光:我谨代表剑维软件预祝第六届世界智能大会圆满成功

InfoQ 天津

2022年5月国产数据库大事记

墨天轮

数据库 opengauss TiDB 国产数据库 polarDB

【云主机】2022年云主机管理软件排行榜

行云管家

云主机 云服务器 云管

如何在 WordPress 中创建联系表格?

海拥(haiyong.site)

WordPress 6月月更

程序员自我修炼:《匠艺整洁之道》读书总结

博文视点Broadview

本周三晚19:00Hello HarmonyOS进阶课程第6课—短视频应用开发

HarmonyOS开发者

HarmonyOS

常见滑动窗口实现(Java语言实现)

工程师日月

6月月更

EMQ&思岚科技:物联网+AI支援抗疫,“无接触”机器人保障上海方舱稳定运转

EMQ映云科技

物联网 IoT mqtt emq 6月月更

Hive参数与性能企业级调优

五分钟学大数据

6月月更

5 年前他的一个设计思路,让 TDengine 时间压缩提升近 50 倍

TDengine

数据库 tdengine 时序数据库

用Golang重写rsync(1):缘起MAC

老豆还编程

c golang

InfoQ 极客传媒 15 周年庆征文|业务中台与B-PaaS的前世今生

小诚信驿站

架构 如何落地业务建模 领域建模 热门活动 InfoQ极客传媒15周年庆

故障定位与用户行为分析双向驱动,互联网保险的IT 运维“双保险”

博睿数据

博睿数据 IT运维

当运行npm install 命令的时候带上ignore-scripts,会发生什么?

华为云开发者联盟

前段

选择广州软件定制开发的10个理由

低代码小观

软件开发 管理软件 企业管理软件 项目管理软件 软件定制

一键部署Java构件到Nexus,同事见了都说好

Jianmu

后端 持续集成 私服 自动化运维 Java构件

NFT+DeFi链游系统开发技术

薇電13242772558

NFT

趣步运动挖矿系统开发模式分析

开发微hkkf5566

【Spring 学习笔记(五)】Spring Bean 作用域和生命周期

倔强的牛角

spring Java EE 6月月更

Apache DolphinScheduler&TiDB联合Meetup | 聚焦开源生态发展下的应用开发能力

白鲸开源

Apache 大数据 开源 DolphinScheduler workflow

7张图详解域名系统DNS

wljslmz

DNS 域名解析 网络技术 6月月更

安势信息技术市场总监王峰,OpenChain线上研讨会首秀!

安势信息

Linux 开源 DevSecOps SCA SCA工具

双重调研测试后,OPPO IoT 类产品开始接入 TDengine

TDengine

数据库 tdengine 时序数据库

mass幸运哈希彩竞猜游戏娱乐平台开发技术详解

开发微hkkf5566

大型物联网平台如何来保障亿级设备安全连接上云?

华为云开发者联盟

物联网 华为云 iotda 大型物联网平台

CV又卷起来了!Meta AI开源万物可分割AI模型,11亿+掩码数据集可提取_文化 & 方法_李冬梅_InfoQ精选文章