最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

通用视觉的 GPT 时刻来临?智源推出通用分割模型 SegGPT,可「分割一切 」

  • 2023-04-09
    北京
  • 本文字数:1663 字

    阅读完需:约 5 分钟

通用视觉的GPT时刻来临?智源推出通用分割模型SegGPT,可「分割一切 」

ChatGPT 引发了语言大模型狂潮,AI 另一个重大领域 — 视觉的 GPT 时刻何时到来?


4 月 8 日,智源研究院视觉团队推出通用分割模型 SegGPT(Segment Everything In Context)——首个利用视觉提示(prompt)完成任意分割任务的通用视觉模型。

 

SegGPT 与 Meta AI 图像分割基础模型 SAM 同时发布,两者的差异在于:


• SegGPT“一通百通”:给出一个或几个示例图像和意图掩码,模型就能 get 用户意图,“有样学样”地完成类似分割任务。用户在画面上标注识别一类物体,即可批量化识别分割同类物体,无论是在当前画面还是其他画面或视频环境中。


• SAM“一触即通”:通过一个点或边界框,在待预测图片上给出交互提示,识别分割画面上的指定物体。

无论是“一触即通”还是“一通百通”,都意味着视觉模型已经“理解”了图像结构。SAM 精细标注能力与 SegGPT 的通用分割标注能力相结合,能把任意图像从像素阵列解析为视觉结构单元,像生物视觉那样理解任意场景,通用视觉 GPT 曙光乍现。

 


论文地址:https://arxiv.org/abs/2304.03284

代码地址:https://github.com/baaivision/Painter

Demo:https://huggingface.co/spaces/BAAI/SegGPT

 

SegGPT 是智源通用视觉模型 Painter 的衍生模型,针对分割一切物体的目标做出优化。SegGPT 训练完成后无需微调,只需提供示例即可自动推理并完成对应分割任务,包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸等等。

 

该模型具有以下优势能力:


1. 通用能力:SegGPT 具有上下文推理能力,模型能够根据提供的分割示例(prompt),对预测进行自适应的调整,实现对“everything”的分割,包括实例、类别、零部件、轮廓、文本、人脸、医学图像等。

2. 灵活推理能力:支持任意数量的 prompt;支持针对特定场景的 tuned prompt;可以用不同颜色的 mask 表示不同目标,实现并行分割推理。

3. 自动视频分割和追踪能力:以第一帧图像和对应的物体掩码作为上下文示例,SegGPT 能够自动对后续视频帧进行分割,并且可以用掩码的颜色作为物体的 ID,实现自动追踪。

 

案例展示

 

1. 标注出一个画面中的彩虹(上图),可批量化分割其他画面中的彩虹(下图)



2. 作者在广泛的任务上对 SegGPT 进行了评估,包括少样本语义分割、视频对象分割、语义分割和全景分割。下图中具体展示了 SegGPT 在实例、类别、零部件、轮廓、文本和任意形状物体上的分割结果。




3. 用画笔大致圈出行星环带(上图),在预测图中准确输出目标图像中的行星环带(下图)。

 



4. SegGPT 能够根据用户提供的宇航员头盔掩码这一上下文(上图),在新的图片中预测出对应的宇航员头盔区域(下图)。




训练方法

 

SegGPT 将不同的分割任务统一到一个通用的上下文学习框架中,通过将各类分割数据转换为相同格式的图像来统一各式各样的数据形式。


具体来说,SegGPT 的训练被定义为一个上下文着色问题,对于每个数据样本都有随机的颜色映射。目标是根据上下文完成各种任务,而不是依赖于特定的颜色。训练后,SegGPT 可以通过上下文推理在图像或视频中执行任意分割任务,例如实例、类别、零部件、轮廓、文本等。



Test-time techniques

 

如何通过 test-time techniques 解锁各种能力是通用模型的一大亮点。SegGPT 论文中提出了多个技术来解锁和增强各类分割能力,比如下图所示的不同的 context ensemble 方法。所提出的 Feature Ensemble 方法可以支持任意数量的 prompt 示例,实现丰俭由人的推理效果。

 


此外,SegGPT 还支持对特定场景优化专用 prompt 提示。对于针对性的使用场景,SegGPT 可以通过 prompt tuning 得到对应 prompt,无需更新模型参数来适用于特定场景。比如,针对某一数据集自动构建一个对应的 prompt,或者针对一个房间来构建专用 prompt。如下图所示:

 


结果展示

 

模型只需少数 prompt 示例,在 COCO 和 PASCAL 数据集上取得最优性能。SegGPT 显示出强大的零样本场景迁移能力,比如在少样本语义分割测试集 FSS-1000 上,在无需训练的情况下取得 state-of-the-art 性能。




无需视频训练数据,SegGPT 可直接进行视频物体分割,并取得和针对视频物体分割专门优化的模型相当的性能。



以下是基于 tuned prompt 在语义分割和实例分割任务上的效果展示:



公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-04-09 12:566032
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.2 次阅读, 收获喜欢 1966 次。

关注

评论 1 条评论

发布
用户头像
謝謝分享。
2023-04-10 13:43 · 中国香港
回复
没有更多了
发现更多内容

TiDB 热点问题详解

TiDB 社区干货传送门

TiDB 集群可用性增强 —— TiDB 5.0 的 Joint Consensus 机制介绍

TiDB 社区干货传送门

TiDB 底层架构

TiDB升级5.x连接问题

TiDB 社区干货传送门

故障排查/诊断

Flink on TiDB —— 便捷可靠的实时数据业务支撑

TiDB 社区干货传送门

实践案例

PD 启动主流程分析

TiDB 社区干货传送门

TiDB 底层架构

事务前沿研究丨确定性事务

TiDB 社区干货传送门

TiDB 底层架构

DM filter 实践整理

TiDB 社区干货传送门

实践案例

一张脑图让你快速了解 TiDB 5.0版本新特性

TiDB 社区干货传送门

TiDB 底层架构

TiDB 慢日志在伴鱼的实践

TiDB 社区干货传送门

实践案例

TiDB 数据一致性校验实现:Sync-diff-inspector 优化方案

TiDB 社区干货传送门

性能调优

Grafana汇总报表

TiDB 社区干货传送门

监控

TiDB Parser模块的简单解读与改造方法

TiDB 社区干货传送门

TiDB 底层架构

接触TiDB4.0时,一些部署方式实践尝试

TiDB 社区干货传送门

安装 & 部署

038-拯救大兵瑞恩之 TiDB 如何在 TiKV 损坏的情况下恢复

TiDB 社区干货传送门

TiDB 升级——ansible与tiup使用小结

TiDB 社区干货传送门

TiDB 底层架构

从 MySQL 大量数据清洗到 TiDB 说起

TiDB 社区干货传送门

实践案例

在 minikube 上使用 TiDB Operator 构建 TiDB 集群(持续更新中)

TiDB 社区干货传送门

安装 & 部署

MySQL 与 TiDB 不同的 DDL 发展历程

TiDB 社区干货传送门

TiDB 底层架构

知乎已读服务的前世今生与未来

TiDB 社区干货传送门

PD 调度器模块

TiDB 社区干货传送门

TiDB 底层架构

一篇文章带你玩转 TiDB 灾难恢复

TiDB 社区干货传送门

故障排查/诊断

还在用变量去实现多维度分组排序吗?你 out 了!

TiDB 社区干货传送门

实践案例

Weir:原生 TiDB 支持的数据库中间件

TiDB 社区干货传送门

实践案例

TiDB实例间数据同步之TiCDC实践

TiDB 社区干货传送门

实践案例

TiDB 3.0:窗口函数初体验

TiDB 社区干货传送门

【精选实践】一体化无边界的大数据基础平台

TiDB 社区干货传送门

DM多库合并至TiDB

TiDB 社区干货传送门

迁移 实践案例

2 年成本节省 73%,京东物流在云数据库上的选择和实战

TiDB 社区干货传送门

实践案例

当数据库遇上 Kuberbetes丨「能量钛」圆桌论坛回顾

TiDB 社区干货传送门

实践案例 数据库架构选型

TiDB 在汽车之家818台网互动项目中的应用

TiDB 社区干货传送门

实践案例 管理与运维 数据库架构选型

TiDB 热点问题定位

TiDB 社区干货传送门

故障排查/诊断

通用视觉的GPT时刻来临?智源推出通用分割模型SegGPT,可「分割一切 」_AI&大模型_刘燕_InfoQ精选文章