9月7日-8日,相约 2023 腾讯全球数字生态大会!聚焦产业未来发展新趋势! 了解详情
写点什么

伯克利 AI 实验室开源图像编辑模型 InstructPix2Pix,简化生成图像编辑并提供一致结果

作者:Aditya Kulkarni

  • 2023-08-24
    北京
  • 本文字数:1113 字

    阅读完需:约 4 分钟

伯克利AI实验室开源图像编辑模型InstructPix2Pix,简化生成图像编辑并提供一致结果

来自伯克利人工智能研究(BAIR)实验室的研究人员开源深度学习模型InstructPix2Pix,它可以遵循人类指令来编辑图像。InstructPix2Pix 在合成数据上进行训练,表现优于基线 AI 图像编辑模型。


BAIR 团队在最近举行的 2023 年 IEEE/CVF计算机视觉和模式识别(CVPR)大会上展示了他们的工作成果。他们先是生成了一个合成训练数据集,其中的训练样本是成对的图像以及用于将第一幅图像转换为第二幅图像的编辑指令。该数据集用于训练图像生成扩散模型,该模型可以接受基于文本的指令来编辑图像。例如,给定一张骑马的人的图片和提示词“让她变成骑龙”,它会输出原始图片,但原来的马被替换了龙。BAIR 的研究人员的表示:


尽管模型完全是在合成样本上进行训练的,但它实现了对任意真实图像和人类自然语言指令的零样本泛化。我们的模型能够进行直观的图像编辑,可以遵循人类指令执行多种编辑:替换对象、改变图像风格、修改设置、艺术媒介等。


之前的 AI 图像编辑能力通常是进行风格转换,流行的文本到图像生成模型(如DALL-EStable Diffusion)也支持图像到图像风格转换操作。然而,使用这些模型进行有针对性的编辑仍然具有挑战性。最近,InfoQ 报道了微软的Visual ChatGPT,它可以调用外部工具来编辑图像,前提是提供编辑操作的文本描述。


为了训练 InstructPix2Pix,BAIR 首先创建了一个合成数据集。为此,团队在一个由输入文字说明、编辑指令和期望输出文字说明组成的人类文本样本的小数据集上对 GPT-3 进行了微调。然后,这个微调模型被给予一个大型的输入图像文字说明数据集,从中生成了超过 450k 次编辑和输出文字说明。然后,团队将输入和输出文字说明馈送到预训练的Prompt-to-Prompt模型中,该模型根据文字说明生成成对的相似图像。



InstructPix2Pix 的架构,图片来源:https://arxiv.org/abs/2211.09800


研究人员鉴于这个数据集训练了基于 Stable Diffusion 的 InstructPix2Pix。为了评估其性能,团队将其输出与基线模型SDEdit进行了比较。他们使用两个指标之间的权衡:一致性(即输入图像和编辑后图像的 CLIP 嵌入之间的余弦相似度)和方向相似性(即编辑后文字说明中的变化与编辑后图像的变化在多大程度上保持一致)。在实验中,对于给定的方向相似性值,InstructPix2Pix 产生的图像比 SDEdit 具有更高的一致性。


人工智能研究员吴恩达在他的深度学习新闻邮件组“The Batch”中评价了 InstructPix2Pix:


这项工作简化了生成和人造图像的编辑操作,并提供了更一致的结果。巧妙地利用现有模型,模型作者能够使用相对较少的人类标记样本在新任务上训练他们的模型。


InstructPix2Pix的代码可在 GitHub 上获取,模型基于Web的演示可在 Huggingface 上访问。


原文链接

https://www.infoq.com/news/2023/07/berkeley-instruct-pix2pix/

活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2023-08-24 08:001

评论

发布
暂无评论

7 月亚马逊云科技培训与认证课程,精彩不容错过!

亚马逊云科技 (Amazon Web Services)

架构师 培训 认证

低代码开发:企业应用构建新模式

力软低代码开发平台

24H共享便民自助洗车加盟怎么样

共享电单车厂家

共享自助洗车 自助洗车加盟 24小时自助洗车 便民自助洗车

“互联网+”大学生创新创业大赛来了,欢迎报名龙蜥社区赛题!

OpenAnolis小助手

开源 操作系统 互联网+ 龙蜥社区 大学生创新创业大赛

@开发者 云端一条生产线,让软件开发更敏捷、更安全

华为云开发者联盟

云计算 敏捷 华为云 devcloud

Jupyter Notebook,太强大了!

Jackpop

写代码过程中最忌讳什么?

Jackpop

10段实用Python代码,帮我省了几万块钱!

Jackpop

如何系统地学习 C++ 语言?太全面了!

Jackpop

自助洗车机洗车怎么收费和付费

共享电单车厂家

自助洗车加盟 自助洗车收费 自助洗车付费

vue-表单输入绑定

小恺

6月月更

自助洗车市场悄然兴起你准备好了吗

共享电单车厂家

自助洗车 自助洗车加盟

大数据平台迁移实践 | Apache DolphinScheduler 在当贝大数据环境中的应用

Apache DolphinScheduler

Apache 大数据 开源 DolphinScheduler workflow

融云 x 川航: 为民航通信安上“即时之翼”

融云 RongCloud

IT采购专家指导 联想百应618 IT运维软硬服一站集采

Geek_2d6073

SQL和Python 哪个更容易自学?

Jackpop

要想自助洗车加盟赚钱记住这几点

共享电单车厂家

自助洗车加盟 自助洗车品牌

开启全方位安全巡检

观测云

华为云重磅发布:“乐高式”自动驾驶研发开放平台,携手伙伴共建生态

华为云开发者联盟

自动驾驶 云计算 华为云

Curve 进入 CNCF Sandbox,完善统一云原生开源存储拼图

网易数帆

开源 分布式 云原生 存储 cncf

首批 | 腾讯云完成国内首个云原生安全成熟度评估

腾讯安全云鼎实验室

云原生

共享自助洗车机让你告别传统洗车

共享电单车厂家

共享自助洗车 自助洗车加盟

FutureTask

急需上岸的小谢

6月月更

阿里云 MSE 基于 Apache APISIX 的全链路灰度方案实践

API7.ai 技术团队

阿里云 MSE APISIX 网关 全链路灰度

SRE,了解一下?35+岁程序员新选择

华为云开发者联盟

SRE 华为云

测试进阶必备,这5款http接口自动化测试工具不要太香~

伤心的辣条

Python 程序人生 软件测试 自动化测试 接口自动化测试

使用 Amazon EC2 降低 DeepRacer 的训练成本 DeepRacer-for-cloud 的实践操作

亚马逊云科技 (Amazon Web Services)

Amazon EC2 EC2

Apache Dolphinscheduler3.0.0-beta-1 版本发布,新增FlinkSQL、Zeppelin任务类型

Apache DolphinScheduler

Apache 大数据 开源 Apache DolphinScheduler 消息队列 workflow

JDK7 HashMap如何实现?

源字节1号

软件开发 前端开发 后端开发 小程序开发

瀑布式项目管理软件测评!

PingCode

API 网关 Apache APISIX 助力雪球双活架构演进

API7.ai 技术团队

zookeeper 投资 网关 APISIX APISIX Summit

  • 扫码添加小助手
    领取最新资料包
伯克利AI实验室开源图像编辑模型InstructPix2Pix,简化生成图像编辑并提供一致结果_生成式 AI_InfoQ精选文章