【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

号称业界最强!Meta 发布全新文生图模型,实力碾压 Stable Diffusion、Midjourney

  • 2023-07-18
    北京
  • 本文字数:2980 字

    阅读完需:约 10 分钟

号称业界最强!Meta发布全新文生图模型,实力碾压Stable Diffusion、Midjourney

Meta 公司称,这款模型在文生图方面的表现,达到了业界最高水平。

Meta 开发出文生图模型 CM3Leon

 

近日,Meta 公司宣布开发出一款名为 CM3Leon(发音类似「chameleon」)的文生图模型,该模型能够独力解决文本到图像和图像到文本的双向生成任务。

 

Meta 表示:“在打造高质量生成模型的探索之路上,我们相信 CM3leon 在各类任务中的强大性能,正是迈向高保真度图像生成与理解的重要一步。像 CM3leon 这样的模型终将成为元宇宙中的创造力源泉与应用成果,我们也期待继续突破多模态语言模型的新疆界、未来将更多优秀模型呈现在大家面前。”

 

据介绍,CM3leon 是首个使用纯文本语言模型配方改编和训练而成的多模态模型,并经历了大规模检索增强预训练和随后的多任务监督微调(SFT)阶段。与 Stable Diffusion、DALL-E、Midjourney 等文生图模型依赖于扩散(diffusion)模型技术不同,CM3Leon 采用了基于 token 的自回归模型方法。

 

Meta 表示,尽管训练时的计算量仅相当于以往基于 Transformer 方法的五分之一,但 CM3leon 在文本到图像的生成方面还是获得了同类领先的性能。CM3leon 既具备自回归模型的功能多样性和有效性,也保持着较低的训练成本和良好的推理效率。作为一套因果掩码混合模态(CM3)模型,它能够以其他图像和文本内容的任意序列为条件,生成相应的文本与图像序列。这极大扩展了以往大模型只能从文本到图像、或者只能从图像到文本的功能局限。

 

一般来讲,纯文本生成模型往往会针对各类不同任务进行多任务指令调整,借此增强其遵循指令提示的能力;而图像生成模型则更多适配特定任务。Meta 将大规模多任务指令调节运用到 CM3leon 的图像和文本生成当中,事实证明能够显著提高图像标题生成、视觉问答、基于文本的图像编辑和按条件生成图像等能力。这也成为强有力的实例,证明为纯文本模型开放的扩展配方也能直接推广到基于 token 化的图像生成模型当中。

 

Meta 称,与目前广泛使用的图像生成基准(零样本 MS-COCO)进行性能比较时,CM3leon 获得了 4.88 的 FID(Fréchet Inception Distance,一种用于计算真实图像与生成图像间特征向量距离的指标,FID 值越小则相似度越高,最好为 0),超越谷歌的文本到图像模型 Parti,证明了自身技术的先进性。

 

此外,CM3leon 还表现出令人印象深刻的复杂组合对象生成能力。CM3leon 在各类视觉语言任务中均表现良好,包括视觉问答和生成长格式标题。由于训练数据集仅包含 30 亿文本 token,因此 CM3leon 的零样本性能也超越了由更广泛数据集训练而成的、体量更大的其他模型。

CM3leon 是如何打造出来的?

 

据介绍,CM3leon 架构采用的是类似基于文本类模型、已经成熟的纯解码器 Transformer。但它的独特之处,在于能够同时输入和生成文本加图像。正是凭借这种能力,CM3leon 才得以成功解决前文提到的各项任务。

 

训练方面,Meta 表示,通过一系列努力,CM3leon 的训练检索得到了增强,大大提高了模型成果的效率和可控性。此外,Meta 还根据各种不同图像和文本生成任务对模型进行了指令微调。

 

随着 AI 行业的不断发展,像 CM3leon 这样的生成模型正变得越来越复杂。这些模型通过数百万的示例图像接受训练,学习视觉效果与文本之间的关系,但同时也可能反映训练数据集中存在的偏差/偏见。Meta 称,目前 AI 行业仍处于理解和应对这些挑战的早期阶段,提升透明度才是加速解决这些问题的关键。

 

Meta 使用许可数据集作为 CM3leon 的训练素材。在预训练阶段,Meta 使用了数百万张来自 Shutterstock 的授权图片,有着高达 70 亿个参数,这也达到了 OpenAI EALL-E2 模型的两倍以上。

 

Meta 方面表示:“在文本到图像生成领域,图像数据来源的道德影响已经引发了广泛的讨论。在这一研究中,我们只使用 Shutterstock 上的经过授权的图像,因此可以避免与图像所有权和归属相关的担忧,同时不会牺牲性能。”

 

事实证明,即使使用与先前所有模型的训练数据都截然不同的数据分布,仍可实现强大的性能。通过全工作流程的透明展示,Meta 希望鼓励生成式 AI 领域能够迎来更多合作与创新,打造出不仅更准确、而且对每个人都更加公平和公正的 AI 模型。

CM3leon 的跨任务执行

 

CM3leon 的强大之处在于更好地遵循输入提示以生成更连贯的图像。例如,多数原有图像生成模型都难以准确还原全局形态和局部细节,而 CM3leon 在这方面表现出色,以下是 CM3leon 在各类任务中的表现(所有任务均由单一模型处理完成)

文本引导的图像生成与编辑

 

一般来说,如果约束条件要求将复杂的对象或提示全部体现在输出结果中时,图像生成模型往往难以很好地完成工作。这就让文本引导的图像编辑(例如“将天空的颜色更改为蔚蓝色”)更具挑战,因为模型需要同时理解文本指令与视觉内容。CM3leon 在这类场景下表现良好,具体请参考以下示例。

文本到图像

 

给定具有潜在高组合度结构的提示文本,生成遵循提示的连贯图像。

 

例如,CM3leon 根据提示词创建了以下四幅图像:

  1. 撒哈拉沙漠中戴着草帽和彩色太阳镜的小仙人掌;

  2. 人手特定照片,高质量手部模型;

  3. 动漫风格的浣熊角色准备用武士刀展开战斗,蓄势待发,幻想风,插图风格;

  4. 奇幻风格的停车标志,内容为“1991”。

 

文本引导的图像编辑

 

给定图像与文本提示,根据文本说明对图像内容做编辑处理。凭借强大的通用性,CM3leon 能够在单一模型之上完成以上与以下各项任务,这全面突破了以往只能借专用模型(例如 InstructPix2Pix)进行文本引导图像编辑的局限。


文本任务

 

CM3leon 模型还能按照一系列不同揭示词生成或短或长的标题,并回答关于图像内容的问题。

 

例如,图像内容为一只狗叼着一根棍子。

提示问题: 狗叼着什么?

模型输出: 棍子

提示词: 详细描述这张图像的内容。

模型输出: 在这张图片中,有一只狗嘴里叼着一根棍子。地面有草覆盖,背景中是一片林地。



Meta 还根据经验评估了这套指令微调模型在各种图像标题生成和视觉问答任务中的表现,并将结果与之前最先进的性能基准进行了比较。尽管 CM3leon 模型的文本数据量明显低于 Flamingo(100B)和 OpenFlamingo(40B),但其在 MS-COCO 字幕与 VQA2 问答上的零样本性能水平仍与 OpenFlamingo 相当,甚至在 VizWiz 任务上以接近 10 分的成绩击败了 Flamingo 模型。

结构引导的图像编辑

 

结构引导的图像编辑不仅要求模型正确理解并解释文本指令,还需要在输入中自行获取结构或布局信息。而 CM3leon 同样展现出强大能力,在对图像进行视觉连贯且匹配背景的编辑的同时,也能严格遵守给定的结构或布局指引。

物体到图像

 

根据给定的图像边界框生成文本描述,再将结果生成为新图像。


抠图


根据给定的图像(无文本类)抠图并生成新的图像。这里的输入,代表我们希望进行抠图的原始素材。

 

超分辨率结果

 

以上生成的所有图像均为 CM3leon 模型的原始输出结果。当然,图像生成还涉及另一种常见技巧,就是单独做超分辨率训练,借此根据原始模型生成分辨率更高的新图像。CM3leon 在这项任务上同样表现出色,具体请参见下面的文本到图像生成示例。

 

每段提示词对应四张示例图像:

  1. 一杯热气腾腾的咖啡,以山脉为背景,公路旅行中的小憩;

  2. 夕阳下美丽而雄伟的道路,审美化构图;

  3. 湖中央的圆形小岛,湖畔有森林分布,高对比度。



以下是更多生成示例:

  • 海龟在水下游泳,审美化构图,奇幻风格;

  • 大象在水下游泳,审美化构图,奇幻风格;

  • 羊群,审美化构图,奇幻风格。



参考链接:

https://ai.meta.com/blog/generative-ai-text-images-cm3leon/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-07-18 14:365648

评论 1 条评论

发布
用户头像
那么,到哪里才能买得到呢?
2023-07-20 11:36 · 北京
回复
没有更多了
发现更多内容

六字说出微服务的本质

看山

架构 微服务 签约计划第二季

Springboot拦截器使用及其底层源码剖析

南方有乔木兮

并发编程基础原理

刚刚🏂

【写作群星榜】7.24~7.31 写作平台优秀作者 & 文章排名

InfoQ写作社区官方

写作平台 排行榜 热门活动

继oneAPI之后,英特尔为异构计算跨架构编程再添“利器” 发布全新机器编程系统

最新动态

信创舆情一线--抖音、微信读书被判侵害用户个人信息权益

统小信uos

机器学习基石第五节 学习笔记

半亩房顶

Machine Learning

Go: 并发访问 Map — Part III

陈思敏捷

并发 map sync Go 语言

腾讯安全领御区块链与张裕集团达成战略合作,打造高端葡萄酒区块链溯源平台

CECBC

产品溯源 无法篡改

Java异步之《我call(),Future在哪里》

BUZHIDAO

一年多远程工作经验,说说真实的感受

盛安德软件

机器学习基石第一节 学习笔记

半亩房顶

Machine Learning

机器学习基石第四节 学习笔记

半亩房顶

Machine Learning

我收集的 3 个企业经营“失败”案例

霍太稳@极客邦科技

职场求生攻略答疑篇之 2 —— 无所适从的向上沟通

臧萌

新技术(区块链)--让游戏行业走的更远

CECBC

区块链技术 防篡改不可逆

IDEA 插件找不到?看这里!那就自己敲一个!

程序员小航

json IDEA 开发工具 idea插件 IntelliJ IDEA

助力银行核心下移,监控分布式数据库,融天鹰眼轻松应对五大挑战

DT极客

Android Development最佳实践

teoking

机器学习基石第二节 学习笔记

半亩房顶

Machine Learning

零代码可视化开发平台iVX是什么?

代码制造者

编程语言 可视化 零代码 iVX

如何进行需求梳理及埋点方案设计

易观大数据

(政务上链)新数据孤岛、安全风险等问题待解

CECBC

工作效率 公开透明 新技术

密码朋克的社会实验(三):比特币发明了什么

腾讯安全云鼎实验室

比特币 区块链 密码学

LeetCode题解:189. 旋转数组,使用新数组Copy,JavaScript,详细注释

Lee Chen

大前端 LeetCode

webRTC框架下的视频主动丢帧

fumingwang

音视频 WebRTC

机器学习基石第三节 学习笔记

半亩房顶

Machine Learning

秒杀系统

俊俊哥

秒杀

Java七种排序算法以及实现

狸猫换太子

Java 排序算法 实现

ARTS打卡Week 09

teoking

数据结构与算法之排序

shirley

排序算法

号称业界最强!Meta发布全新文生图模型,实力碾压Stable Diffusion、Midjourney_生成式 AI_凌敏_InfoQ精选文章