阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

号称业界最强!Meta 发布全新文生图模型,实力碾压 Stable Diffusion、Midjourney

  • 2023-07-18
    北京
  • 本文字数:2980 字

    阅读完需:约 10 分钟

号称业界最强!Meta发布全新文生图模型,实力碾压Stable Diffusion、Midjourney

Meta 公司称,这款模型在文生图方面的表现,达到了业界最高水平。

Meta 开发出文生图模型 CM3Leon

 

近日,Meta 公司宣布开发出一款名为 CM3Leon(发音类似「chameleon」)的文生图模型,该模型能够独力解决文本到图像和图像到文本的双向生成任务。

 

Meta 表示:“在打造高质量生成模型的探索之路上,我们相信 CM3leon 在各类任务中的强大性能,正是迈向高保真度图像生成与理解的重要一步。像 CM3leon 这样的模型终将成为元宇宙中的创造力源泉与应用成果,我们也期待继续突破多模态语言模型的新疆界、未来将更多优秀模型呈现在大家面前。”

 

据介绍,CM3leon 是首个使用纯文本语言模型配方改编和训练而成的多模态模型,并经历了大规模检索增强预训练和随后的多任务监督微调(SFT)阶段。与 Stable Diffusion、DALL-E、Midjourney 等文生图模型依赖于扩散(diffusion)模型技术不同,CM3Leon 采用了基于 token 的自回归模型方法。

 

Meta 表示,尽管训练时的计算量仅相当于以往基于 Transformer 方法的五分之一,但 CM3leon 在文本到图像的生成方面还是获得了同类领先的性能。CM3leon 既具备自回归模型的功能多样性和有效性,也保持着较低的训练成本和良好的推理效率。作为一套因果掩码混合模态(CM3)模型,它能够以其他图像和文本内容的任意序列为条件,生成相应的文本与图像序列。这极大扩展了以往大模型只能从文本到图像、或者只能从图像到文本的功能局限。

 

一般来讲,纯文本生成模型往往会针对各类不同任务进行多任务指令调整,借此增强其遵循指令提示的能力;而图像生成模型则更多适配特定任务。Meta 将大规模多任务指令调节运用到 CM3leon 的图像和文本生成当中,事实证明能够显著提高图像标题生成、视觉问答、基于文本的图像编辑和按条件生成图像等能力。这也成为强有力的实例,证明为纯文本模型开放的扩展配方也能直接推广到基于 token 化的图像生成模型当中。

 

Meta 称,与目前广泛使用的图像生成基准(零样本 MS-COCO)进行性能比较时,CM3leon 获得了 4.88 的 FID(Fréchet Inception Distance,一种用于计算真实图像与生成图像间特征向量距离的指标,FID 值越小则相似度越高,最好为 0),超越谷歌的文本到图像模型 Parti,证明了自身技术的先进性。

 

此外,CM3leon 还表现出令人印象深刻的复杂组合对象生成能力。CM3leon 在各类视觉语言任务中均表现良好,包括视觉问答和生成长格式标题。由于训练数据集仅包含 30 亿文本 token,因此 CM3leon 的零样本性能也超越了由更广泛数据集训练而成的、体量更大的其他模型。

CM3leon 是如何打造出来的?

 

据介绍,CM3leon 架构采用的是类似基于文本类模型、已经成熟的纯解码器 Transformer。但它的独特之处,在于能够同时输入和生成文本加图像。正是凭借这种能力,CM3leon 才得以成功解决前文提到的各项任务。

 

训练方面,Meta 表示,通过一系列努力,CM3leon 的训练检索得到了增强,大大提高了模型成果的效率和可控性。此外,Meta 还根据各种不同图像和文本生成任务对模型进行了指令微调。

 

随着 AI 行业的不断发展,像 CM3leon 这样的生成模型正变得越来越复杂。这些模型通过数百万的示例图像接受训练,学习视觉效果与文本之间的关系,但同时也可能反映训练数据集中存在的偏差/偏见。Meta 称,目前 AI 行业仍处于理解和应对这些挑战的早期阶段,提升透明度才是加速解决这些问题的关键。

 

Meta 使用许可数据集作为 CM3leon 的训练素材。在预训练阶段,Meta 使用了数百万张来自 Shutterstock 的授权图片,有着高达 70 亿个参数,这也达到了 OpenAI EALL-E2 模型的两倍以上。

 

Meta 方面表示:“在文本到图像生成领域,图像数据来源的道德影响已经引发了广泛的讨论。在这一研究中,我们只使用 Shutterstock 上的经过授权的图像,因此可以避免与图像所有权和归属相关的担忧,同时不会牺牲性能。”

 

事实证明,即使使用与先前所有模型的训练数据都截然不同的数据分布,仍可实现强大的性能。通过全工作流程的透明展示,Meta 希望鼓励生成式 AI 领域能够迎来更多合作与创新,打造出不仅更准确、而且对每个人都更加公平和公正的 AI 模型。

CM3leon 的跨任务执行

 

CM3leon 的强大之处在于更好地遵循输入提示以生成更连贯的图像。例如,多数原有图像生成模型都难以准确还原全局形态和局部细节,而 CM3leon 在这方面表现出色,以下是 CM3leon 在各类任务中的表现(所有任务均由单一模型处理完成)

文本引导的图像生成与编辑

 

一般来说,如果约束条件要求将复杂的对象或提示全部体现在输出结果中时,图像生成模型往往难以很好地完成工作。这就让文本引导的图像编辑(例如“将天空的颜色更改为蔚蓝色”)更具挑战,因为模型需要同时理解文本指令与视觉内容。CM3leon 在这类场景下表现良好,具体请参考以下示例。

文本到图像

 

给定具有潜在高组合度结构的提示文本,生成遵循提示的连贯图像。

 

例如,CM3leon 根据提示词创建了以下四幅图像:

  1. 撒哈拉沙漠中戴着草帽和彩色太阳镜的小仙人掌;

  2. 人手特定照片,高质量手部模型;

  3. 动漫风格的浣熊角色准备用武士刀展开战斗,蓄势待发,幻想风,插图风格;

  4. 奇幻风格的停车标志,内容为“1991”。

 

文本引导的图像编辑

 

给定图像与文本提示,根据文本说明对图像内容做编辑处理。凭借强大的通用性,CM3leon 能够在单一模型之上完成以上与以下各项任务,这全面突破了以往只能借专用模型(例如 InstructPix2Pix)进行文本引导图像编辑的局限。


文本任务

 

CM3leon 模型还能按照一系列不同揭示词生成或短或长的标题,并回答关于图像内容的问题。

 

例如,图像内容为一只狗叼着一根棍子。

提示问题: 狗叼着什么?

模型输出: 棍子

提示词: 详细描述这张图像的内容。

模型输出: 在这张图片中,有一只狗嘴里叼着一根棍子。地面有草覆盖,背景中是一片林地。



Meta 还根据经验评估了这套指令微调模型在各种图像标题生成和视觉问答任务中的表现,并将结果与之前最先进的性能基准进行了比较。尽管 CM3leon 模型的文本数据量明显低于 Flamingo(100B)和 OpenFlamingo(40B),但其在 MS-COCO 字幕与 VQA2 问答上的零样本性能水平仍与 OpenFlamingo 相当,甚至在 VizWiz 任务上以接近 10 分的成绩击败了 Flamingo 模型。

结构引导的图像编辑

 

结构引导的图像编辑不仅要求模型正确理解并解释文本指令,还需要在输入中自行获取结构或布局信息。而 CM3leon 同样展现出强大能力,在对图像进行视觉连贯且匹配背景的编辑的同时,也能严格遵守给定的结构或布局指引。

物体到图像

 

根据给定的图像边界框生成文本描述,再将结果生成为新图像。


抠图


根据给定的图像(无文本类)抠图并生成新的图像。这里的输入,代表我们希望进行抠图的原始素材。

 

超分辨率结果

 

以上生成的所有图像均为 CM3leon 模型的原始输出结果。当然,图像生成还涉及另一种常见技巧,就是单独做超分辨率训练,借此根据原始模型生成分辨率更高的新图像。CM3leon 在这项任务上同样表现出色,具体请参见下面的文本到图像生成示例。

 

每段提示词对应四张示例图像:

  1. 一杯热气腾腾的咖啡,以山脉为背景,公路旅行中的小憩;

  2. 夕阳下美丽而雄伟的道路,审美化构图;

  3. 湖中央的圆形小岛,湖畔有森林分布,高对比度。



以下是更多生成示例:

  • 海龟在水下游泳,审美化构图,奇幻风格;

  • 大象在水下游泳,审美化构图,奇幻风格;

  • 羊群,审美化构图,奇幻风格。



参考链接:

https://ai.meta.com/blog/generative-ai-text-images-cm3leon/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-07-18 14:365618

评论 1 条评论

发布
用户头像
那么,到哪里才能买得到呢?
2023-07-20 11:36 · 北京
回复
没有更多了
发现更多内容

「Java」本地文件上传下载预览

价投小邱

文件 下载 文件上传 #java

C#/VB.NET:删除PDF文档中的页面

Geek_249eec

C# VB.NET 删除PDF页面

DevSecOps | 极狐GitLab 动态应用程序安全测试(DAST)使用指南

极狐GitLab

DevOps gitlab 运维 测试 CI/CD

李小龙的话道出了移动端“小程序化”的核心——似水无形

FinClip

英特尔CEO帕特·基辛格:以先进计算和封装创新,满足数字时代算力需求

科技之家

MySQL基础笔记

楠羽

#开源

浅聊一下邮件通知的批量推送

为自己带盐

dotnetcore 8月月更 邮件发送

Python自学笔记6-列表有哪些常用操作

和牛

Python 测试 8月月更

“小程序化”如何助力智慧产业园区建设破题?

FinClip

腾讯云数据安全中台保护方案获“首届全国商用密码应用优秀案例”

腾讯安全云鼎实验室

云安全

【数据结构实践】手把手带你简单实现Python自定义栈

迷彩

数据结构 算法 堆栈 8月月更

开发制作数字藏品app原理

开源直播系统源码

NFT 数字藏品 数字藏品开发 数字藏品系统

喜报 | 博睿数据两项发明专利获得国家知识产权局授权,累计发明专利11项

博睿数据

APM 可观测性 博睿数据 智能运维AIOps 发明专利

万物皆可集成系列:低代码释放用友U8+深度价值(3)— 数据融合应用

葡萄城技术团队

如何用文字让 ta 动心?

图灵社区

如何用文字让 ta 动心?

图灵教育

4 天 7 条 PR,80% 代码覆盖率,开源是「内卷」还是修炼?

腾源会

开源 腾源会 开源摘星计划

英特尔联手产业伙伴打造绿色、低碳、智能数据中心

科技之家

Java更改 PDF 页面大小

在下毛毛雨

如果重新学计算机

价投小邱

Linux 计算机网络 操作系统

追一科技携手华为云助力中小企业数字化,Face虚拟数字人亮相828企业节

sofiya

一次纯线上接口异常的排查过程

南城FE

node.js 前端

Shuttle + Alluxio 加速内存Shuffle起飞

Alluxio

开源 OPPO Alluxio spark SQL 8月月更

世界人工智能大会阿里巴巴专场论坛《数字时代的技术责任》来了!

阿里技术

最新首发!这份 Github 星标 8K 的 Redis 高级笔记真是yyds

了不起的程序猿

Java redis JAVA开发 java程序员

一文搞懂 SAE 日志采集架构

阿里巴巴云原生

阿里云 Serverless 云原生

Spark Optimizer 规则下的 BUG 排查与修复全记录

观远数据

saprk

商派oneX新零售系统上架华为云云商店,首次参与“828企业节”

神奇视野

“中国建筑业竞争力百强”中化二建如何做知识管理?

sofiya

Logstash

平凡人生

招行架构师徐佳航:金融云原生与开源标准的共同生长

阿里巴巴云原生

阿里云 开源 容器 云原生 KubeVela

号称业界最强!Meta发布全新文生图模型,实力碾压Stable Diffusion、Midjourney_生成式 AI_凌敏_InfoQ精选文章