FinOps有望降低企业50%+的云成本! 了解详情
写点什么

OpenAI 宣布 DALL·E 开放测试版:面向 100 万用户,有文字就能生成图片

  • 2022-07-22
  • 本文字数:1349 字

    阅读完需:约 4 分钟

OpenAI宣布DALL·E开放测试版:面向100万用户,有文字就能生成图片

DALL·E 测试版终于来了,想好让 AI 生成什么图片了吗?

DALL・E 开放 100 万人大型公测


7 月 20 日,OpenAI 宣布将从候补名单中邀请 100 万用户,向其开放 DALL·E 测试版


2021 年 1 月,OpenAI 正式推出 DALL·E,这是一个 AI 系统,可以根据文字描述创建图像。一年后,DALL·E 升级至 DALL·E 2,能够以 4 倍的分辨率生成更逼真、更准确的图像。


比如,输入“宇航员”,DALL·E 2 就可以生成以下这些图片。



输入“与猫在太空打篮球”,DALL·E 2 就可以生成以下这些图片。



据悉,DALL·E 2 可以根据自然语言标题对现有图像进行逼真的编辑。它可以在考虑阴影、反射和纹理的同时添加和删除元素。下图左、右分别是原始图像与 DALL·E 编辑过的图像,可以看到 DALL·E 在图像中添加了个火烈鸟泳圈,并且与原始图片没有违和感。



根据 OpenAI 的介绍,DALL·E 2 学习了图像和用于描述图像的文本之间的关系。它使用一种称为“扩散”的过程,该过程从随机点的图案开始,并在识别图像的特定方面时逐渐改变该图案朝向图像。


OpenAI 表示,被邀请用户在第一个月将获得 50 个免费积分,接下来的每个月将获得 15 个免费积分。每个积分可用于一个原始 DALL·E 提示生成(返回 4 张图片)或一个编辑/变化提示(返回 3 张图片)。免费积分不够的话,用户可以以 15 美元的价格购买 115 个积分。


虽然 DALL·E 2 功能强大,但计算机科学家们的那句老话说得好:垃圾进、垃圾出,AI 也不例外。比如,这类模型也会出现社会偏见和刻板印象例如总体更倾向于生成肤色较浅的人像,也更倾向于生成符合西方世界刻板印象的职业与性别组合。例如,在让 DALL-E 生成“空乘人员”图像时,给出的几乎全是女性形象。而如果要求生成“CEO”图片,得到的就基本都是“老白男”。


谷歌近期发布的同类型模型 Imagen 也是如此。对于这种偏见,谷歌自己的结论是,Imagen“目前尚不适合公众使用”,并表示计划开发一种新方法来衡量“未来工作中的社会与文化偏见”,希望借此测试模型的后续迭代。

DALL·E 背后的功臣——深度学习模型 CLIP


DALL·E 能够将文字生成图像,背后全是深度学习模型 CLIP 的功劳。


2021 年,OpenAI 发布了CLIP,能够将文本和图像映射到相同的嵌入空间中,让用户判断文本描述是否与给定的图像匹配,该模型在很多计算机视觉任务中被证明是有效的。CLIP 以及类似的模型都是在图像-文本组合的数据集上进行训练,这些数据都是从互联网上搜集而来。随后,OpenAI 用 CLIP 创建了 DALL-E 模型


论文:https://arxiv.org/abs/2204.06125


据悉,CLIP 是一组模型,有 9 个图像编码器、5 个卷积编码器和 4 个 transformer 编码器。


卷积编码器是 ResNet-50、ResNet-101 和类似 EfficientNet 的模型,称为 RN50x4、RN50x16、RN50x64(数字越大,模型越好)。transformer 编码器是视觉变压器(或 ViT):ViT-B/32、ViT-B/16、ViT-L/14 和 ViT-L/14@336。最后一个在分辨率为 336×336 像素的图像上进行微调,其他的则在 224×224 像素上进行训练。


文本编码器是一个普通的 transformer 编码器,但具有掩蔽注意力。它由 12 层组成,每层有 8 个注意力头,总共有 63M 参数。有趣的是,注意力跨度只有 76 个 token(相比之下,GPT-3 有 2048 个 token,标准 BERT 有 512 个 token)。因此,模型的文本部分只适用于相当短的文本,不能在模型中放入大段文本。

2022-07-22 16:063950

评论

发布
暂无评论
发现更多内容

太赞了!一份适合程序员的精选面试题清单。

JackTian

GitHub 开源 编程 程序员 面试

让你眼前一亮的 10 大 TS 项目

阿宝哥

Java typescript 开源 大前端 Web

面向对象设计模式课程小结

梅子黄时雨

极客大学架构师训练营

rodert单排学习redis进阶【白银一】

JavaPub

Java nosql redis

极客大学架构师训练营 系统架构 第7课 听课总结

John(易筋)

极客时间 系统架构 高并发 极客大学 极客大学架构师训练营

架构师训练营第三周命题作业

lwy

极客大学架构师训练营

架构师训练营第三周学习总结

lwy

windows使用docker运行mysql等工具(二)安装运行mysql

Java旅途

MySQL Docker

良心推荐 | LeetCode(力扣),算法、数据结构的学习良伴

YoungZY

算法

组合设计模式编码&手写单例模式

吴建中

极客大学架构师训练营

第三周-设计模式-学习总结

吴建中

极客大学架构师训练营

Oracle SQL调优系列之看懂执行计划explain

Nicky.Ma

sql

架构师训练营 第三周 学习总结

RZC

架构师是怎样炼成的-3-2-设计模式

闷骚程序员

【非原创】微服务设计

Arthur

极客大学架构师训练营 框架开发 模式与重构 JUnit、Spring、Hive核心源码解析 第6课

John(易筋)

spring 极客时间 极客大学 极客大学架构师训练营 JUnit

第三周作业

晨光

架构师训练营第三周作业和小记

tuuezzy

架构师 极客大学架构师训练营

[架构师训练营] Week01 -学习总结

谭方敏

架构师训练营 第三周 命题作业

RZC

Zookeeper通信协议详解

tunsuy

zookeeper TCP/IP 通信协议

极客大学架构师训练营 框架开发 第三次作业

John(易筋)

极客时间 设计模式 极客大学 极客大学架构师训练营 框架开发

第三周总结

晨光

区块链改变数字营销与广告市场

CECBC

区块链技术 广告业 精准投放 去中介 公开透明

第三周手写单例模式(饿汉模式)

吴建中

极客大学架构师训练营

架构师训练营第四周-总结

无心水

极客大学架构师训练营

windows使用docker运行mysql等工具(一)windows安装docker

Java旅途

MySQL Docker

一个汉字占几个字节你真的记住了吗?

Java旅途

Zookeeper集群模式启动

tunsuy

zookeeper 源码分析 socket 分布式集群

Zookeeper的数据剖析

tunsuy

zookeeper 日志分析 事务 快照 数据恢复

架构师训练营第四周

Melo

  • 需要帮助,请添加网站小助手,进入 InfoQ 技术交流群
OpenAI宣布DALL·E开放测试版:面向100万用户,有文字就能生成图片_AI_凌敏_InfoQ精选文章