NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

AI 开源如何吞噬 AI

  • 2023-03-14
    北京
  • 本文字数:5420 字

    阅读完需:约 18 分钟

AI开源如何吞噬AI

本文最初发布于 swyx 的个人博客。


GPT-2 的周期为 6 个月:


  • 2019 年 2 月,OpenAI 宣布了 GPT-2,但说它太危险了,尚不能全部发布,并从非营利性改组为有限营利(capped-profit)。

  • 到了 8 月,两名硕士生公开克隆了它,并命名为 OpenGPT-2。

  • 到了 11 月,经过谨慎地分阶段发布,OpenAI 发布了他们的 1.5B 参数模型。 


GPT-3 的周期为 10 个月:

  • 2020 年 5 月:OpenAI 将 GPT-3 以论文形式发布,并在 2020 年 6 月发布了封测版 API。2020 年 7 月:EleutherAI 成为一个真正开放的 OpenAI 替代品。

  • 2020 年 9 月:授予微软“GPT-3 独家许可”。

  • 2021 年 1 月:EleutherAI 发布了 The Pile,他们 800GB 的数据集。

  • 2021 年 3 月:EleutherAI 发布了他们开放的 GPT-Neo 1.3B 和 2.7B 模型。

  • 2021 年 11 月:OpenAI 将 API 从等待列表中移除。

  • 2022 年 5 月:Meta 面向研究人员发布了 OPT-175B(包括日志和一个开放许可)。

  • 2022 年 6 月:Yandex 在 Apache-2 许可下发布 YaLM-100B。

  • 2022 年 7 月:HuggingFace 在 RAIL 许可下发布 BLOOM-176B。


Text-to-Image 的周期为两(?)年(GANs 的整个历史达 10 年之久):


  • 2020 年 6 月:OpenAI 在博客上介绍了 Image GPT。

  • 2020 年 12 月:Patrick Esser 等人发表论文 Taming Transformers for High-Resolution Image Synthesis(又称 VQGAN,大幅改进了 2019 年的 VQVAEs)。

  • 2021 年 1 月:OpenAI 宣布了第一代 DALL-E 的结果并开源 CLIP。

  • 2021 年 5 月:OpenAI 宣布,他们发现扩散模型在图像合成中击败了 GANs。

  • 2021 年 12 月:CompVis 小组发布了使用潜在扩散模型合成的高分辨率图像,以及原始存储库 CompVis/latent-diffusion。

  • 2021 年 12 月:OpenAI 发布了 GLIDE:利用文本引导扩散模型实现逼真的图像生成和编辑。

  • 2022 年 3 月:Midjourney 推出封测版。

  • 2022 年 4 月:OpenAI 宣布推出 DALL-E 2,并提供受限“研究预览”。

  • 2022 年 5 月:谷歌发布他们的 Imagen 论文(在 3 天时间内用 PyTorch 实现)。

  • 2022 年 7 月:DALL-E 2 通过 OpenAI 的 UI/API 提供公开测试版(有等待名单)。

  • 2022 年 7 月:Midjourney 也通过他们的 Discord 宣布了一个完全开放的测试版。

  • 2022 年 8 月:Stable Diffusion  1.4 公开发布,遵循 OpenRAIL-M 许可。模型和代码来自 CompVis + Runway,Stability AI 提供资金以增加计算能力。

  • 2022 年 9 月:OpenAI 将 DALL-E 2 移出等待名单。

  • 2022 年 10 月更新:Runway 发布 Stable Diffusion 1.5 版,存在一定的争议性。

  • 2022 年 11 月更新:Stability 发布 Stable Diffusion 2.0。


当然,上面这个时间线是经过仔细筛选的;如果把扩散模型(2015 年)和 Transformer 模型(2017 年)从学术论文发表到开发的历史以及 GANs 之前的工作都考虑进来,那么这个故事要长得多。还可以看下 Stable Diffusion 在 RunwayML 的研究起源,以及 2021 年 12 月,Emad 在与 Elad Gil 的聊天中对 CC12M 的突破性进展的描述。


但更有趣的是此后发生的事情。9 月份,OpenAI 发布音频转文本模型 Whisper,遵循 MIT 许可,没有设置 API 付费墙。当然,音频转文本领域的滥用空间比较小,但也有不少人猜测,人们对 Stable Diffusion 发布的反应影响了开源决策。


Dreambooth:社区掌控方向


足够先进的社区是有魔力的。研究人员和资金充足的团队一直都非常擅长创建新的基础模型(FM),但提供产品化用例和优化模型的最后一英里则是开源社区非常擅长的工作。


在这方面,最可量化的例子发生在最近的 Dreambooth 循环中(通过主题的少样本分析对 text-to-image 进行微调以插入场景)。



Dreambooth 是一个值得考虑的优化目标,因为你不仅要下载一个模型并运行它,还要在自己的样本图像上运行微调训练,但最初的移植需要大量的内存,以至于对大多数人来说,不可能在自己的机器上运行。

 是 Corridor Digital 的家伙们让它在 YouTube 上走红。


Twitter 形式的时间线:



可以看出,为了那些在自己机器上运行模型的人,开源社区在 12 天内完成了开源移植,然后在随后的 25 天内将系统要求降低了 79%。


更新:10 月 8 日,系统需求再次降低,变成 8GB。


大部分优化工作都发生在 GitHub 上,由 Xavier Xiao(来自新加坡的生成式模型和优化博士,就职于 AWS AI)和 Shivam Shrirao(驻印度的高级计算机视觉工程师)完成,并得到来自意大利的 Matteo Serva 的帮助。两人与原 Dreambooth 团队都没有关系。 


低处的果实都摘完了,使得一些人开始担心收益递减,但还是存在一些概念验证,将 Stable Diffusion 缩小到可以在手机上运行(之前已降至 10GB 甚至 5GB——消费级卡的内存为 6-12GB,iDevices 有统一内存)。


这可能是开源人工智能模型优化的圣杯,因为这样一来,图像生成实际上就不再受云经济和利润动机的限制了。


2022 年 10 月更新:这里有一个开源实现:https://github.com/madebyollin/maple-diffusion 


开源做了哪些研究人员未做的事


虽然在这 3 个新的 text-to-image 模型中,Stable Diffusion 是出现最晚的,但在社区的帮助下,它在影响力和应用方面都远远超过了另外两个与其存在竞争关系的 text-to-image 模型 Midjourney 和 DALL-E。

这就为其他形式的人工智能(音乐、生物、语言模型)如何开源(才有可能创造新的机会)提供了一个有用的、具有推广价值的路线图。


 

以下是提高所需技术技能的一个大致顺序:


改进文档


  • 原始的 CompVis README 对于初学者而言并不友好

  • 社区合力创建:

  • R*tard 指南和常规指南

  • 博客

  • 推特主题

  • YouTube 演练

  • 谷歌专栏

  • 带注释的网站和图示说明


分享 Prompt


  • Prompt 工程是一种后天技能,在 GPT3 发布 3 年后,有人仍然用它得出了令人惊讶的结果(1、2);这意味着 LLM 有很大的潜力(不只是结果),而我们尚处于初级探索阶段

  • 对于分享 Prompt,每个社区现在都有了成熟完备的方法,以此为基础,我们可以建立 Prompt 库,大幅减少寻找 Prompt 的耗时(从大于 30 秒到不足 300 毫秒,减少了 2 个数量级!),降低 Prompt 工程的学习难度。

  • 社区也是利用这种方法摸索已知的难题,如如何生成真实的手和 Negative Prompt 的重要性。

 

创建新的 UI 及改进可访问性


  • 由于 Stable Diffusion“只是”一个 Python 脚本,人们可以根据自己的需要创建自己的 UI,而不必受 Stability AI 自己的 Dreambooth 所束缚。

  • AUTOMATIC1111 已经成为社区中最重要的 Web UI,它提供了大量的功能,可谓集社区发现的 SD 使用智慧之大成。

  • 由于 ML 社区偏爱 Windows,所以开源社区已经实现了大量在 M1 Macs 或许还有 iPhone 上运行的技巧(如上所述)。

  • 通常,SD UI 是独立的应用程序,但新的交付模式使它们可以作为现有工作流程的一部分来使用,在 Photoshop、Figma、GIMP,甚至是 VR 里面。

 

以创造性的方式扩展现有特性,开创新的用例


  • 我不清楚谁首先发明了 Inpainting 和 Outpainting 技术(它最初是在 DALL-E 的公告中被提及,但是在像这样的开源 UI 被创建出来后,它才真正被广泛使用)

  • 更多:超高分辨率 Outpainting,3D 世界

  • 与其他工具/技术搭配使用是成熟创新的另一个来源:

  • “反向 Prompt 工程”也就是使用图像进行 Prompt(使用 CLIP Interrogator)

  • 使用 txt2mask 来增强 Inpainting

  • 多个后处理步骤,包括使用 Real-ESRGAN、TECOGAN、GFPGAN、VQGAN 等(如 AUTOMATIC1111 中的“hires fix”)

  • 创建一个 GRPC 服务器(用于与 Stability AI 通信)

  • 为 txt2music、music2img 等新模式做准备

优化内核


  • (如上所述)最大限度地减少 Stable Diffusion 和 Dreambooth 占用的内存

  • 将 Stable Diffusion 的速度提高了 50%


一个有趣但重要的切入点——大部分 AI/ML 的东西都是用 Python 编写的,而 Python 作为一种分发机制是很不安全的。也就是说,“开源人工智能”的兴起也将伴随“开源人工智能安全”需求的日益增加。

AI 开源的未来


整个过程让人不禁联想到开源是如何吞噬 Software 1.0 的:


  • 版本控制:从 Bitkeeper 到 Git

  • 语言:从 Java 工具链到 Python、JavaScript 和 Rust

  • 集成开发环境(IDE):从[许多相当不错的 IDE]到 VS Code 占据 60%以上的市场份额

  • 数据库:从 Oracle/IBM 到 Postgres/MySQL


Anders Hejlsberg 是 Turbo Pascal、TypeScript 等 5 种语言之父,他有一句名言:未来,不开源的语言是不会取得成功的。或许,对于技术栈中越来越多的东西,你都可以说同样的话。


我们很容易得出这样的结论,在 Software 2.0/3.0 中也会出现同样的情况,但还存在一些问题。


问题 1: 经济诱因


对于经济学家来说,希望基础模型开源发布是违反直觉的。据估计,训练 GPT-3 的成本在 460 万到 1200 万美元之间,还不包括人工成本和失败的尝试(现在,一些创业公司声称已将其降低到 45 万)。即使是 Stable Diffusion 令人印象深刻的 60 万美元成本(Emad 暗示真实数值要低得多,但也说他们的实验成本是 13 倍(200 万 A100 小时)),在没有投资回收计划的情况下,也不是什么可以随意忽视或放弃的东西。

从 OpenAI 通过 API 盈利的轨迹来看,每个人都明白 AI 经济的发展趋势:



(如果 Research > Infra 可能会有争议,所以让它们大致相等,就迁就我一下吧)


但作为非经济行为体,Stability AI 的既定目标是既压低拥有专有基础模型研究的经济价值,又扩大人工智能的总体 TAM:


这是由 Stan Shih 提出的关于行业价值分布的微笑曲线模型,Ben Thompson 也做过广泛的讨论。


最大的问题是 Stability 公司打算如何为自己融资——1 亿美元的 A 轮融资为他们争取了一些时间,但在我们真正知道 Stability 公司打算如何赚钱之前,这个生态系统不会真正稳定下来。


来自 Emad 的回应:“商业模式很简单,规模和服务与普通 COSS 类似,但有一些附加价值。


问题 2:许可


根据最坚定的开源倡导者的说法,对于开源一词,我们整篇文章中的用法都是错误的。严格地说,一个项目只有在遵循 OSI 批准的少数许可之一的情况下才是开源的。与此同时,几乎没有一个“开源 AI”模型或衍生品需要许可,诚信问题完全被忽略:


  • https://github.com/AUTOMATIC1111/stable-diffusion-webui/issues/24


  • https://github.com/divamgupta/diffusionbee-stable-diffusion-ui/issues/5


  • https://github.com/breadthe/sd-buddy/discussions/20


2022 年 10 月更新:InvokeAI 是一个例外,它遵循 MIT 许可。


Stable Diffusion 自己发布了一个新的 CreativeML Open RAIL-M 许可(RAIL 代表 Responsible AI,由一个独立的团队创建),用于管理模型权重(要花 60 万美金才能获得),其中某些部分与 OSI 批准的许可兼容,但也有些不兼容的用例限制。如果你与法律部门和 OSI 的人打过交道,就会知道这是行不通的,这种许可分歧没有法律先例可依。


StabilityAI 已经清楚地表明,你可以将其产品用于商业目的,他们甚至公开支持 Midtravel 使用 StabilityDiffusion,但当有一天,赌注扩大 1000 倍时,法律细节就开始变得重要了。


来自 HuggingFace 人工智能顾问 Carlos Muñoz Ferrandis 的说明:“Meta 发布的 OPT175(LLM)、BB3(聊天机器人)和 SEER(计算机视觉)许可类似于 RAIL(包括用例限制),仅用于研究目的(许可证有 2 个取决于模型的变体)。”


OpenAI Whisper 是我所知道的第一个模型、权重和代码都遵循 MIT 许可(简单、"真正开源")的例子。


Emad 更正道:“除了 Stable Diffusion,我们支持的所有模型都已经在 MIT 许可下发布了,例如,花了 120 万 A100 小时的 OpenCLIP。”


时间敏感提示:如果你很关心许可,则可以关注下 GitHub 和开源研究所 10 月 18 日组织的讨论和一个专家组。你也可以联系 Tidelift 总顾问 Luis Villa。


问题 3:“开源”了什么?


撇开 OSI 的批准不谈,到目前为止,我们有意忽略了另一个问题,那就是“开源”到底意味着什么。

 在传统的 Software 1.0 时代,“开源”意味着代码库开源,但不一定是基础设施设置的细节,也不一定是代码所积累/操作的数据。换句话说,开放代码并不意味着开放基础设施或开放数据(虽然不是必须的,但在实践中,通常至少会有一些关于如何自托管的基本指南)。


在 Software 2.0 时代,数据收集变得非常重要,并开始主导代码(被简化为模型架构)。像 ImageNet 这样的开放数据集帮助培养了整整一代 ML 工程师,最明显的动力来自 Kaggle 比赛,当然还有 ImageNet 挑战赛本身(在这项赛事中,AlexNet 和 CNN 推动了整个领域向深度学习的融合)。通过半同态加密,你甚至可以屏蔽数据以创建像 Numerai 这样的系统——不是严格意义上的开放,但也足够开放,无聊的数据科学家可以摆弄下这些假数字,赚点外快。不过,权重通常是不开放的,因为那是训练成本最高的内容。

有了 Software 3.0 和已知的 Chinchilla 缩放曲线,LLM 和 FM 成了人们在单一大型语料库上进行的一次性大规模投资。


“开源 AI”运动正在用几种不同的方式来解决这个问题:


  • 开放数据集:例如,LAION-5B 和 The Pile。这些数据集已经针对 Waifus、日语、中文和俄语进行了修改。

  • 开放模型:通常通过研究论文发布——如果提供了足够的细节,人们就可以自己重新实现,就像 GPT3 和 Dreambooth 那样。

  • 开放权重:这个新的潮流源于 HuggingFace 的 BigScience(发布了 BLOOM),然后由 Stability AI 应用于 text-to-image,并由 OpenAI Whisper 接续(其经济性在问题 1 中讨论过)。

  • 开放接口:不只提供了可供调用的 API,就像 OpenAI 在 GPT3 中所做的那样,而是直接提供了对代码的访问,为的是方便用户修改和编写他们自己的 CLI、UI 和其他任何他们想要的东西。

  • 开放 Prompt:用户(像 Riley Goodside)和研究人员(像 Aran Komatsuzaki)分享了 Prompt 技术的突破,释放了 FM 的潜力。



上述内容的确切顺序会根据实际的进展和背景的变化而变化,但这感觉对吗?

开源 AI 研究所?

关于“开源 ”人工智能的所有这些方面,开源促进会(Open Source Initiative)可能确实没有考虑到,而开源 AI 文化最基础的举措之一是创建一个有预期、规范和法律先例可循的可信标准。这是 Hugging Face 和 Stability AI 的机会,但也许已经有其他组织这样做了,只是我还没有发现。


延伸阅读

  • 另一条延伸到 2021 年 11 月的时间线

  • 我的大多数笔记都是在公共场合做的;我会在 GitHub 上实时更新我的想法


原文链接:https://lspace.swyx.io/p/open-source-ai

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-03-14 09:003700
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 494.3 次阅读, 收获喜欢 1967 次。

关注

评论

发布
暂无评论
发现更多内容

PostgreSQL-HA 高可用集群在 Rainbond 上的部署方案

北京好雨科技有限公司

postgresql Kubernetes 云原生 rainbond 企业号 5 月 PK 榜

flutter系列之:做一个修改组件属性的动画

程序那些事

flutter 大前端 程序那些事

专访顶象CEO: 新一代AI如何增强验证码安全性

Geek_2d6073

【自己更换模型】如何用 Serverless 一键部署 Stable Diffusion?

阿里巴巴云原生

阿里云 Serverless 云原生 动态模型

最高等级!Apache RocketMQ 入选可信开源项目星云象限领导型象限

阿里巴巴云原生

阿里云 云原生 Apache RocketMQ

百度王海峰团队荣获吴文俊人工智能科技进步奖特等奖,成果已应用于文心一言

飞桨PaddlePaddle

开源家装小程序

源字节1号

开源 软件开发 前端开发 后端开发 小程序发开

Spring Boot 单体应用一键升级成 Spring Cloud Alibaba

阿里巴巴云原生

阿里云 微服务 云原生 spring cloud alibaba

MobPush 创建应用

MobTech袤博科技

IaaS预留实例在线交易策略详解

天翼云开发者社区

云计算 大数据 云服务

轻量级思维导图工具:iMap Builder 免激活版

真大的脸盆

Mac 思维导图 Mac 软件

您的数据可以压缩吗?

ScaleFlux

存储成本 存储技术 数据压缩

DPDK与ScaleFlux CSD 3000:金融数据处理的创新组合

ScaleFlux

DPDK 存储技术 数据压缩 金融开源

精通Vue.js系列实例教程 │ Vue组件的数据监听

TiAmo

Vue Web Worker 监听 watche

出海无从下手?看社交泛娱乐出海「第一趁手工具」怎么说

融云 RongCloud

互联网 社交 融云 泛娱乐 出海

长三角生物医药产业加速跑,飞桨螺旋桨为创新药企、医药技术伙伴装上AI大模型引擎

飞桨PaddlePaddle

飞桨 生物医药

【web 开发】快来给你的类定个标准 -PHP 的接口技术(64)

迷彩

php 接口 interface 三周年连更 类扩展

2023高质量Java面试题集锦:高级Java工程师面试八股汇总

采菊东篱下

Java 面试

解析内存中的高性能图结构

NebulaGraph

数据结构 图数据库

小程序:技术标准与生态的演变

没有用户名丶

ChatGPT火了,客服产业怎么办?

创智荟

知识计算 客服 ChatGPT 数字员工

openEuler 社区 2023 年 4 月运作报告

openEuler

Linux 开源 操作系统 openEuler 资讯

ScaleFlux压缩存储产品通过 PolarDB-PG社区版和PolarDB-X 开源版认证

ScaleFlux

开源数据库 数据压缩 数据库技术 企业数据

【修复问题】HBuilder打包编译报错汇集(持续更新)

红泥

分享:两年两度升级数据库,我们经历了什么

OceanBase 数据库

数据库 oceanbase

应用在虚机和容器场景下如何优雅上下线

华为云开源

微服务 云原生

解决centos7.0安装mysql后出现access defind for user@'localhost'的错误

北桥苏

MySQL

日常节省 30%计算资源:阿里云实时计算 Flink 自动调优实践

Apache Flink

大数据 flink 实时计算

CCIG 2023 百度飞桨分论坛:大模型时代的图象图形技术变革与实践

飞桨PaddlePaddle

极狐(GitLab)重磅发布新产品「极狐星」,让研发效能看得清,算得准,成就企业精英效能管理

极狐GitLab

DevOps 研发管理 研发效能 极狐GitLab 研发效能度量

可计算存储技术全面升级CSD 3000存储体验

ScaleFlux

人工智能 机器学习 计算与存储 数据压缩

AI开源如何吞噬AI_开源_swyx_InfoQ精选文章