写点什么

Databricks 来搅局了:0 门槛克隆 ChatGPT,完全开源可随意修改商用

  • 2023-04-16
    北京
  • 本文字数:3232 字

    阅读完需:约 11 分钟

Databricks来搅局了:0门槛克隆ChatGPT,完全开源可随意修改商用

全球首个完全开源的大语言模型,性能堪比 GPT3.5!

 

大数据热潮催生了许多成功的公司,例如 Snowflake、Databricks、Splunk 和 Cloudera。现在我们进入了生成式人工智能时代,那么会不会有新的“人工智能和大数据”结合方式?

 

最近,大数据公司Databricks就在生成式人工智能领域采取了行动。两周前,该公司发布了一个名为 Dolly 的开源大型语言模型,旨在应对市场对于生成式 AI 及相关应用的旺盛需求,我们可以称之为 Dolly 1.0。

 


像 ChatGPT 和 Bard 这样的生成式 AI,它们使用的数据通常来自于在成千上万不同网站,使用的数据量十分惊人,而且想要使用这些数据训练 AI 还需要数以千计的强大 GPU 在背后提供支持。Databricks 希望通过开源 Dolly 1.0 及其训练数据,让任何人都能开发出一个真正像人类的 AI,而无需投资数百万美元,这让这类 AI 不再是只有大型科技公司才能负担得起的东西,数以百万计的小公司也将能够从中受益。

 

Databricks 首席执行官 Ali Ghodsi 表示,Dolly 1.0 只需要非常少的数据和非常短的时间就能完成训练,“只需 30 美元、一台服务器和三个小时,我们就能教 Dolly 开始进行人类级别的交互。”

 

4 月 12 日,Databricks 再次发布了该大语言模型(LLM)的开源迭代版本,并命名为 Dolly 2.0。Databricks 表示,Dolly 2.0 是业内第一个开源、遵循指令的 LLM,它在透明且免费提供的数据集上进行了微调,该数据集也是开源的,可用于商业目的。这意味着 Dolly 2.0 可用于构建商业应用程序,无需支付 API 访问费用或与第三方共享数据。

 

Dolly 2.0 的诞生

 

Dolly 1.0 基于 EleutherAI 在 2021 年开源的自然语言处理模型 GPT-J。GPT-J 是一个基于 GPT-3,由 60 亿个参数组成的自然语言处理 AI 模型。但该模型使用了来自 StanfordAlpaca 项目的 5.2 万个问答数据集,是根据 OpenAI 的 ChatGPT 的输出进行训练的,因为 OpenAI 的使用条款限制,Dolly 1.0 并不能用于商业用途。

 

Databricks 在官方博文中指出,“用于训练 Dolly 1.0 的数据集中,包含来自 ChatGPT 的输出。斯坦福团队明确提到,OpenAI 的服务条款试图阻止任何人创建能够与其竞争的 AI 模型。”

 

Dolly 2.0 建立在 Databricks 公司首版 Dolly 的基础之上,为了规避这个问题并建立起可供商用的模型,Databricks 使用基于 EleutherAI 的 Pythia 模型家族中的 120 亿参数语言模型,成功构建起了 Dolly 2.0。

 

该公司表示,他们专门在 5000 名 Databricks 员工之内开展了众包,通过高质量的人工生成指令建立起训练数据集,借此完成了模型训练和微调。该公司将这套高质量的人工生成响应/揭示数据集称为 databricks-dolly-15k,其使用 Creative Commons Attribution-ShareAlike 3.0 Unported License 许可。

 

“任何人均可出于任何目的使用、修改或扩展这套数据集,包括商业应用程序。”Databricks 还强调,该数据集可通过 GitHub 页面(https://github.com/databrickslabs/dolly/tree/master/data)直接下载。

 

模型权重则可通过 Databricks Hugging Face 页面(https://huggingface.co/databricks)处下载获取。

 

Dolly 2.0 想成为大小公司的福音

 

Databricks 之所以发布基于开源数据的大语言模型,主要是考虑到企业客户对控制模型并引入针对性场景/特定用例的需求。这也与行业常见的商业闭环训练模型(例如 ChatGPT)形成了鲜明对比。

 

市场调研公司 Omdia 首席分析师 Bradley Shimmin 表示,“Dolly 2.0 这类模型大多是开放的,不需要在大规模 GPU 集群上进行长达数月的训练,因此为那些希望构建内部生成式 AI 方案的企业打开了新世界的大门。”

 

Shimmin 指出,“这些小型(即训练参数的规模较小)模型使用大量提示/响应对作为训练数据,因此特别适合希望控制整个解决方案、支持针对性用例的企业客户。例如,他们可以利用现有问答配对建立的帮助台数据库训练自己的 AI 模型。”

 

根据咨询公司 Amalgam Insights 首席分析师 Hyoun Park 的说法,开源大语言模型的另一大优势,在于 Dolly 2.0 这类成果能够让企业更好地跟踪数据治理和驻留,并与所支持的用例保持良好的关联性。

 

Park 还专门拿 OpenAI 的名称打趣,说“因为 OpenAI 的 ChatGPT 等其他模型在使用时要依赖于 API。对某些企业而言,这种依赖性可能引发关于 API 的合规性、治理或数据安全问题。”

 

这也相当于,Dolly 2.0 和其他基于开源的大语言模型将在受严格监管的行业中成为各企业的福音。这是个良好的开端,让企业意识到他们也可以创建并拥有自己的模型,且无需支付 API 访问费或与大语言模型提供商共享数据。这些在受到严格监管的行业中都可能产生巨大的问题。

 

开源与闭源大语言模型间的区别

 

与闭源大语言模型相比,基于开源的模型所使用的训练数据对公众开放,因此可根据业务进行微调和定制以满足企业需求。相比之下,ChatGPT 等闭源模型则根据其开发者 OpenAI 所掌握的训练进行训练,模型可通过 API 付费访问,且禁止直接用于商业用途。

 

Chandrasekaran 认为,“「开放式大语言模型」可以有多种理解方式。最明显也最重要的一点,就是对这些模型的源代码和部署灵活性做出调整。除此之外,开放的范围还可以涵盖模型权重、训练数据集以及开放/协作方式层面的决策。”

 

IDC 的 Schubmehl 表示,Dolly 2.0 就遵循基于开源的模型这一理念。“Dolly 2.0 是一套大语言模型,模型本体、训练代码、数据集和模型权重都可作为开源资源从 Databricks 处获取,以供企业根据业务需求创建自己的定制化大语言模型。”Schubmehl 同时提到,这种方法与其他大语言模型形成了鲜明对比,后者往往并不开放模型构建中的各类组成要素。

 

分析人士还提到,闭源与开源大语言模型间的另一个区别,主要体现在训练的参数量上。其中闭源大语言模型的参数规模往往更大。以 ChatGPT4 为例,其训练中使用到 100 万亿个参数;相比之下,Dolly 2.0 的参数量只有区区 120 亿个。

 

Dolly 2.0 如何融入 Databricks 的生成式 AI 战略

 

Constellation Research 的 Thurai 表示,Databricks 此次推出 Dolly 2.0 可以算是其夺取生成式 AI 市场份额的一项重要战略。

 

“从本质上讲,众多大语言模型和基础模型业务都被掌握在超大规模企业手中。每家企业都有自己的变体——微软有 ChatGPT、谷歌有 Bard,AWS 则通过 Huggingface 合作伙伴关系提供基础设施、流程、工具及模型共享和目录服务。Databricks 当然不能坐以待毙,必须在热火朝天的大语言模型市场上分一杯羹。”

 

其他分析师则认为,Dolly 的发布符合 Databricks 公司向市场投放开源产品的战略。

 

IDC 的 Schubmehl 表示,“Databricks 的专长,就是通过各种开源 AI 工具和服务帮助客户充分利用自己的数据和运营体系。Dolly 是另一个绝佳安全,能够为组织提供基于最新 AI 技术的选项,也就是大语言模型。”但分析师们也承认,Databricks 的 Dolly 2.0 恐怕无法立刻对 ChatGPT 或 Bard 等竞争对手产生影响。

 

Omdia 公司的 Shimmin 认为,“Dolly 乃至其他开源生成式 AI 大语言模型的出现,将彻底颠覆 Bard、ChatGPT 和 Galactica 等现有大语言模型的未来前景。但从中短期来说,这些成果在 Google Workplace、微软 Office 等产品中的地位还将稳固地维持下去。”

 

Amalgam Insights 的 Park 则给出了不同意见,认为 Dolly 最终会成为 ChatGPT 这类通用工具的功能伴侣。“人们会从通用工具中学习如何使用和提示生成式 AI,而 Dolly 这类模型则负责帮助用户处理更具体、更专业的特定工作用例。”

 

另外,也有评论指出,Dolly-like LLM 的一个能力是可以用来编写代码,特别是 SQL 代码。这可能会导致非 SQL 专家能够在 Databricks lakehouse 上设置和运行查询。 

 

这可以从两方面来理解:第一,SQL 开发人员可以使用它来提高工作效率,第二,你不需要那么多 SQL 开发人员。Dolly 可以减少 Databricks 对 SQL 程序员的需求。将这种想法扩展到 Snowflake 和所有其他数据仓库环境,SQL 技能在未来可能会变得不那么有价值。

 

参考链接:

https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm

https://www.infoworld.com/article/3693349/why-did-databricks-open-source-its-llm-in-the-form-of-dolly-2-0.html

2023-04-16 12:206141

评论

发布
暂无评论
发现更多内容

啥?阿里DBA团队总监把MySQL 性能调优 金字塔,写进了800页笔记?

Java~~~

Java MySQL 数据库 架构 面试

vivo全球商城时光机 - 大型促销活动保障利器

vivo互联网技术

电商平台 优惠券 亿级架构设计 促销系统

不愧是阿里内部“SpringCloudAlibaba学习笔记”这细节讲解,神了

Java 程序员 架构 微服务 计算机

反向压力

程序员鱼皮

架构 系统设计 大前端 后端 实时计算

Github上标星250k的阿里Java面试复盘手册,看完竟如此的无敌?

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

五分钟搞定Docker安装ElasticSearch

咔咔

Docker 死磕Elasticsearch

Github惊现神作,这份算法宝典让你横扫各大厂算法面试题

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

遇到联邦计算数据碰撞难题怎么办?不妨试一试PSI

华为云开发者联盟

隐私保护 隐私计算 PSI 联邦计算 数据碰撞

2W字!详解20道Redis经典面试题!(珍藏版)

Java redis 架构 后端 计算机

【Google Cloud】「Contact Center AI」引领我们走向高度智能客服的时代

码界西柚

话题王者 8月日更 Contact Center AI Google Cloud

技术干货 | 应用性能提升 70%,探究 mPaaS 全链路压测的实现原理和实施路径

蚂蚁集团移动开发平台 mPaaS

压测 网关 移动开发 mPaaS

Python实现批量压缩文件/文件夹——zipfile

Python研究者

8月日更

CC通用成绩查询小程序(云开发无服务器解决方案)

CC同学

2021预备秋招:Java面试必看的1000道面试解析,助你通过大厂面试

Java 程序员 架构 面试 后端

阿里P8整理出SQL笔记:收获不止SOL优化抓住SQL的本质

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

阿里被转载上100W次的Java面试题教程!已助我拿下9家大厂offer

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

良心!鹅厂强推的SpringCloud、Nginx高并发编程

Java~~~

Java nginx spring 架构 面试

MySQL到ClickHouse的高速公路-MaterializeMySQL引擎

华为云数据库小助手

sql GaussDB dba 华为云数据库 DAS

拆分电商系统为微服务

面向对象的猫

千金难求!火遍GitHub的这份阿里Java面试汇总已上热搜

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

带你掌握JS防抖与节流

华为云开发者联盟

面试 定时器 节流 JS防抖 触发

GitHub惊现!全网首份开源的深入理解JVMG1GC的算法与实现手册

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

阿里内部流传的JDK源码剖析手册!GitHub已获上千万的访问量

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

在GitHub发布秒获百万访问!就凭这份Java程序性能优化实战笔记?

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

Vue进阶(八十五):vue-router Hash模式跳转及懒加载

No Silver Bullet

Vue 路由 8月日更

封笔之作!阿里P8手写的Java高手是怎样练成的原理方法与实践笔记

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

八家知名大厂联合手写的Java面试手册刚上线!竟就到达巅峰?

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

创业增长黑客 – 如何低成本获取种子用户|冷启动实战案例 – 挖掘用户需求背后的真实动机

蒋川

用户增长 需求落地 产品经历 业务增长 数据思维

接口测试参数化(环境变量使用)----apipost

Proud lion

大前端 后端 Postman 开发工具 接口文档

微信自研生产级paxos类库PhxPaxos实现原理介绍

OpenIM

IM

别再找我给你重启程序啦!让你supervisor帮你搞定

Java 程序员 架构 后端

Databricks来搅局了:0门槛克隆ChatGPT,完全开源可随意修改商用_开源_核子可乐_InfoQ精选文章