亮网络解锁器,解锁网络数据的无限可能 了解详情
写点什么

Databricks 来搅局了:0 门槛克隆 ChatGPT,完全开源可随意修改商用

  • 2023-04-16
    北京
  • 本文字数:3232 字

    阅读完需:约 11 分钟

Databricks来搅局了:0门槛克隆ChatGPT,完全开源可随意修改商用

全球首个完全开源的大语言模型,性能堪比 GPT3.5!

 

大数据热潮催生了许多成功的公司,例如 Snowflake、Databricks、Splunk 和 Cloudera。现在我们进入了生成式人工智能时代,那么会不会有新的“人工智能和大数据”结合方式?

 

最近,大数据公司Databricks就在生成式人工智能领域采取了行动。两周前,该公司发布了一个名为 Dolly 的开源大型语言模型,旨在应对市场对于生成式 AI 及相关应用的旺盛需求,我们可以称之为 Dolly 1.0。

 


像 ChatGPT 和 Bard 这样的生成式 AI,它们使用的数据通常来自于在成千上万不同网站,使用的数据量十分惊人,而且想要使用这些数据训练 AI 还需要数以千计的强大 GPU 在背后提供支持。Databricks 希望通过开源 Dolly 1.0 及其训练数据,让任何人都能开发出一个真正像人类的 AI,而无需投资数百万美元,这让这类 AI 不再是只有大型科技公司才能负担得起的东西,数以百万计的小公司也将能够从中受益。

 

Databricks 首席执行官 Ali Ghodsi 表示,Dolly 1.0 只需要非常少的数据和非常短的时间就能完成训练,“只需 30 美元、一台服务器和三个小时,我们就能教 Dolly 开始进行人类级别的交互。”

 

4 月 12 日,Databricks 再次发布了该大语言模型(LLM)的开源迭代版本,并命名为 Dolly 2.0。Databricks 表示,Dolly 2.0 是业内第一个开源、遵循指令的 LLM,它在透明且免费提供的数据集上进行了微调,该数据集也是开源的,可用于商业目的。这意味着 Dolly 2.0 可用于构建商业应用程序,无需支付 API 访问费用或与第三方共享数据。

 

Dolly 2.0 的诞生

 

Dolly 1.0 基于 EleutherAI 在 2021 年开源的自然语言处理模型 GPT-J。GPT-J 是一个基于 GPT-3,由 60 亿个参数组成的自然语言处理 AI 模型。但该模型使用了来自 StanfordAlpaca 项目的 5.2 万个问答数据集,是根据 OpenAI 的 ChatGPT 的输出进行训练的,因为 OpenAI 的使用条款限制,Dolly 1.0 并不能用于商业用途。

 

Databricks 在官方博文中指出,“用于训练 Dolly 1.0 的数据集中,包含来自 ChatGPT 的输出。斯坦福团队明确提到,OpenAI 的服务条款试图阻止任何人创建能够与其竞争的 AI 模型。”

 

Dolly 2.0 建立在 Databricks 公司首版 Dolly 的基础之上,为了规避这个问题并建立起可供商用的模型,Databricks 使用基于 EleutherAI 的 Pythia 模型家族中的 120 亿参数语言模型,成功构建起了 Dolly 2.0。

 

该公司表示,他们专门在 5000 名 Databricks 员工之内开展了众包,通过高质量的人工生成指令建立起训练数据集,借此完成了模型训练和微调。该公司将这套高质量的人工生成响应/揭示数据集称为 databricks-dolly-15k,其使用 Creative Commons Attribution-ShareAlike 3.0 Unported License 许可。

 

“任何人均可出于任何目的使用、修改或扩展这套数据集,包括商业应用程序。”Databricks 还强调,该数据集可通过 GitHub 页面(https://github.com/databrickslabs/dolly/tree/master/data)直接下载。

 

模型权重则可通过 Databricks Hugging Face 页面(https://huggingface.co/databricks)处下载获取。

 

Dolly 2.0 想成为大小公司的福音

 

Databricks 之所以发布基于开源数据的大语言模型,主要是考虑到企业客户对控制模型并引入针对性场景/特定用例的需求。这也与行业常见的商业闭环训练模型(例如 ChatGPT)形成了鲜明对比。

 

市场调研公司 Omdia 首席分析师 Bradley Shimmin 表示,“Dolly 2.0 这类模型大多是开放的,不需要在大规模 GPU 集群上进行长达数月的训练,因此为那些希望构建内部生成式 AI 方案的企业打开了新世界的大门。”

 

Shimmin 指出,“这些小型(即训练参数的规模较小)模型使用大量提示/响应对作为训练数据,因此特别适合希望控制整个解决方案、支持针对性用例的企业客户。例如,他们可以利用现有问答配对建立的帮助台数据库训练自己的 AI 模型。”

 

根据咨询公司 Amalgam Insights 首席分析师 Hyoun Park 的说法,开源大语言模型的另一大优势,在于 Dolly 2.0 这类成果能够让企业更好地跟踪数据治理和驻留,并与所支持的用例保持良好的关联性。

 

Park 还专门拿 OpenAI 的名称打趣,说“因为 OpenAI 的 ChatGPT 等其他模型在使用时要依赖于 API。对某些企业而言,这种依赖性可能引发关于 API 的合规性、治理或数据安全问题。”

 

这也相当于,Dolly 2.0 和其他基于开源的大语言模型将在受严格监管的行业中成为各企业的福音。这是个良好的开端,让企业意识到他们也可以创建并拥有自己的模型,且无需支付 API 访问费或与大语言模型提供商共享数据。这些在受到严格监管的行业中都可能产生巨大的问题。

 

开源与闭源大语言模型间的区别

 

与闭源大语言模型相比,基于开源的模型所使用的训练数据对公众开放,因此可根据业务进行微调和定制以满足企业需求。相比之下,ChatGPT 等闭源模型则根据其开发者 OpenAI 所掌握的训练进行训练,模型可通过 API 付费访问,且禁止直接用于商业用途。

 

Chandrasekaran 认为,“「开放式大语言模型」可以有多种理解方式。最明显也最重要的一点,就是对这些模型的源代码和部署灵活性做出调整。除此之外,开放的范围还可以涵盖模型权重、训练数据集以及开放/协作方式层面的决策。”

 

IDC 的 Schubmehl 表示,Dolly 2.0 就遵循基于开源的模型这一理念。“Dolly 2.0 是一套大语言模型,模型本体、训练代码、数据集和模型权重都可作为开源资源从 Databricks 处获取,以供企业根据业务需求创建自己的定制化大语言模型。”Schubmehl 同时提到,这种方法与其他大语言模型形成了鲜明对比,后者往往并不开放模型构建中的各类组成要素。

 

分析人士还提到,闭源与开源大语言模型间的另一个区别,主要体现在训练的参数量上。其中闭源大语言模型的参数规模往往更大。以 ChatGPT4 为例,其训练中使用到 100 万亿个参数;相比之下,Dolly 2.0 的参数量只有区区 120 亿个。

 

Dolly 2.0 如何融入 Databricks 的生成式 AI 战略

 

Constellation Research 的 Thurai 表示,Databricks 此次推出 Dolly 2.0 可以算是其夺取生成式 AI 市场份额的一项重要战略。

 

“从本质上讲,众多大语言模型和基础模型业务都被掌握在超大规模企业手中。每家企业都有自己的变体——微软有 ChatGPT、谷歌有 Bard,AWS 则通过 Huggingface 合作伙伴关系提供基础设施、流程、工具及模型共享和目录服务。Databricks 当然不能坐以待毙,必须在热火朝天的大语言模型市场上分一杯羹。”

 

其他分析师则认为,Dolly 的发布符合 Databricks 公司向市场投放开源产品的战略。

 

IDC 的 Schubmehl 表示,“Databricks 的专长,就是通过各种开源 AI 工具和服务帮助客户充分利用自己的数据和运营体系。Dolly 是另一个绝佳安全,能够为组织提供基于最新 AI 技术的选项,也就是大语言模型。”但分析师们也承认,Databricks 的 Dolly 2.0 恐怕无法立刻对 ChatGPT 或 Bard 等竞争对手产生影响。

 

Omdia 公司的 Shimmin 认为,“Dolly 乃至其他开源生成式 AI 大语言模型的出现,将彻底颠覆 Bard、ChatGPT 和 Galactica 等现有大语言模型的未来前景。但从中短期来说,这些成果在 Google Workplace、微软 Office 等产品中的地位还将稳固地维持下去。”

 

Amalgam Insights 的 Park 则给出了不同意见,认为 Dolly 最终会成为 ChatGPT 这类通用工具的功能伴侣。“人们会从通用工具中学习如何使用和提示生成式 AI,而 Dolly 这类模型则负责帮助用户处理更具体、更专业的特定工作用例。”

 

另外,也有评论指出,Dolly-like LLM 的一个能力是可以用来编写代码,特别是 SQL 代码。这可能会导致非 SQL 专家能够在 Databricks lakehouse 上设置和运行查询。 

 

这可以从两方面来理解:第一,SQL 开发人员可以使用它来提高工作效率,第二,你不需要那么多 SQL 开发人员。Dolly 可以减少 Databricks 对 SQL 程序员的需求。将这种想法扩展到 Snowflake 和所有其他数据仓库环境,SQL 技能在未来可能会变得不那么有价值。

 

参考链接:

https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm

https://www.infoworld.com/article/3693349/why-did-databricks-open-source-its-llm-in-the-form-of-dolly-2-0.html

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-04-16 12:205850

评论

发布
暂无评论
发现更多内容

相约 DTCC 2021 | Tapdata 受邀分享:如何打造面向 TP 业务的数据平台架构

tapdata

Android 资源溢出崩溃轻松解

字节跳动终端技术

字节跳动 移动开发 Mars 火山引擎 MARS-APMPlus

Qcon 免费报名 | 融云「实时通信技术专场」议题抢鲜看

融云 RongCloud

开发者 通信云 场景化

Kubernetes 中的应用参数配置案例详析

Zilliz

数据库 Kuber k8s Helm

极客架构营2期模块5作业

Ping

阿里P8手抄本惨遭泄露,并出现病毒式传播,致28人斩获大厂offer

收到请回复

Java 面试 阿里 大厂Offer

Zookeeper 集群部署的那些事儿

牧小农

zookeeper

英特尔举办第十四届物联网峰会,携手中国生态伙伴迈向融合边缘新时代

科技新消息

理论+实例,带你掌握Linux的页目录和页表

华为云开发者联盟

Linux 内存管理 寄存器 页目录 页表

2021金九银十阿里Java岗7轮技术面经历,险幸上岸

Java 程序员 架构 面试 计算机

网络安全产品之堡垒机应用于金融行业案例讲解

行云管家

云计算 网络安全 等保 堡垒机

这还不够全?阿里P8架构师耗时八年时间才整理出来这“Java核心知识PDF(Java高岗)

Java 程序员 架构 面试 后端

面试巨作!13万字!腾讯高工手写JDK源码笔记 带你飙向实战

收到请回复

Java jdk 面试 后端

从简历被拒到收割8个大厂offer,我用了3个月成功破茧成蝶

收到请回复

Java 程序员 面试

惊!HUAWEI高工熬夜赶出这本20W字的图解计算机操作系统指南手册,竟被我偶然发现!

Java 架构 面试 程序人生 编程语言

JS的深浅复制,原来如此!

华为云开发者联盟

js 序列化 深复制 浅复制

我凭借这份pdf拿下了蚂蚁金服、字节跳动、小米等大厂的offer

Java 编程 程序员 架构

马萨卡!阿里大佬珍之若宝的最强高并发pdf,竟然被上传GitHub开源

Java 架构 面试 编程语言

汇纳科技数据科学团队研究商场活动效果并优化的论文被ISR期刊接收

封神总结!蚂蚁金服+滴滴+美团+拼多多+腾讯15万字Java面试题

收到请回复

Java 程序员 面试 微服务 大厂Offer

惊了!网易架构大牛熬夜手敲千页网络协议笔记,竟在Github上标星百万!

Java 架构 面试 程序人生 编程语言

Java集合核心内容之葵花宝面,搞定90%以上的技术面!建议收藏

程序员小呆

Java 程序员 架构师

保持高效学习的 7 个方法

Phoenix

学习方法

从互联网“后来者”到“引领者”:这场IPv6大会上,我读懂了中国式创新

脑极体

为什么网络 I/O 会被阻塞?

编程 架构 操作系统 计算机

程序员常用的工具软件推荐

程序员小呆

Java c++ 程序员 架构师 Go 语言

会声会影和剪映在音频处理功能上的比较

懒得勤快

GitHub上首本IntelliJ IDEA操作手册,标星果然百万名不虚传

Java 架构 面试 程序人生 编程语言

手把手带你做LiteOS的树莓派移植

华为云开发者联盟

树莓派 系统 LiteOS arm 树莓派移植

网易云信 NERTC 高清画质体验之 H.265的工程实践 | 体验共享技术专题

网易云信

Java 测试 音视频 视频

2022年最新Java小白学习路线总结,从零基础跟着学习不掉队(PDF+视频分享篇)

Java 编程 程序员 计算机 java面试

Databricks来搅局了:0门槛克隆ChatGPT,完全开源可随意修改商用_开源_核子可乐_InfoQ精选文章