写点什么

Databricks 来搅局了:0 门槛克隆 ChatGPT,完全开源可随意修改商用

  • 2023-04-16
    北京
  • 本文字数:3232 字

    阅读完需:约 11 分钟

Databricks来搅局了:0门槛克隆ChatGPT,完全开源可随意修改商用

全球首个完全开源的大语言模型,性能堪比 GPT3.5!

 

大数据热潮催生了许多成功的公司,例如 Snowflake、Databricks、Splunk 和 Cloudera。现在我们进入了生成式人工智能时代,那么会不会有新的“人工智能和大数据”结合方式?

 

最近,大数据公司Databricks就在生成式人工智能领域采取了行动。两周前,该公司发布了一个名为 Dolly 的开源大型语言模型,旨在应对市场对于生成式 AI 及相关应用的旺盛需求,我们可以称之为 Dolly 1.0。

 


像 ChatGPT 和 Bard 这样的生成式 AI,它们使用的数据通常来自于在成千上万不同网站,使用的数据量十分惊人,而且想要使用这些数据训练 AI 还需要数以千计的强大 GPU 在背后提供支持。Databricks 希望通过开源 Dolly 1.0 及其训练数据,让任何人都能开发出一个真正像人类的 AI,而无需投资数百万美元,这让这类 AI 不再是只有大型科技公司才能负担得起的东西,数以百万计的小公司也将能够从中受益。

 

Databricks 首席执行官 Ali Ghodsi 表示,Dolly 1.0 只需要非常少的数据和非常短的时间就能完成训练,“只需 30 美元、一台服务器和三个小时,我们就能教 Dolly 开始进行人类级别的交互。”

 

4 月 12 日,Databricks 再次发布了该大语言模型(LLM)的开源迭代版本,并命名为 Dolly 2.0。Databricks 表示,Dolly 2.0 是业内第一个开源、遵循指令的 LLM,它在透明且免费提供的数据集上进行了微调,该数据集也是开源的,可用于商业目的。这意味着 Dolly 2.0 可用于构建商业应用程序,无需支付 API 访问费用或与第三方共享数据。

 

Dolly 2.0 的诞生

 

Dolly 1.0 基于 EleutherAI 在 2021 年开源的自然语言处理模型 GPT-J。GPT-J 是一个基于 GPT-3,由 60 亿个参数组成的自然语言处理 AI 模型。但该模型使用了来自 StanfordAlpaca 项目的 5.2 万个问答数据集,是根据 OpenAI 的 ChatGPT 的输出进行训练的,因为 OpenAI 的使用条款限制,Dolly 1.0 并不能用于商业用途。

 

Databricks 在官方博文中指出,“用于训练 Dolly 1.0 的数据集中,包含来自 ChatGPT 的输出。斯坦福团队明确提到,OpenAI 的服务条款试图阻止任何人创建能够与其竞争的 AI 模型。”

 

Dolly 2.0 建立在 Databricks 公司首版 Dolly 的基础之上,为了规避这个问题并建立起可供商用的模型,Databricks 使用基于 EleutherAI 的 Pythia 模型家族中的 120 亿参数语言模型,成功构建起了 Dolly 2.0。

 

该公司表示,他们专门在 5000 名 Databricks 员工之内开展了众包,通过高质量的人工生成指令建立起训练数据集,借此完成了模型训练和微调。该公司将这套高质量的人工生成响应/揭示数据集称为 databricks-dolly-15k,其使用 Creative Commons Attribution-ShareAlike 3.0 Unported License 许可。

 

“任何人均可出于任何目的使用、修改或扩展这套数据集,包括商业应用程序。”Databricks 还强调,该数据集可通过 GitHub 页面(https://github.com/databrickslabs/dolly/tree/master/data)直接下载。

 

模型权重则可通过 Databricks Hugging Face 页面(https://huggingface.co/databricks)处下载获取。

 

Dolly 2.0 想成为大小公司的福音

 

Databricks 之所以发布基于开源数据的大语言模型,主要是考虑到企业客户对控制模型并引入针对性场景/特定用例的需求。这也与行业常见的商业闭环训练模型(例如 ChatGPT)形成了鲜明对比。

 

市场调研公司 Omdia 首席分析师 Bradley Shimmin 表示,“Dolly 2.0 这类模型大多是开放的,不需要在大规模 GPU 集群上进行长达数月的训练,因此为那些希望构建内部生成式 AI 方案的企业打开了新世界的大门。”

 

Shimmin 指出,“这些小型(即训练参数的规模较小)模型使用大量提示/响应对作为训练数据,因此特别适合希望控制整个解决方案、支持针对性用例的企业客户。例如,他们可以利用现有问答配对建立的帮助台数据库训练自己的 AI 模型。”

 

根据咨询公司 Amalgam Insights 首席分析师 Hyoun Park 的说法,开源大语言模型的另一大优势,在于 Dolly 2.0 这类成果能够让企业更好地跟踪数据治理和驻留,并与所支持的用例保持良好的关联性。

 

Park 还专门拿 OpenAI 的名称打趣,说“因为 OpenAI 的 ChatGPT 等其他模型在使用时要依赖于 API。对某些企业而言,这种依赖性可能引发关于 API 的合规性、治理或数据安全问题。”

 

这也相当于,Dolly 2.0 和其他基于开源的大语言模型将在受严格监管的行业中成为各企业的福音。这是个良好的开端,让企业意识到他们也可以创建并拥有自己的模型,且无需支付 API 访问费或与大语言模型提供商共享数据。这些在受到严格监管的行业中都可能产生巨大的问题。

 

开源与闭源大语言模型间的区别

 

与闭源大语言模型相比,基于开源的模型所使用的训练数据对公众开放,因此可根据业务进行微调和定制以满足企业需求。相比之下,ChatGPT 等闭源模型则根据其开发者 OpenAI 所掌握的训练进行训练,模型可通过 API 付费访问,且禁止直接用于商业用途。

 

Chandrasekaran 认为,“「开放式大语言模型」可以有多种理解方式。最明显也最重要的一点,就是对这些模型的源代码和部署灵活性做出调整。除此之外,开放的范围还可以涵盖模型权重、训练数据集以及开放/协作方式层面的决策。”

 

IDC 的 Schubmehl 表示,Dolly 2.0 就遵循基于开源的模型这一理念。“Dolly 2.0 是一套大语言模型,模型本体、训练代码、数据集和模型权重都可作为开源资源从 Databricks 处获取,以供企业根据业务需求创建自己的定制化大语言模型。”Schubmehl 同时提到,这种方法与其他大语言模型形成了鲜明对比,后者往往并不开放模型构建中的各类组成要素。

 

分析人士还提到,闭源与开源大语言模型间的另一个区别,主要体现在训练的参数量上。其中闭源大语言模型的参数规模往往更大。以 ChatGPT4 为例,其训练中使用到 100 万亿个参数;相比之下,Dolly 2.0 的参数量只有区区 120 亿个。

 

Dolly 2.0 如何融入 Databricks 的生成式 AI 战略

 

Constellation Research 的 Thurai 表示,Databricks 此次推出 Dolly 2.0 可以算是其夺取生成式 AI 市场份额的一项重要战略。

 

“从本质上讲,众多大语言模型和基础模型业务都被掌握在超大规模企业手中。每家企业都有自己的变体——微软有 ChatGPT、谷歌有 Bard,AWS 则通过 Huggingface 合作伙伴关系提供基础设施、流程、工具及模型共享和目录服务。Databricks 当然不能坐以待毙,必须在热火朝天的大语言模型市场上分一杯羹。”

 

其他分析师则认为,Dolly 的发布符合 Databricks 公司向市场投放开源产品的战略。

 

IDC 的 Schubmehl 表示,“Databricks 的专长,就是通过各种开源 AI 工具和服务帮助客户充分利用自己的数据和运营体系。Dolly 是另一个绝佳安全,能够为组织提供基于最新 AI 技术的选项,也就是大语言模型。”但分析师们也承认,Databricks 的 Dolly 2.0 恐怕无法立刻对 ChatGPT 或 Bard 等竞争对手产生影响。

 

Omdia 公司的 Shimmin 认为,“Dolly 乃至其他开源生成式 AI 大语言模型的出现,将彻底颠覆 Bard、ChatGPT 和 Galactica 等现有大语言模型的未来前景。但从中短期来说,这些成果在 Google Workplace、微软 Office 等产品中的地位还将稳固地维持下去。”

 

Amalgam Insights 的 Park 则给出了不同意见,认为 Dolly 最终会成为 ChatGPT 这类通用工具的功能伴侣。“人们会从通用工具中学习如何使用和提示生成式 AI,而 Dolly 这类模型则负责帮助用户处理更具体、更专业的特定工作用例。”

 

另外,也有评论指出,Dolly-like LLM 的一个能力是可以用来编写代码,特别是 SQL 代码。这可能会导致非 SQL 专家能够在 Databricks lakehouse 上设置和运行查询。 

 

这可以从两方面来理解:第一,SQL 开发人员可以使用它来提高工作效率,第二,你不需要那么多 SQL 开发人员。Dolly 可以减少 Databricks 对 SQL 程序员的需求。将这种想法扩展到 Snowflake 和所有其他数据仓库环境,SQL 技能在未来可能会变得不那么有价值。

 

参考链接:

https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm

https://www.infoworld.com/article/3693349/why-did-databricks-open-source-its-llm-in-the-form-of-dolly-2-0.html

2023-04-16 12:206635

评论

发布
暂无评论
发现更多内容

软件测试 | 测试开发 | 抓包分析 TCP 协议

测吧(北京)科技有限公司

TCP 抓包分析

国产操作系统应用小程序化:夯实技术底座,促进生态发展

Speedoooo

小程序 国产操作系统 小程序容器

微信Windows端IM消息数据库的优化实践:查询慢、体积大、文件损坏等

JackJiang

sqlite 微信 网络编程 即时通讯 IM

软件测试 | 测试开发 | 如何模拟真实使用场景?mock 技术来帮你

测吧(北京)科技有限公司

测试

云游戏产业链深度解析

Finovy Cloud

云计算 5G 云渲染 云游戏

2022年8月国产数据库大事记-墨天轮

墨天轮

数据库 opengauss 国产数据库 达梦 polarDB

软件测试 | 测试开发 | 一文搞懂测试左移和测试右移的 Why-How-What

测吧(北京)科技有限公司

测试 安全测试

牛客“基础-中级-高级”Java程序员面试八股文集结,熬夜挑灯刷

程序知音

Java java面试 后端技术 Java面试八股文 Java 面试题

测试管理 | 龙智获得Xray专家认证

龙智—DevSecOps解决方案

Jira插件

GOPS现场 | 对话龙智技术顾问,分享DevOps观察与心得

龙智—DevSecOps解决方案

运维 DevOps工具链

设备健康管理在石化行业的探索与实践

PreMaint

预测性维护 设备健康管理

小六六学Netty系列之Netty群聊

自然

Netty 网络 9月月更

软件测试 | 测试开发 | app自动化测试(Android)--显式等待机制

测吧(北京)科技有限公司

测试

LED屏幕有色差要怎么办?

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

软件测试 | 测试开发 | 一文带你了解K8S 容器编排(上)

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 接口管理工具YApi怎么用?颜值高、易管理、超好用

测吧(北京)科技有限公司

测试 Mock

软件测试 | 测试开发 | 文未有福利 | 接口自动化你不懂?听HttpRunner的作者怎么说

测吧(北京)科技有限公司

测试 接口调试

leetcode 104. Maximum Depth of Binary Tree 二叉树的最大深度(简单)

okokabcd

LeetCode 算法与数据结构

软件测试 | 测试开发 | 基于Requests与mitmproxy打造迷你接口测试框架

测吧(北京)科技有限公司

测试 Request

版本管理 | 如何解决SVN的合并冲突与分支问题?

龙智—DevSecOps解决方案

svn 版本管理

CI/CD | 大型企业与开发团队如何进行持续集成与持续发布

龙智—DevSecOps解决方案

持续集成 CI/CD 持续发布

主流定时任务解决方案全横评

阿里巴巴云原生

阿里云 Serverless 云原生

小六六学Netty系列之Java 零拷贝

自然

Netty 网络 9月月更

Serverless 架构下的 AI 应用开发:入门、实战与性能优化

阿里巴巴云原生

阿里云 Serverless 云原生

代码质量与安全 | 实践“边写边清理”,您需要做好这两件事:质量配置文件和质量门

龙智—DevSecOps解决方案

代码质量 代码安全 静态代码安全

区块链NFT网站开发:NFT数字藏品网站开发

开源直播系统源码

NFT 数字藏品 数字藏品系统

小六六学Netty系列之Java NIO(二)

自然

Netty 网络 9月月更

Spring源码分析(九)lazy-init 在Spring中是怎么控制加载的

石臻臻的杂货铺

spring 9月月更

软件测试 | 测试开发 | RPC接口测试技术-Tcp 协议的接口测试

测吧(北京)科技有限公司

软件测试 | 测试开发 | app自动化测试(Android)-- 特殊控件 T识别oast

测吧(北京)科技有限公司

自动化测试 Android;

最后 3 天|报名参加 OpenYurt+EdgeX 挑战赛 ,冲击最高 5 万元奖励!

阿里巴巴云原生

阿里云 云原生 openyurt EdgeX

Databricks来搅局了:0门槛克隆ChatGPT,完全开源可随意修改商用_开源_核子可乐_InfoQ精选文章