【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型

  • 2024-03-18
    北京
  • 本文字数:3097 字

    阅读完需:约 10 分钟

大小:1.44M时长:08:22
刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型

刚刚,马斯克在他的社交媒体平台 X 上宣布 xAI 开源 Grok,这也兑现了他上周的开源承诺。截至目前,Grok 已经在 GitHub 上获得了 4.3k 颗 Star。

 

开源地址:https://github.com/xai-org/grok-1

 

Grok-1 是一个由 xAI 从头训练的 3140 亿参数的混合专家模型,其中 25%的权重来处理给定的标记。xAI 这次发布的是大型语言模型 Grok-1 的基本模型权重和网络架构,使用了 Apache-2.0 许可证。

 

根据介绍,Grok 的架构是在 2023 年 10 月使用自定义训练堆栈在 JAX 和 Rust 上开发的,采用了创新的神经网络设计方法。

 

“该版本是 Grok-1 预训练阶段的原始基本模型检查点,该阶段于 2023 年 10 月宣告结束。

这意味着该模型并未针对任何一种特定的应用(比如对话和交谈)进行了微调。”xAI 在博文里说道。

 

Andrew Kean Gao 总结了 Grok-1 的模型情况如下:



此外,他还将 Grok-1 与其他开源模型参数量进行了对比,Grok-1 是 Llama-65B 的 4 倍多。



相比之下,OpenAI 提供了 ChatGPT 的一个版本及其背后的语言模型供免费使用,但其源代码却是闭源的。

 

对此,英伟达高级科学家 Jim Fan 评价称,(这是)有史以来最大的开源大模型,由世界一流的团队训练。“我想知道被 Grok 超越是什么感觉。”“314B、混合专家(2 / 8 有效)。即使仅活动参数(86B)就超过了最大的 Llama。迫不及待地想看到基准测试结果以及人们用它构建的东西。”另外,他还做了一下修正:Google 传统型号的 switch transformer 为 1.6T,目前保持着公开记录。

 

但网友 Quintus 对马斯克开源 Grok 持怀疑态度,他认为“一家营利性公司开源某些东西通常表明它不足以作为产品出售。到目前为止,从“有趣模式”到营销噱头,与 Grok 相关的一切似乎都是表演性的。作为一个功能模型,它并不严肃。”

 

对此,有网友回复称:“还是比什么都没有好。训练这种规模的模型并不是免费的,这对研究很有用。”

看不惯 OpenAI 闭源?

 

马斯克去年在英国人工智能安全峰会上表示,他希望建立一个“第三方裁判”,可以监督人工智能开发公司,并在他们有疑虑时发出警报。

 

为了寻求 OpenAI 和谷歌的替代方案,马斯克去年推出了 xAI,以创造他所说的“最大程度寻求真相的人工智能”。

 

前不久,马斯克对 OpenAI 采取了法律行动,指责该公司违反合同并忘记了最初的使命。马斯克向旧金山法院提起了诉讼,他在诉讼中表示,OpenAI 与微软的合作破坏了该公司最初致力于开发公共和开源通用人工智能的承诺。

 

之后,马斯克发布推文表示,如果 OpenAI 改名 ClosedAI 自己就会撤诉。有网友对此嘲讽道:“那你为什么不将 Grok 开源呢?”没想到几天后,马斯克真的宣布要将 Grok 开源。

 


 据 xAI 称,它由 Grok-1 提供支持,Grok-1 是一种大型语言模型,其大小与 Meta 的 Llama 2 70B 参数模型和 OpenAI 的 GPT-3.5 相当。



截图来源:《Announcing Grok》

 

去年 12 月,这家初创公司为 X 的 Premium+ 订阅者推出了 Grok。但马斯克此前很少谈论 Grok 或 xAI 的商业模式。本月早些时候,马斯克指责 OpenAI 联合创始人违背了其最初的使命,转而采用营利性模式。因此,不少人猜测马斯克或许是认为必须开源自己的聊天机器人,才能向外界证明他确确实实致力于实现这一愿景,而非像 OpenAI 和外界揣测的他出于嫉妒或者懊悔才起诉 OpenAI。

 

当马斯克首次宣布 Grok 正在开发中时,他承诺它将比 ChatGPT 或其他人工智能模型有更少的政治偏见。随后,外媒《连线》和其他公司对 Grok 进行了测试,结果表明,尽管 Grok 的回答会有些挑衅,但它并没有以某种方式存在很大的偏见。

 

也有专家认为,马斯克此前起诉 OpenAI 也可能是为了此次开源 Grok 造势,这样做能为 Grok 带来更多关注。

开源 Grok,能为马斯克带来什么?

 

开源 Grok 可以帮助马斯克激发人们对其公司人工智能的兴趣。将 Grok 限制为仅 X(较小的全球社交平台之一)的付费订阅者的访问,意味着它尚未具有 OpenAI 的 ChatGPT 或 Google 的 Gemini 的吸引力。发布 Grok 可以吸引开发人员使用该模型并在此基础上进行构建,并最终可能帮助它接触到更多的终端用户。这可以为 xAI 提供可用于改进其技术的数据。

 

马斯克开源 Grok 的举动表明他与 Meta 的生成人工智能方法保持一致。Meta 的开源模型,如 Llama 2,已经在开发人员中流行起来,因为它们可以完全定制并适应不同的用途。但采用类似的策略可能会让马斯克进一步陷入一场日益激烈的争论,争论的焦点是让任何人都能使用最强大的人工智能模型的好处和风险。

 

许多人工智能专家认为,开源人工智能模型具有显著的好处,例如提高透明度和扩大访问范围。Stability AI 的创始人 Emad Mostaque 表示:“开源模型更安全、更稳健,很高兴看到该领域领先公司提供更多选择。” Stability AI 是一家构建各种开源 AI 模型的公司。

 

康奈尔大学博士后研究员戴维·格雷·维德 (David Gray Widder) 表示,马斯克决定开源 Grok,表明科技巨头们正在开始试图利用开放性在生成式人工智能竞赛中取得领先。

 

维德说:“这些科技公司利用开放性来主张或支持他们的首选立场。”他补充说,开放也是一种广告机制。

 

例如,Meta 展示了 Llama 2 开源如何帮助外部开发人员构建与 Meta 内部系统兼容的技术。

维德表示,就 xAI 而言,它应该有助于它在 AIGC 市场获得更多吸引力。

 

“马斯克并不是为了慈善而做这件事,”他说。“他想赚钱。”

 

然而,大量人工智能研究人员认为,随着人工智能变得更加强大,可能有必要限制对某些模型的访问。除了担心未来的人工智能模型可能变得不守规矩、具有欺骗性、难以控制之外,一些专家还表示,即使是今天的模型也可能有助于产生危险的虚假信息或生产化学或生物武器。

 

学术界和工业界研究人员上个月发布的一篇研究论文审查了人工智能模型的不同风险评估,得出的结论是,这种担忧可能为时过早。研究人员表示,目前还不存在可靠且系统的方法来衡量人工智能模型带来的危险。

 

论文地址:https://crfm.stanford.edu/open-fms/paper.pdf

 

尽管 xAI 是一个比 OpenAI 年轻得多、规模较小的人工智能项目,但鉴于马斯克拥有大量资源,Grok 有潜力成为未来非常强大的人工智能模型。此次 Grok 向全世界开源后,外部人工智能专家都将能够测试它的能力。

 

Eric Hartford 是一名致力于开源 AI 模式的开发人员,他表示很高兴能够接触到 Grok。“我会在发布时对其进行微调,”他说,指的是用于使人工智能模型适应特定用例的过程。他可能不是唯一一个急于要研究 Grok 的人。

马斯克吹过的“牛”,兑现了一个又一个

 

去年 3 月份,马斯克在 X 上宣布开源 Twitter 部分源代码,而在此前,马斯克曾多次表示将开源 Twitter 算法。

 

2022 年 3 月,马斯克曾在 Twitter 发起一项调查,询问用户对该平台算法开源的看法。他写到:“我担心 Twitter 算法中实际存在的偏见会产生重大影响,我们怎么知道背后到底发生了什么?”马斯克认为,我们对 Twitter 这个公共平台的信任程度越高,文明的风险就越小。同年 10 月,接管 Twitter 后,马斯克关于开源 Twitter 算法的想法也没有发生改变。

 

2023 年 2 月 21 日,马斯克称将于下周对 Twitter 算法进行开源。当时一位 Twitter 用户表示,如果 Twitter 能够开源算法,他们将会“真心折服”。马斯克回应道:“当我们下周开源算法时,一开始请做好失望的准备,但之后将会快速改善。”

 

不过遗憾的是,当时马斯克并未兑现“下周开源”的承诺。直到 3 月 18 日,马斯克再次发声:“Twitter 将于 3 月 31 日开源所有用于推文推荐的代码。”

 

最终马斯克没有食言,在 3 月 31 日开源了 Twitter 算法。

 

也就是说,无论是今年的 Grok 还是去年的 Twitter 算法,马斯克自己吹过的“牛”又兑现了。

 

参考链接:

 

https://www.wired.com/story/elon-musk-no-choice-open-chatbot-grok/

https://x.ai/blog/grok-os

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-03-18 10:138800
用户头像
李冬梅 加V:busulishang4668

发布了 812 篇内容, 共 379.8 次阅读, 收获喜欢 999 次。

关注

评论

发布
暂无评论

Apache再次接受阿里开源产品捐赠 移动开发框架Weex进入孵化

阿里技术

[Pulsar] 消息的消费

Zike Yang

Apache Pulsar 11月日更

阿里巴巴Aliware十年微服务架构演进历程中的挑战与实践

阿里技术

Rust 元宇宙 5 —— SDL2.0

Miracle

rust SDL 元宇宙

【死磕Java并发】-----J.U.C之深入分析CAS

chenssy

11月日更 死磕 Java 死磕 Java 并发

使用redis生成唯一编号

喵叔

11月日更

花了2个钟才搞懂这AOP为啥没生效,水友却睡着了……

4ye

Java spring 程序员 后端 签约计划第二季

企业决策智能项目的五种失败姿势

脑极体

Rust 元宇宙 6 —— 显示世界

Miracle

rust SDL 元宇宙

百度ERNIE新突破!登顶中文医疗信息处理权威榜单CBLUE冠军

百度大脑

人工智能

网络监控原理

喀拉峻

网络安全 安全 网络

面试官:int和Integer有什么区别?为什么要有包装类?

王磊

面试官:说一下final关键字和final的4种用法?

王磊

Rust 元宇宙 2 — 邻居

Miracle

rust 元宇宙

直播预告丨“Hello ArkUI:初识Slider组件(JS)”周三约起

HarmonyOS开发者

HarmonyOS

应运而生! 双11当天处理数据5PB—HiStore助力打造全球最大列存储数据库

阿里技术

中国首批区块链订单融资缘何落地雄安?

CECBC

使用ES6编写一个超简单的搜索算法

DisonTangor

JavaScript 大前端

29 K8S之ReplicaSet控制器

穿过生命散发芬芳

k8s 11月日更

激发数字新活力 打造发展新优势

CECBC

Rust 元宇宙 3 —— 进入和离开

Miracle

rust 元宇宙

阿里研究员毕玄谈应用运维体系的变迁,DevOPS是大势所趋

阿里技术

你需要用战略耐心实现职业目标

石云升

读书笔记 11月日更

微博系统中”微博评论“的高性能高可用计算架构设计

Beyond Ryan

面试官:final、finally、finalize 有什么区别?

王磊

java面试

Rust 元宇宙 4 —— 让世界动起来

Miracle

rust 元宇宙

天猫技术全面打造『身临其境』的消费者交互体验

阿里技术

超强实时跟踪系统首次开源!支持跨镜头、多类别、小目标跟踪!

百度大脑

人工智能 人工智能摄像头

[干货] Weex在双11会场的大规模应用:业务支撑、稳定性保障和秒开实战

阿里技术

不会用Camtasia的“库”,你可能错过了一个亿

淋雨

Camtasia

阿里巴巴服务网格技术三位一体战略背后的思考与实践

阿里巴巴云原生

阿里云 云原生 服务网格 三位一体

刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型_生成式 AI_褚杏娟_InfoQ精选文章