50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型

  • 2024-03-18
    北京
  • 本文字数:3097 字

    阅读完需:约 10 分钟

大小:1.44M时长:08:22
刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型

刚刚,马斯克在他的社交媒体平台 X 上宣布 xAI 开源 Grok,这也兑现了他上周的开源承诺。截至目前,Grok 已经在 GitHub 上获得了 4.3k 颗 Star。

 

开源地址:https://github.com/xai-org/grok-1

 

Grok-1 是一个由 xAI 从头训练的 3140 亿参数的混合专家模型,其中 25%的权重来处理给定的标记。xAI 这次发布的是大型语言模型 Grok-1 的基本模型权重和网络架构,使用了 Apache-2.0 许可证。

 

根据介绍,Grok 的架构是在 2023 年 10 月使用自定义训练堆栈在 JAX 和 Rust 上开发的,采用了创新的神经网络设计方法。

 

“该版本是 Grok-1 预训练阶段的原始基本模型检查点,该阶段于 2023 年 10 月宣告结束。

这意味着该模型并未针对任何一种特定的应用(比如对话和交谈)进行了微调。”xAI 在博文里说道。

 

Andrew Kean Gao 总结了 Grok-1 的模型情况如下:



此外,他还将 Grok-1 与其他开源模型参数量进行了对比,Grok-1 是 Llama-65B 的 4 倍多。



相比之下,OpenAI 提供了 ChatGPT 的一个版本及其背后的语言模型供免费使用,但其源代码却是闭源的。

 

对此,英伟达高级科学家 Jim Fan 评价称,(这是)有史以来最大的开源大模型,由世界一流的团队训练。“我想知道被 Grok 超越是什么感觉。”“314B、混合专家(2 / 8 有效)。即使仅活动参数(86B)就超过了最大的 Llama。迫不及待地想看到基准测试结果以及人们用它构建的东西。”另外,他还做了一下修正:Google 传统型号的 switch transformer 为 1.6T,目前保持着公开记录。

 

但网友 Quintus 对马斯克开源 Grok 持怀疑态度,他认为“一家营利性公司开源某些东西通常表明它不足以作为产品出售。到目前为止,从“有趣模式”到营销噱头,与 Grok 相关的一切似乎都是表演性的。作为一个功能模型,它并不严肃。”

 

对此,有网友回复称:“还是比什么都没有好。训练这种规模的模型并不是免费的,这对研究很有用。”

看不惯 OpenAI 闭源?

 

马斯克去年在英国人工智能安全峰会上表示,他希望建立一个“第三方裁判”,可以监督人工智能开发公司,并在他们有疑虑时发出警报。

 

为了寻求 OpenAI 和谷歌的替代方案,马斯克去年推出了 xAI,以创造他所说的“最大程度寻求真相的人工智能”。

 

前不久,马斯克对 OpenAI 采取了法律行动,指责该公司违反合同并忘记了最初的使命。马斯克向旧金山法院提起了诉讼,他在诉讼中表示,OpenAI 与微软的合作破坏了该公司最初致力于开发公共和开源通用人工智能的承诺。

 

之后,马斯克发布推文表示,如果 OpenAI 改名 ClosedAI 自己就会撤诉。有网友对此嘲讽道:“那你为什么不将 Grok 开源呢?”没想到几天后,马斯克真的宣布要将 Grok 开源。

 


 据 xAI 称,它由 Grok-1 提供支持,Grok-1 是一种大型语言模型,其大小与 Meta 的 Llama 2 70B 参数模型和 OpenAI 的 GPT-3.5 相当。



截图来源:《Announcing Grok》

 

去年 12 月,这家初创公司为 X 的 Premium+ 订阅者推出了 Grok。但马斯克此前很少谈论 Grok 或 xAI 的商业模式。本月早些时候,马斯克指责 OpenAI 联合创始人违背了其最初的使命,转而采用营利性模式。因此,不少人猜测马斯克或许是认为必须开源自己的聊天机器人,才能向外界证明他确确实实致力于实现这一愿景,而非像 OpenAI 和外界揣测的他出于嫉妒或者懊悔才起诉 OpenAI。

 

当马斯克首次宣布 Grok 正在开发中时,他承诺它将比 ChatGPT 或其他人工智能模型有更少的政治偏见。随后,外媒《连线》和其他公司对 Grok 进行了测试,结果表明,尽管 Grok 的回答会有些挑衅,但它并没有以某种方式存在很大的偏见。

 

也有专家认为,马斯克此前起诉 OpenAI 也可能是为了此次开源 Grok 造势,这样做能为 Grok 带来更多关注。

开源 Grok,能为马斯克带来什么?

 

开源 Grok 可以帮助马斯克激发人们对其公司人工智能的兴趣。将 Grok 限制为仅 X(较小的全球社交平台之一)的付费订阅者的访问,意味着它尚未具有 OpenAI 的 ChatGPT 或 Google 的 Gemini 的吸引力。发布 Grok 可以吸引开发人员使用该模型并在此基础上进行构建,并最终可能帮助它接触到更多的终端用户。这可以为 xAI 提供可用于改进其技术的数据。

 

马斯克开源 Grok 的举动表明他与 Meta 的生成人工智能方法保持一致。Meta 的开源模型,如 Llama 2,已经在开发人员中流行起来,因为它们可以完全定制并适应不同的用途。但采用类似的策略可能会让马斯克进一步陷入一场日益激烈的争论,争论的焦点是让任何人都能使用最强大的人工智能模型的好处和风险。

 

许多人工智能专家认为,开源人工智能模型具有显著的好处,例如提高透明度和扩大访问范围。Stability AI 的创始人 Emad Mostaque 表示:“开源模型更安全、更稳健,很高兴看到该领域领先公司提供更多选择。” Stability AI 是一家构建各种开源 AI 模型的公司。

 

康奈尔大学博士后研究员戴维·格雷·维德 (David Gray Widder) 表示,马斯克决定开源 Grok,表明科技巨头们正在开始试图利用开放性在生成式人工智能竞赛中取得领先。

 

维德说:“这些科技公司利用开放性来主张或支持他们的首选立场。”他补充说,开放也是一种广告机制。

 

例如,Meta 展示了 Llama 2 开源如何帮助外部开发人员构建与 Meta 内部系统兼容的技术。

维德表示,就 xAI 而言,它应该有助于它在 AIGC 市场获得更多吸引力。

 

“马斯克并不是为了慈善而做这件事,”他说。“他想赚钱。”

 

然而,大量人工智能研究人员认为,随着人工智能变得更加强大,可能有必要限制对某些模型的访问。除了担心未来的人工智能模型可能变得不守规矩、具有欺骗性、难以控制之外,一些专家还表示,即使是今天的模型也可能有助于产生危险的虚假信息或生产化学或生物武器。

 

学术界和工业界研究人员上个月发布的一篇研究论文审查了人工智能模型的不同风险评估,得出的结论是,这种担忧可能为时过早。研究人员表示,目前还不存在可靠且系统的方法来衡量人工智能模型带来的危险。

 

论文地址:https://crfm.stanford.edu/open-fms/paper.pdf

 

尽管 xAI 是一个比 OpenAI 年轻得多、规模较小的人工智能项目,但鉴于马斯克拥有大量资源,Grok 有潜力成为未来非常强大的人工智能模型。此次 Grok 向全世界开源后,外部人工智能专家都将能够测试它的能力。

 

Eric Hartford 是一名致力于开源 AI 模式的开发人员,他表示很高兴能够接触到 Grok。“我会在发布时对其进行微调,”他说,指的是用于使人工智能模型适应特定用例的过程。他可能不是唯一一个急于要研究 Grok 的人。

马斯克吹过的“牛”,兑现了一个又一个

 

去年 3 月份,马斯克在 X 上宣布开源 Twitter 部分源代码,而在此前,马斯克曾多次表示将开源 Twitter 算法。

 

2022 年 3 月,马斯克曾在 Twitter 发起一项调查,询问用户对该平台算法开源的看法。他写到:“我担心 Twitter 算法中实际存在的偏见会产生重大影响,我们怎么知道背后到底发生了什么?”马斯克认为,我们对 Twitter 这个公共平台的信任程度越高,文明的风险就越小。同年 10 月,接管 Twitter 后,马斯克关于开源 Twitter 算法的想法也没有发生改变。

 

2023 年 2 月 21 日,马斯克称将于下周对 Twitter 算法进行开源。当时一位 Twitter 用户表示,如果 Twitter 能够开源算法,他们将会“真心折服”。马斯克回应道:“当我们下周开源算法时,一开始请做好失望的准备,但之后将会快速改善。”

 

不过遗憾的是,当时马斯克并未兑现“下周开源”的承诺。直到 3 月 18 日,马斯克再次发声:“Twitter 将于 3 月 31 日开源所有用于推文推荐的代码。”

 

最终马斯克没有食言,在 3 月 31 日开源了 Twitter 算法。

 

也就是说,无论是今年的 Grok 还是去年的 Twitter 算法,马斯克自己吹过的“牛”又兑现了。

 

参考链接:

 

https://www.wired.com/story/elon-musk-no-choice-open-chatbot-grok/

https://x.ai/blog/grok-os

2024-03-18 10:1310942
用户头像
李冬梅 加V:busulishang4668

发布了 1190 篇内容, 共 814.0 次阅读, 收获喜欢 1304 次。

关注

评论

发布
暂无评论
发现更多内容

万界星空科技可视化数据大屏的作用

万界星空科技

数据化 mes 可视化大屏 万界星空科技 数字大屏

启动与关闭MySQL服务(上)

小魏写代码

软件测试学习笔记丨APP自动化测试Desired Capabilities与应用控制

测试人

软件测试

OurBMC 社区介绍

OurBMC

组织架构 ourBMC 社区介绍

活动回顾 | 矩阵起源 CEO 王龙:与大数据结合,是大模型成熟的必经之路

MatrixOrigin

云原生 分布式, 数据库、

开发、实施、运维、安全、交付、立项、过程、结项、投标方案全套资料

金陵老街

单片机中的 _nop_() 延时以及其相关的基础扩展

矜辰所致

c 单片机 NOP

测试环境的全链路分析

观测云

测试

轻量级低代码应用开发平台

互联网工科生

软件开发 低代码 JNPF

API接口与商品数据:开启电商成功的新篇章

Noah

基于Kubernetes的微服务架构,你学废了吗?

伤感汤姆布利柏

五金行业MES系统解决方案

万界星空科技

生产管理系统 mes 万界星空科技 五金行业 五金工厂

LED显示屏为何能在各领域应用这么广泛

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

予力八六三软件应用现代化,提升DevSecOps效能,探索交付之路

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 华为云DTSE

使用 Paimon + StarRocks 极速批流一体湖仓分析

Apache Flink

大数据 实时计算 flink 实战

LLM 推理优化探微 (1) :Transformer 解码器的推理过程详解

Baihai IDP

程序员 AI LLM 白海科技 LLM推理

揭开空白网页背景色的神秘面纱

不在线第一只蜗牛

前端 前端开发 框架

NFTScan 与 Merlin Protocol 共同推出 BRC20 Indexer Oracle,于今日正式上线!

NFT Research

NFT NFT\ NFTScan

阿里云推出 3.x Java 探针,解锁应用观测与治理的全新姿势

阿里巴巴云原生

阿里云 微服务 云原生 可观测

国内首个!OurBMC 社区启动联合筹建

OurBMC

ourBMC 首个 筹建

OurBMC开源社区正式成立!

OurBMC

开源社区 ourBMC 成立

2024-01-31:用go语言,机器人正在玩一个古老的基于DOS的游戏, 游戏中有N+1座建筑,从0到N编号,从左到右排列, 编号为0的建筑高度为0个单位,编号为i的建筑的高度为H(i)个单位, 起

福大大架构师每日一题

福大大架构师每日一题

OurBMC 社区角色说明

OurBMC

ourBMC 角色说明 职责和权力

国内开源MES哪家好?

万界星空科技

开源 源码 mes 开源mes 万界星空科技

刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型_生成式 AI_褚杏娟_InfoQ精选文章