写点什么

刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型

  • 2024-03-18
    北京
  • 本文字数:3097 字

    阅读完需:约 10 分钟

大小:1.44M时长:08:22
刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型

刚刚,马斯克在他的社交媒体平台 X 上宣布 xAI 开源 Grok,这也兑现了他上周的开源承诺。截至目前,Grok 已经在 GitHub 上获得了 4.3k 颗 Star。

 

开源地址:https://github.com/xai-org/grok-1

 

Grok-1 是一个由 xAI 从头训练的 3140 亿参数的混合专家模型,其中 25%的权重来处理给定的标记。xAI 这次发布的是大型语言模型 Grok-1 的基本模型权重和网络架构,使用了 Apache-2.0 许可证。

 

根据介绍,Grok 的架构是在 2023 年 10 月使用自定义训练堆栈在 JAX 和 Rust 上开发的,采用了创新的神经网络设计方法。

 

“该版本是 Grok-1 预训练阶段的原始基本模型检查点,该阶段于 2023 年 10 月宣告结束。

这意味着该模型并未针对任何一种特定的应用(比如对话和交谈)进行了微调。”xAI 在博文里说道。

 

Andrew Kean Gao 总结了 Grok-1 的模型情况如下:



此外,他还将 Grok-1 与其他开源模型参数量进行了对比,Grok-1 是 Llama-65B 的 4 倍多。



相比之下,OpenAI 提供了 ChatGPT 的一个版本及其背后的语言模型供免费使用,但其源代码却是闭源的。

 

对此,英伟达高级科学家 Jim Fan 评价称,(这是)有史以来最大的开源大模型,由世界一流的团队训练。“我想知道被 Grok 超越是什么感觉。”“314B、混合专家(2 / 8 有效)。即使仅活动参数(86B)就超过了最大的 Llama。迫不及待地想看到基准测试结果以及人们用它构建的东西。”另外,他还做了一下修正:Google 传统型号的 switch transformer 为 1.6T,目前保持着公开记录。

 

但网友 Quintus 对马斯克开源 Grok 持怀疑态度,他认为“一家营利性公司开源某些东西通常表明它不足以作为产品出售。到目前为止,从“有趣模式”到营销噱头,与 Grok 相关的一切似乎都是表演性的。作为一个功能模型,它并不严肃。”

 

对此,有网友回复称:“还是比什么都没有好。训练这种规模的模型并不是免费的,这对研究很有用。”

看不惯 OpenAI 闭源?

 

马斯克去年在英国人工智能安全峰会上表示,他希望建立一个“第三方裁判”,可以监督人工智能开发公司,并在他们有疑虑时发出警报。

 

为了寻求 OpenAI 和谷歌的替代方案,马斯克去年推出了 xAI,以创造他所说的“最大程度寻求真相的人工智能”。

 

前不久,马斯克对 OpenAI 采取了法律行动,指责该公司违反合同并忘记了最初的使命。马斯克向旧金山法院提起了诉讼,他在诉讼中表示,OpenAI 与微软的合作破坏了该公司最初致力于开发公共和开源通用人工智能的承诺。

 

之后,马斯克发布推文表示,如果 OpenAI 改名 ClosedAI 自己就会撤诉。有网友对此嘲讽道:“那你为什么不将 Grok 开源呢?”没想到几天后,马斯克真的宣布要将 Grok 开源。

 


 据 xAI 称,它由 Grok-1 提供支持,Grok-1 是一种大型语言模型,其大小与 Meta 的 Llama 2 70B 参数模型和 OpenAI 的 GPT-3.5 相当。



截图来源:《Announcing Grok》

 

去年 12 月,这家初创公司为 X 的 Premium+ 订阅者推出了 Grok。但马斯克此前很少谈论 Grok 或 xAI 的商业模式。本月早些时候,马斯克指责 OpenAI 联合创始人违背了其最初的使命,转而采用营利性模式。因此,不少人猜测马斯克或许是认为必须开源自己的聊天机器人,才能向外界证明他确确实实致力于实现这一愿景,而非像 OpenAI 和外界揣测的他出于嫉妒或者懊悔才起诉 OpenAI。

 

当马斯克首次宣布 Grok 正在开发中时,他承诺它将比 ChatGPT 或其他人工智能模型有更少的政治偏见。随后,外媒《连线》和其他公司对 Grok 进行了测试,结果表明,尽管 Grok 的回答会有些挑衅,但它并没有以某种方式存在很大的偏见。

 

也有专家认为,马斯克此前起诉 OpenAI 也可能是为了此次开源 Grok 造势,这样做能为 Grok 带来更多关注。

开源 Grok,能为马斯克带来什么?

 

开源 Grok 可以帮助马斯克激发人们对其公司人工智能的兴趣。将 Grok 限制为仅 X(较小的全球社交平台之一)的付费订阅者的访问,意味着它尚未具有 OpenAI 的 ChatGPT 或 Google 的 Gemini 的吸引力。发布 Grok 可以吸引开发人员使用该模型并在此基础上进行构建,并最终可能帮助它接触到更多的终端用户。这可以为 xAI 提供可用于改进其技术的数据。

 

马斯克开源 Grok 的举动表明他与 Meta 的生成人工智能方法保持一致。Meta 的开源模型,如 Llama 2,已经在开发人员中流行起来,因为它们可以完全定制并适应不同的用途。但采用类似的策略可能会让马斯克进一步陷入一场日益激烈的争论,争论的焦点是让任何人都能使用最强大的人工智能模型的好处和风险。

 

许多人工智能专家认为,开源人工智能模型具有显著的好处,例如提高透明度和扩大访问范围。Stability AI 的创始人 Emad Mostaque 表示:“开源模型更安全、更稳健,很高兴看到该领域领先公司提供更多选择。” Stability AI 是一家构建各种开源 AI 模型的公司。

 

康奈尔大学博士后研究员戴维·格雷·维德 (David Gray Widder) 表示,马斯克决定开源 Grok,表明科技巨头们正在开始试图利用开放性在生成式人工智能竞赛中取得领先。

 

维德说:“这些科技公司利用开放性来主张或支持他们的首选立场。”他补充说,开放也是一种广告机制。

 

例如,Meta 展示了 Llama 2 开源如何帮助外部开发人员构建与 Meta 内部系统兼容的技术。

维德表示,就 xAI 而言,它应该有助于它在 AIGC 市场获得更多吸引力。

 

“马斯克并不是为了慈善而做这件事,”他说。“他想赚钱。”

 

然而,大量人工智能研究人员认为,随着人工智能变得更加强大,可能有必要限制对某些模型的访问。除了担心未来的人工智能模型可能变得不守规矩、具有欺骗性、难以控制之外,一些专家还表示,即使是今天的模型也可能有助于产生危险的虚假信息或生产化学或生物武器。

 

学术界和工业界研究人员上个月发布的一篇研究论文审查了人工智能模型的不同风险评估,得出的结论是,这种担忧可能为时过早。研究人员表示,目前还不存在可靠且系统的方法来衡量人工智能模型带来的危险。

 

论文地址:https://crfm.stanford.edu/open-fms/paper.pdf

 

尽管 xAI 是一个比 OpenAI 年轻得多、规模较小的人工智能项目,但鉴于马斯克拥有大量资源,Grok 有潜力成为未来非常强大的人工智能模型。此次 Grok 向全世界开源后,外部人工智能专家都将能够测试它的能力。

 

Eric Hartford 是一名致力于开源 AI 模式的开发人员,他表示很高兴能够接触到 Grok。“我会在发布时对其进行微调,”他说,指的是用于使人工智能模型适应特定用例的过程。他可能不是唯一一个急于要研究 Grok 的人。

马斯克吹过的“牛”,兑现了一个又一个

 

去年 3 月份,马斯克在 X 上宣布开源 Twitter 部分源代码,而在此前,马斯克曾多次表示将开源 Twitter 算法。

 

2022 年 3 月,马斯克曾在 Twitter 发起一项调查,询问用户对该平台算法开源的看法。他写到:“我担心 Twitter 算法中实际存在的偏见会产生重大影响,我们怎么知道背后到底发生了什么?”马斯克认为,我们对 Twitter 这个公共平台的信任程度越高,文明的风险就越小。同年 10 月,接管 Twitter 后,马斯克关于开源 Twitter 算法的想法也没有发生改变。

 

2023 年 2 月 21 日,马斯克称将于下周对 Twitter 算法进行开源。当时一位 Twitter 用户表示,如果 Twitter 能够开源算法,他们将会“真心折服”。马斯克回应道:“当我们下周开源算法时,一开始请做好失望的准备,但之后将会快速改善。”

 

不过遗憾的是,当时马斯克并未兑现“下周开源”的承诺。直到 3 月 18 日,马斯克再次发声:“Twitter 将于 3 月 31 日开源所有用于推文推荐的代码。”

 

最终马斯克没有食言,在 3 月 31 日开源了 Twitter 算法。

 

也就是说,无论是今年的 Grok 还是去年的 Twitter 算法,马斯克自己吹过的“牛”又兑现了。

 

参考链接:

 

https://www.wired.com/story/elon-musk-no-choice-open-chatbot-grok/

https://x.ai/blog/grok-os

2024-03-18 10:1310579
用户头像
李冬梅 加V:busulishang4668

发布了 1111 篇内容, 共 722.5 次阅读, 收获喜欢 1253 次。

关注

评论

发布
暂无评论
发现更多内容

三星Galaxy S25系列:极简美学×AI旗舰,重塑未来智能体验

新消费日报

鸿蒙跨端实践-揭秘视图渲染流程

京东科技开发者

跨端生态与AI技术协同:移动研发范式的智能重构

xuyinyin

从0到1带你搞定“微信广告转化归因”

Chris Zhang

归因分析 微信广告 广告归因

深度解析用户意图,让设备真正听懂需求

HarmonyOS SDK

harmoyos

AI Agent工作流解析:软件测试开发领域的实践

测试人

人工智能

AI Agent 十问十答,降低认知摩擦

阿里巴巴云原生

阿里云 云原生

剑指大规模 AI 可观测,阿里云 Prometheus 2.0 应运而生

阿里巴巴云原生

阿里云 云原生 Prometheus

不止于展“世亚人工智能展·世亚智博会”引领科技与商贸新变革

AIOTE智博会

人工智能展

Flutter小程序与跨端组装技术:高效App开发的新范式

xuyinyin

AI大模型快速生成题库-助力业务人效提升10+倍

京东科技开发者

轮播图导航组件 | 纯血鸿蒙组件库AUI

华哥的全栈次元舱

开发语言 鸿蒙开发 纯血鸿蒙 ArkUI / eTS 鸿蒙组件库AUI

数造科技携DataBuilder亮相安徽科交会,展现“DataOps +AI”双引擎魅力

数造万象

大数据 AI 行业资讯 Data 科技

当 CEO 患上了 AI 焦虑症(之三):指标平台的逆袭?

Aloudata

数据分析 大模型 指标平台 noetl ChatBI

太阳能薄膜频谱吸收率_CST软件仿真案例

思茂信息

cst CST软件 CST Studio Suite

通义灵码编程智能体,上线!

阿里巴巴云原生

通义灵码

区块链RWA系统的功能分析

北京木奇移动技术有限公司

区块链技术 软件外包公司 RWA开发

AI对话魔法|Prompt Engineering 探索指南

京东科技开发者

CodeBuddy编程神器上线!分享测评100%领福利,开发者专享通道

CodeBuddy

人工智能 编程

稳居第一!博睿数据持续领跑中国APMO应用性能监控与可观测性市场!

博睿数据

通义灵码编程智能体,上线!

阿里云云效

阿里云 云原生 通义灵码

如何使用 websocket 完成 socks5 网络穿透

八苦-瞿昙

【客户案例】多层级计划 商品智能组货提升Jimmy Jazz正价销售

第七在线

MCP 教程:将 Figma 设计稿转化为前端代码

TRAE

人工智能 编程 开发者 MCP Trae

【解决方案】DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

阿里云大数据AI技术

人工智能 大模型 模型部署 PAI DistilQwen2.5

商超拣货业务流程与常见模式

PeterOne

人工智能 AI 运筹规划

区块链ETF系统的功能分解

北京木奇移动技术有限公司

区块链技术 软件外包公司 区块链ETF

抖音视频列表API接口(附代码示例)

tbapi

抖音API 抖音视频列表接口 抖音视频接口

京东零售联合易观发布《数智驱动营销升级,寻求确定性增长》白皮书

易观分析

数智化转型 数智驱动 京东零售

一秒采集4万条数据,卷烟厂是如何实现实时决策的?

TDengine

数据库 tdengine 时序数据库

【签约快讯|天润融通签约极核电动】

天润融通

刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型_生成式 AI_褚杏娟_InfoQ精选文章