10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型

  • 2024-03-18
    北京
  • 本文字数:3097 字

    阅读完需:约 10 分钟

大小:1.44M时长:08:22
刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型

刚刚,马斯克在他的社交媒体平台 X 上宣布 xAI 开源 Grok,这也兑现了他上周的开源承诺。截至目前,Grok 已经在 GitHub 上获得了 4.3k 颗 Star。

 

开源地址:https://github.com/xai-org/grok-1

 

Grok-1 是一个由 xAI 从头训练的 3140 亿参数的混合专家模型,其中 25%的权重来处理给定的标记。xAI 这次发布的是大型语言模型 Grok-1 的基本模型权重和网络架构,使用了 Apache-2.0 许可证。

 

根据介绍,Grok 的架构是在 2023 年 10 月使用自定义训练堆栈在 JAX 和 Rust 上开发的,采用了创新的神经网络设计方法。

 

“该版本是 Grok-1 预训练阶段的原始基本模型检查点,该阶段于 2023 年 10 月宣告结束。

这意味着该模型并未针对任何一种特定的应用(比如对话和交谈)进行了微调。”xAI 在博文里说道。

 

Andrew Kean Gao 总结了 Grok-1 的模型情况如下:



此外,他还将 Grok-1 与其他开源模型参数量进行了对比,Grok-1 是 Llama-65B 的 4 倍多。



相比之下,OpenAI 提供了 ChatGPT 的一个版本及其背后的语言模型供免费使用,但其源代码却是闭源的。

 

对此,英伟达高级科学家 Jim Fan 评价称,(这是)有史以来最大的开源大模型,由世界一流的团队训练。“我想知道被 Grok 超越是什么感觉。”“314B、混合专家(2 / 8 有效)。即使仅活动参数(86B)就超过了最大的 Llama。迫不及待地想看到基准测试结果以及人们用它构建的东西。”另外,他还做了一下修正:Google 传统型号的 switch transformer 为 1.6T,目前保持着公开记录。

 

但网友 Quintus 对马斯克开源 Grok 持怀疑态度,他认为“一家营利性公司开源某些东西通常表明它不足以作为产品出售。到目前为止,从“有趣模式”到营销噱头,与 Grok 相关的一切似乎都是表演性的。作为一个功能模型,它并不严肃。”

 

对此,有网友回复称:“还是比什么都没有好。训练这种规模的模型并不是免费的,这对研究很有用。”

看不惯 OpenAI 闭源?

 

马斯克去年在英国人工智能安全峰会上表示,他希望建立一个“第三方裁判”,可以监督人工智能开发公司,并在他们有疑虑时发出警报。

 

为了寻求 OpenAI 和谷歌的替代方案,马斯克去年推出了 xAI,以创造他所说的“最大程度寻求真相的人工智能”。

 

前不久,马斯克对 OpenAI 采取了法律行动,指责该公司违反合同并忘记了最初的使命。马斯克向旧金山法院提起了诉讼,他在诉讼中表示,OpenAI 与微软的合作破坏了该公司最初致力于开发公共和开源通用人工智能的承诺。

 

之后,马斯克发布推文表示,如果 OpenAI 改名 ClosedAI 自己就会撤诉。有网友对此嘲讽道:“那你为什么不将 Grok 开源呢?”没想到几天后,马斯克真的宣布要将 Grok 开源。

 


 据 xAI 称,它由 Grok-1 提供支持,Grok-1 是一种大型语言模型,其大小与 Meta 的 Llama 2 70B 参数模型和 OpenAI 的 GPT-3.5 相当。



截图来源:《Announcing Grok》

 

去年 12 月,这家初创公司为 X 的 Premium+ 订阅者推出了 Grok。但马斯克此前很少谈论 Grok 或 xAI 的商业模式。本月早些时候,马斯克指责 OpenAI 联合创始人违背了其最初的使命,转而采用营利性模式。因此,不少人猜测马斯克或许是认为必须开源自己的聊天机器人,才能向外界证明他确确实实致力于实现这一愿景,而非像 OpenAI 和外界揣测的他出于嫉妒或者懊悔才起诉 OpenAI。

 

当马斯克首次宣布 Grok 正在开发中时,他承诺它将比 ChatGPT 或其他人工智能模型有更少的政治偏见。随后,外媒《连线》和其他公司对 Grok 进行了测试,结果表明,尽管 Grok 的回答会有些挑衅,但它并没有以某种方式存在很大的偏见。

 

也有专家认为,马斯克此前起诉 OpenAI 也可能是为了此次开源 Grok 造势,这样做能为 Grok 带来更多关注。

开源 Grok,能为马斯克带来什么?

 

开源 Grok 可以帮助马斯克激发人们对其公司人工智能的兴趣。将 Grok 限制为仅 X(较小的全球社交平台之一)的付费订阅者的访问,意味着它尚未具有 OpenAI 的 ChatGPT 或 Google 的 Gemini 的吸引力。发布 Grok 可以吸引开发人员使用该模型并在此基础上进行构建,并最终可能帮助它接触到更多的终端用户。这可以为 xAI 提供可用于改进其技术的数据。

 

马斯克开源 Grok 的举动表明他与 Meta 的生成人工智能方法保持一致。Meta 的开源模型,如 Llama 2,已经在开发人员中流行起来,因为它们可以完全定制并适应不同的用途。但采用类似的策略可能会让马斯克进一步陷入一场日益激烈的争论,争论的焦点是让任何人都能使用最强大的人工智能模型的好处和风险。

 

许多人工智能专家认为,开源人工智能模型具有显著的好处,例如提高透明度和扩大访问范围。Stability AI 的创始人 Emad Mostaque 表示:“开源模型更安全、更稳健,很高兴看到该领域领先公司提供更多选择。” Stability AI 是一家构建各种开源 AI 模型的公司。

 

康奈尔大学博士后研究员戴维·格雷·维德 (David Gray Widder) 表示,马斯克决定开源 Grok,表明科技巨头们正在开始试图利用开放性在生成式人工智能竞赛中取得领先。

 

维德说:“这些科技公司利用开放性来主张或支持他们的首选立场。”他补充说,开放也是一种广告机制。

 

例如,Meta 展示了 Llama 2 开源如何帮助外部开发人员构建与 Meta 内部系统兼容的技术。

维德表示,就 xAI 而言,它应该有助于它在 AIGC 市场获得更多吸引力。

 

“马斯克并不是为了慈善而做这件事,”他说。“他想赚钱。”

 

然而,大量人工智能研究人员认为,随着人工智能变得更加强大,可能有必要限制对某些模型的访问。除了担心未来的人工智能模型可能变得不守规矩、具有欺骗性、难以控制之外,一些专家还表示,即使是今天的模型也可能有助于产生危险的虚假信息或生产化学或生物武器。

 

学术界和工业界研究人员上个月发布的一篇研究论文审查了人工智能模型的不同风险评估,得出的结论是,这种担忧可能为时过早。研究人员表示,目前还不存在可靠且系统的方法来衡量人工智能模型带来的危险。

 

论文地址:https://crfm.stanford.edu/open-fms/paper.pdf

 

尽管 xAI 是一个比 OpenAI 年轻得多、规模较小的人工智能项目,但鉴于马斯克拥有大量资源,Grok 有潜力成为未来非常强大的人工智能模型。此次 Grok 向全世界开源后,外部人工智能专家都将能够测试它的能力。

 

Eric Hartford 是一名致力于开源 AI 模式的开发人员,他表示很高兴能够接触到 Grok。“我会在发布时对其进行微调,”他说,指的是用于使人工智能模型适应特定用例的过程。他可能不是唯一一个急于要研究 Grok 的人。

马斯克吹过的“牛”,兑现了一个又一个

 

去年 3 月份,马斯克在 X 上宣布开源 Twitter 部分源代码,而在此前,马斯克曾多次表示将开源 Twitter 算法。

 

2022 年 3 月,马斯克曾在 Twitter 发起一项调查,询问用户对该平台算法开源的看法。他写到:“我担心 Twitter 算法中实际存在的偏见会产生重大影响,我们怎么知道背后到底发生了什么?”马斯克认为,我们对 Twitter 这个公共平台的信任程度越高,文明的风险就越小。同年 10 月,接管 Twitter 后,马斯克关于开源 Twitter 算法的想法也没有发生改变。

 

2023 年 2 月 21 日,马斯克称将于下周对 Twitter 算法进行开源。当时一位 Twitter 用户表示,如果 Twitter 能够开源算法,他们将会“真心折服”。马斯克回应道:“当我们下周开源算法时,一开始请做好失望的准备,但之后将会快速改善。”

 

不过遗憾的是,当时马斯克并未兑现“下周开源”的承诺。直到 3 月 18 日,马斯克再次发声:“Twitter 将于 3 月 31 日开源所有用于推文推荐的代码。”

 

最终马斯克没有食言,在 3 月 31 日开源了 Twitter 算法。

 

也就是说,无论是今年的 Grok 还是去年的 Twitter 算法,马斯克自己吹过的“牛”又兑现了。

 

参考链接:

 

https://www.wired.com/story/elon-musk-no-choice-open-chatbot-grok/

https://x.ai/blog/grok-os

2024-03-18 10:1310817
用户头像
李冬梅 加V:busulishang4668

发布了 1156 篇内容, 共 775.0 次阅读, 收获喜欢 1284 次。

关注

评论

发布
暂无评论
发现更多内容

成为一个优秀的Android开发者,需要必备哪些技术&工作技能?

android 程序员 移动开发

怎样让你更快的完成工作去“摸鱼”,我的Android美团求职之路

android 程序员 移动开发

惨遭社会毒打,公司倒闭突然失业,程序员该如何在下次危机对准时狠狠还击

android 程序员 移动开发

我们来剖析一下这个Android猴子的面试过程,以及被问到的问题

android 程序员 移动开发

我又开发了一个非常好用的开源库,调试Android数据库有救了 (1)

android 程序员 移动开发

当中国诗词大会邂逅了Flutter,从此我的眼里只有你!(1)

android 程序员 移动开发

当事人:现在就是非常后悔,开工那天没去上班,Flutter中网络图片加载和缓存源码分析

android 程序员 移动开发

微信小程序之商品属性分类 —— 微信小程序实战商城系列

android 程序员 移动开发

微博热门清华学霸的计划表刷屏,程序员该如何制定你的学习计划?

android 程序员 移动开发

我又开发了一个非常好用的开源库,调试Android数据库有救了

android 程序员 移动开发

我想谈谈关于-Android-面试那些事,写给有开发经验的你们

android 程序员 移动开发

当面试官要你说一下Activity的启动模式时,怎么回答最合适?标准答案在这里

android 程序员 移动开发

我是如何做到在-5-分钟之内将应用大小减少-60%-的?,零基础学android编程

android 程序员 移动开发

当你面试的时候,被问到关于Fragment的种种,5年经验Android程序员面试27天

android 程序员 移动开发

往事只能回味!春招 Android 开发岗:我居然三天就拿到了offer

android 程序员 移动开发

怎样才是刷面试题的正确姿势?Android400道面试题+通关知识宝典助你进大厂

android 程序员 移动开发

总结了30个例子之后,我悟到了Flutter的布局原理,android移动开发基础答案

android 程序员 移动开发

想掌握Android面试官必问的-Binder-机制?那别想绕开-Binder-驱动源码分析!

android 程序员 移动开发

成功逆袭:越来越胖怎么能忍,我的APK瘦身之路,完整版开放免费下载

android 程序员 移动开发

我敢打赌!你从未见过如此简单的Dagger-导航---基于-Android-Studio-4-1

android 程序员 移动开发

性能优化,还得看AspectJ,android高级开发实战

android 程序员 移动开发

想搞懂Jetpack架构可以不搞懂生命周期知识吗?,阿里Android面试必问

android 程序员 移动开发

想进阶高级架构师,你需要养成这10个习惯!,掌握这套精编Android高级面试题解析

android 程序员 移动开发

我们来剖析一下这个Android猴子的面试过程,以及被问到的问题(1)

android 程序员 移动开发

我学习Android的一些套路,这份333页关于性能优化知识点的PDF你不能不看

android 程序员 移动开发

当中国诗词大会邂逅了Flutter,从此我的眼里只有你!,附架构师必备技术详解

android 程序员 移动开发

彻底理解Android架构,移动应用开发就业工资

android 程序员 移动开发

微信小程序之加载更多(分页加载)实例 ,flutter瀑布流列表

android 程序员 移动开发

微信逆向之朋友圈,2021最新Android大厂面试真题大全

android 程序员 移动开发

我才知道原来Flutter内置了10多种Button控件,音视频开发工程师抖音

android 程序员 移动开发

想掌握Android面试官必问的 Binder 机制?那别想绕开 Binder 驱动源码分析!

android 程序员 移动开发

刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型_生成式 AI_褚杏娟_InfoQ精选文章