2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

零一万物回应“套壳 Llama”争议:基于 GPT 研发,对模型和训练的理解做了大量工作

  • 2023-11-14
    北京
  • 本文字数:1958 字

    阅读完需:约 6 分钟

大小:290.29K时长:01:39
零一万物回应“套壳Llama”争议:基于GPT研发,对模型和训练的理解做了大量工作

11 月 14 日,李开复旗下 AI 企业零一万物开源大模型Yi-34B被指责完全使用 LLaMA 的架构 ,只对两个张量 (Tensor) 名称进行修改。

 

对此,零一万物表示:GPT 是一个业内公认的成熟架构,Llama 在 GPT 上做了总结。零一万物研发大模型的结构设计基于 GPT 成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常初期,与行业主流保持一致的结构,更有利于整体的适配与未来的迭代。同时零一万物团队对模型和训练的理解做了大量工作,也在持续探索模型结构层面本质上的突破。

 

此事起源于贾扬清在朋友圈的一个吐槽,贾扬清提到,有个“大厂新模型 exactly 就是 LLaMA 的架构,但是为了表示不一样,把代码里面的名字从 LLaMA 改成了他们的名字,然后换了几个变量名。然后,海外有工程师直接指了这一点出来... 还有人在 HF 上面放了个把名字改回去的 checkpoint,说好了,现在你们可以直接用 LLaMA 的代码来 load 这个 checkpoint 了”。



一时间,大家纷纷猜测这个基于 Llama 魔改的大模型到底是哪个。贾扬清随后专门留言表示不是自己的老东家阿里的。后来,有人扒到Hugging Face社区的Yi-34B项目下讨论区的留言,留言指出,“除了两个张量被重新命名外,Yi 完全使用了 Llama 的架构。”

 


有网友评论称,“如果他们使用了确切的 Meta LLaMA 结构、代码库和所有相关资源,则还需要遵守 LLaMA 规定的许可协议。要求以 LLaMA 形式正式发布 Yi 模型是有问题的,因为它破坏了 Yi 许可条款的可执行性。”


后续:


11 月 15 日,零一万物公众号发布了对 Yi-34B 训练过程的说明,李开复在朋友圈也转发了该说明,并表示,“01.AI 起步受益于开源,也贡献开源,从社区中虚心学习,我们会持续进步。”

说明原文如下:


就零一万物的观察和分析,大模型社区在技术架构方面现在是一个处于接近往通用化逐步收拢的阶段,基本上国际主流大模型都是基于 Transformer 的架构,做 attention,activation,normalization,positional embedding 等部分的改动,LLaMA、Chinchilla、Gopher 等模型的架构和 GPT 架构大同小异,全球开源社区基于主流架构的模型变化非常之多,生态呈现欣欣向荣,国内已发布的开源模型也绝大多数采用渐成行业标准的 GPT/LLaMA 的架构。然而,大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数。


模型训练过程好比做一道菜,架构只是决定了做菜的原材料和大致步骤,这在大多数人的认知中也逐步形成共识。要训练出好的模型,还需要更好的“原材料”(数据)和对每一个步骤细节的把控(训练方法和具体参数)。由于大模型技术发展还在非常初期,从技术观点来说,行业共识是与主流模型保持一致的模型结构,更有利于整体的适配与未来的迭代。


零一万物在训练模型过程中,沿用了 GPT/LLaMA 的基本架构,由于 LLaMA 社区的开源贡献,让零一万物可以快速起步。零一万物从零开始训练了 Yi-34B 和 Yi-6B 模型,并根据实际的训练框架重新实现了训练代码,用自建的数据管线构建了高质量配比的训练数据集(从 3PB 原始数据精选到 3T token 高质量数据)。除此以外,在 Infra 部分进行算法、硬件、软件联合端到端优化,实现训练效率倍级提升和极强的容错能力等原创性突破。这些科学训模的系统性工作,往往比起基本模型结构能起到巨大的作用跟价值。


零一万物团队在训练前的实验中,尝试了不同的数据配比科学地选取了最优的数据配比方案,投注大部分精力调整训练方法、数据配比、数据工程、细节参数、baby sitting(训练过程监测)技巧等。这一系列超越模型架构之外,研究与工程并进且具有前沿突破性的研发任务,才是真正属于模型训练内核最为关键、能够形成大模型技术护城河 know-how 积累。在模型训练同时,零一万物也针对模型结构中的若干关键节点进行了大量的实验和对比验证。举例来说,我们实验了 Group Query Attention(GQA)、Multi-Head Attention(MHA)、Vanilla Attention 并选择了 GQA,实验了 Pre-Norm 和 Post-Norm 在不同网络宽度和深度上的变化,并选择了 Pre-Norm,使用了 RoPE ABF 作为 positional embedding 等。也正是在这些实验与探索过程中,为了执行对比实验的需要,模型对部分推理参数进行了重新命名。


在零一万物初次开源过程中,我们发现用和开源社区普遍使用的 LLaMA 架构会对开发者更为友好,对于沿用 LLaMA 部分推理代码经实验更名后的疏忽,原始出发点是为了充分测试模型,并非刻意隐瞒来源。零一万物对此提出说明,并表达诚挚的歉意,我们正在各开源平台重新提交模型及代码并补充 LLaMA 协议副本的流程中,承诺尽速完成各开源社区的版本更新。


我们非常感谢社区的反馈,零一万物在开源社区刚刚起步,希望和大家携手共创社区繁荣,在近期发布 Chat Model 之后,我们将择期发布技术报告,Yi Open-source 会尽最大努力虚心学习,持续进步。


开源社区讨论参考:

https://huggingface.co/01-ai/Yi-34B/discussions/11#6553145873a5a6f938658491

2023-11-14 17:166072

评论 4 条评论

发布
用户头像
李老师,真TMD的丢人啊。。。。
2023-11-15 10:27 · 北京
回复
用户头像
抄操作系统,数据库,CPU,浏览器。。。啥都抄,难道已经成中国特色传统了?
2023-11-15 08:17 · 浙江
回复
现在连代码编辑器都抄了。。。。
2023-11-15 10:28 · 北京
回复
用户头像
有没有可能是LLaMA抄零一万物?
2023-11-14 19:22 · 北京
回复
没有更多了
发现更多内容

开发上云,化繁为简 | CIF 论坛精彩看点

CODING DevOps

腾讯云 DevOps 云原生 云开发 CIF

后端选择 java, 还是 python?

cdhqyj

十大算法

wudaxue

太有用,Alibaba架构师十年心血熬成的435网络协议文档

程序员 编程语言 网络协议 TCP/IP

深入浅出Redis宝典,阿里架构师10年经验汇总,PDF免费分享

Java redis 架构

不愧是阿里高工出产的《Java面试手册》,实战命中率竟高达“80%”

Java 架构 面试 后端

低代码的自动化工作流靠谱吗?对企业有何帮助?

优秀

自动化 低代码

小程序下一破局点?钉钉小程序卡片,应用与平台的深度集成

阿里巴巴终端技术

小程序 ios android App 移动开发

GraphQL 快速入门【4】GraphQL 组件

码语者

Rest graphql

列举出常见的Java面试题100+,我靠这个在十月拿到了阿里的offer

Java 程序员 编程语言

顺丰对供应链+区块链应用的思考与规划

CECBC

当支付宝 App 遇见 AndroidX......

阿里巴巴终端技术

android App 移动端 AndroidX

想要入职阿里P8?至少是要啃完这本500页Java并发多线程源码笔记!

Java 架构 面试 程序人生 编程语言

2022前端react高频面试题

buchila11

React

P8整理的OpenStack构架,希望能帮助到你

hanaper

百度智能云全面升级金融AI中台解决方案, 打造软硬一体AI开发全栈能力

百度大脑

人工智能 金融

秋招如何抱佛脚?2021最新大厂Java面试真题合集(附权威答案)

Java 架构 面试 程序人生 编程语言

夸克APP端智能:文档关键点检测实践与应用

阿里巴巴终端技术

算法 移动开发 客户端 端智能

DCEP:真正的“无现金新时代”!现已完成技术对接!

CECBC

VSCode 中,TS 提示 ”无法找到 *.vue 声明文件“ 的解决方案

编程三昧

vscode Vue3 ts 9月日更

2021年最新整理, C++ 学习资料,含C++ 11 / 14 / 17 / 20 / 23 新特性、入门教程、推荐书籍、优质文章、学习笔记、教学视频等

奔着腾讯去

c++

大数据presto作业

Clarke

网络攻防学习笔记 Day150

穿过生命散发芬芳

9月日更 网络流量分析

财经大课:从效率公平看“共同富裕”

石云升

学习笔记 9月日更 共同富裕

第6章-《Linux一学就会》- Centos8 用户管理

学神来啦

Linux 运维 linux学习 linux云计算

如何处理各种「陨石开发」的紧急要求?

LigaAI

敏捷开发

AI技术在漫画阅读体验上的应用

快看工程技术中心

深度学习 AI 漫画

云拨测助力节卡机器人 全面优化海外网站性能

阿里巴巴云原生

阿里云 云原生 拨测 成功案例

内含(基础+进阶+高级+调优)的神仙级的阿里巴巴“MySQL”教程限时开源!

Java 架构 面试 程序人生 编程语言

大模型时代的AI之变与开发之根

脑极体

网站攻击到提权的全部过程

网络安全学海

黑客 网络安全 信息安全 WEB安全 漏洞分析

零一万物回应“套壳Llama”争议:基于GPT研发,对模型和训练的理解做了大量工作_AI&大模型_褚杏娟_InfoQ精选文章