写点什么

零一万物回应“套壳 Llama”争议:基于 GPT 研发,对模型和训练的理解做了大量工作

  • 2023-11-14
    北京
  • 本文字数:1958 字

    阅读完需:约 6 分钟

大小:290.29K时长:01:39
零一万物回应“套壳Llama”争议:基于GPT研发,对模型和训练的理解做了大量工作

11 月 14 日,李开复旗下 AI 企业零一万物开源大模型Yi-34B被指责完全使用 LLaMA 的架构 ,只对两个张量 (Tensor) 名称进行修改。

 

对此,零一万物表示:GPT 是一个业内公认的成熟架构,Llama 在 GPT 上做了总结。零一万物研发大模型的结构设计基于 GPT 成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常初期,与行业主流保持一致的结构,更有利于整体的适配与未来的迭代。同时零一万物团队对模型和训练的理解做了大量工作,也在持续探索模型结构层面本质上的突破。

 

此事起源于贾扬清在朋友圈的一个吐槽,贾扬清提到,有个“大厂新模型 exactly 就是 LLaMA 的架构,但是为了表示不一样,把代码里面的名字从 LLaMA 改成了他们的名字,然后换了几个变量名。然后,海外有工程师直接指了这一点出来... 还有人在 HF 上面放了个把名字改回去的 checkpoint,说好了,现在你们可以直接用 LLaMA 的代码来 load 这个 checkpoint 了”。



一时间,大家纷纷猜测这个基于 Llama 魔改的大模型到底是哪个。贾扬清随后专门留言表示不是自己的老东家阿里的。后来,有人扒到Hugging Face社区的Yi-34B项目下讨论区的留言,留言指出,“除了两个张量被重新命名外,Yi 完全使用了 Llama 的架构。”

 


有网友评论称,“如果他们使用了确切的 Meta LLaMA 结构、代码库和所有相关资源,则还需要遵守 LLaMA 规定的许可协议。要求以 LLaMA 形式正式发布 Yi 模型是有问题的,因为它破坏了 Yi 许可条款的可执行性。”


后续:


11 月 15 日,零一万物公众号发布了对 Yi-34B 训练过程的说明,李开复在朋友圈也转发了该说明,并表示,“01.AI 起步受益于开源,也贡献开源,从社区中虚心学习,我们会持续进步。”

说明原文如下:


就零一万物的观察和分析,大模型社区在技术架构方面现在是一个处于接近往通用化逐步收拢的阶段,基本上国际主流大模型都是基于 Transformer 的架构,做 attention,activation,normalization,positional embedding 等部分的改动,LLaMA、Chinchilla、Gopher 等模型的架构和 GPT 架构大同小异,全球开源社区基于主流架构的模型变化非常之多,生态呈现欣欣向荣,国内已发布的开源模型也绝大多数采用渐成行业标准的 GPT/LLaMA 的架构。然而,大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数。


模型训练过程好比做一道菜,架构只是决定了做菜的原材料和大致步骤,这在大多数人的认知中也逐步形成共识。要训练出好的模型,还需要更好的“原材料”(数据)和对每一个步骤细节的把控(训练方法和具体参数)。由于大模型技术发展还在非常初期,从技术观点来说,行业共识是与主流模型保持一致的模型结构,更有利于整体的适配与未来的迭代。


零一万物在训练模型过程中,沿用了 GPT/LLaMA 的基本架构,由于 LLaMA 社区的开源贡献,让零一万物可以快速起步。零一万物从零开始训练了 Yi-34B 和 Yi-6B 模型,并根据实际的训练框架重新实现了训练代码,用自建的数据管线构建了高质量配比的训练数据集(从 3PB 原始数据精选到 3T token 高质量数据)。除此以外,在 Infra 部分进行算法、硬件、软件联合端到端优化,实现训练效率倍级提升和极强的容错能力等原创性突破。这些科学训模的系统性工作,往往比起基本模型结构能起到巨大的作用跟价值。


零一万物团队在训练前的实验中,尝试了不同的数据配比科学地选取了最优的数据配比方案,投注大部分精力调整训练方法、数据配比、数据工程、细节参数、baby sitting(训练过程监测)技巧等。这一系列超越模型架构之外,研究与工程并进且具有前沿突破性的研发任务,才是真正属于模型训练内核最为关键、能够形成大模型技术护城河 know-how 积累。在模型训练同时,零一万物也针对模型结构中的若干关键节点进行了大量的实验和对比验证。举例来说,我们实验了 Group Query Attention(GQA)、Multi-Head Attention(MHA)、Vanilla Attention 并选择了 GQA,实验了 Pre-Norm 和 Post-Norm 在不同网络宽度和深度上的变化,并选择了 Pre-Norm,使用了 RoPE ABF 作为 positional embedding 等。也正是在这些实验与探索过程中,为了执行对比实验的需要,模型对部分推理参数进行了重新命名。


在零一万物初次开源过程中,我们发现用和开源社区普遍使用的 LLaMA 架构会对开发者更为友好,对于沿用 LLaMA 部分推理代码经实验更名后的疏忽,原始出发点是为了充分测试模型,并非刻意隐瞒来源。零一万物对此提出说明,并表达诚挚的歉意,我们正在各开源平台重新提交模型及代码并补充 LLaMA 协议副本的流程中,承诺尽速完成各开源社区的版本更新。


我们非常感谢社区的反馈,零一万物在开源社区刚刚起步,希望和大家携手共创社区繁荣,在近期发布 Chat Model 之后,我们将择期发布技术报告,Yi Open-source 会尽最大努力虚心学习,持续进步。


开源社区讨论参考:

https://huggingface.co/01-ai/Yi-34B/discussions/11#6553145873a5a6f938658491

2023-11-14 17:165586

评论 4 条评论

发布
用户头像
李老师,真TMD的丢人啊。。。。
2023-11-15 10:27 · 北京
回复
用户头像
抄操作系统,数据库,CPU,浏览器。。。啥都抄,难道已经成中国特色传统了?
2023-11-15 08:17 · 浙江
回复
现在连代码编辑器都抄了。。。。
2023-11-15 10:28 · 北京
回复
用户头像
有没有可能是LLaMA抄零一万物?
2023-11-14 19:22 · 北京
回复
没有更多了
发现更多内容

AI别来搅局,chatGPT的世界不懂低代码

引迈信息

人工智能 低代码 ChatGPT JNPF

软件测试丨Pytest学习笔记-Mark标记、Skip跳过、xFail预期失败

测试人

软件测试 自动化测试 测试开发 pytest

NFTScan 开发者平台发布 CU 付费方案,为 Web3 初创团队提供多链 NFT API 服务

NFT Research

NFT #Web3

用户费力度建设初探

Qunar技术沙龙

去哪儿网 用户费力度

【网易云信】网易云信 RTC 音频问题排查的挑战与实践

网易智企

RTC 实时音视频 AIGC

【开源之夏 2023】欢迎报名 SOFAStack 社区项目!

SOFAStack

开源 开发 SOFA 开源之夏 程序员 java

面对复杂的系统与众多的插件,如何确保Jenkins项目的安全性?

龙智—DevSecOps解决方案

ci 持续集成 jenkins

AI数据采集——数字世界的智能伙伴

来自四九城儿

AI数据采集的挑战和解决方案

来自四九城儿

全新问世!阿里内藏版的SpringBoot 2.5实战笔记,全面覆盖新特性

做梦都在改BUG

Java spring 微服务 Spring Boot 框架

Go_Gin之初体验

神木鼎

golang 日更 gin框架

如何在 Mac 上查看显示刷新率

互联网搬砖工作者

MoE 系列(三)|使用 Istio 动态更新 Go 扩展配置

SOFAStack

golang 程序员 开发 java; envoy

Git合并冲突的根本原因和解决方法

龙智—DevSecOps解决方案

git merge

网易云信 RTC 音频问题排查的挑战与实践

网易云信

RTC 实时音视频 AIGC

如何降低电动汽车软件的开发成本和风险?

龙智—DevSecOps解决方案

电动汽车市场 电动汽车软件

AE/PR插件-去朦胧除雾霾增强色彩调色插件ClearPlus

真大的脸盆

Mac AE插件 AE

Spring Boot如何优雅提高接口数据安全性

做梦都在改BUG

Java spring Spring Boot

翻遍GitHub帮你总结了一份并发图册+高并发笔记,一次性搞懂并发编程

小小怪下士

Java 程序员 后端 高并发 并发

来了!昇腾MindStudio全流程工具链分论坛精彩回顾,助力高效开发和迁移效率提升

Geek_2d6073

大数据如何助力营销(1)市场调研

MobTech袤博科技

做客《创新之路》,Tapdata 创始人唐建法对话央视著名主持人李雨霏,畅聊创业故事

tapdata

如何利用java实现一个布隆过滤器?

做梦都在改BUG

Java 布隆过滤器

用scrum敏捷工具做敏捷需求管理

顿顿顿

Scrum 敏捷开发 敏捷项目管理 看板工具

[杂谈]大型JSON数据切分(Java Jackson)

alexgaoyh

json elasticsearch Jackson 分割

现代IT服务与企业服务管理:借助Jira Service Management实现团队互联,打造高效透明的服务体验

龙智—DevSecOps解决方案

ITSM

大开眼界!Jenkins结合SpringCloud+K8S,打通微服一条龙技术讲解

做梦都在改BUG

Java Kubernetes k8s Spring Cloud jenkins

如何通过appuploader把ipa文件上传到App Store教程步骤​

雪奈椰子

软件测试/测试开发丨Python学习笔记之封装、继承、多态、模块

测试人

Python 软件测试 自动化测试 测试开发

通过自定义域名 + SSL 的方式访问 Amazon MQ for RabbitMQ

亚马逊云科技 (Amazon Web Services)

零一万物回应“套壳Llama”争议:基于GPT研发,对模型和训练的理解做了大量工作_AI&大模型_褚杏娟_InfoQ精选文章