![斯坦福AI团队“套壳”清华系开源大模型被实锤!被揭穿后全网删库跑路](https://static001.infoq.cn/resource/image/30/43/30b35474aa52fc8ba2977f1181bf0943.jpg)
5 月 29 日,一个来自斯坦福的作者团队在 Medium 上发布了一篇名为《Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars》的文章,文章中称他们训练出了一个比 GPT-4V、Gemini Ultra、Claude Opus 更强的 SOTA 开源多模态模型,尺寸比 GPT4-V 小 100 倍,训练成本仅需 500 美元。
斯坦福 AI 团队“套壳”清华系开源大模型被实锤
该团队成员 Aksh Garg 也在 X(原 Twitter)上发贴介绍了这一模型的特点。没过多久该帖的浏览量已超过 30 万,被转发了 300 多次,Llama 3-V 的项目一下子冲到了 HuggingFace 首页。
![](https://static001.geekbang.org/infoq/22/22fe03b33e18660d2ad1b37e2746f61e.png)
随着该项目热度的持续走高,不少 X 和 HuggingFace 上的网友注意到,Llama 3-V 总是让人有种似曾相识的感觉,好像在哪里见到过!
![](https://static001.geekbang.org/infoq/38/38d2376f8dd321f17cbbc64481fe1514.png)
网友们接着深扒后发现, Llama 3-V 似乎,有点,好像是套壳了清华系开源大模型 MiniCPM-Llama3-V 2.5。
据悉,MiniCPM-Llama3-V 2.5 是由清华系 AI 公司面壁智能推出并开源的 MiniCPM 系列最新的端侧多模态模型,总参数量为 8B,支持 30+ 种语言,多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型,OCR 能力及指令跟随能力得到进一步提升,可精准识别难图、长图、长文本。
面对网友们的质疑,斯坦福这支 AI 团队也坐不住了,他们表示只是使用了 MiniCPM-Llama3-V 2.5 的 tokenizer,并且宣称在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作。
![](https://static001.geekbang.org/infoq/81/81ee9d7cc314d51baad875a7dd9255c8.png)
但他们的解释再次遭到了质疑。
通常情况下,一款模型及其详细的 tokenizer 往往是在其发布后才能被外人知晓,那么斯坦福这支 AI 团队如何能在 MiniCPM-Llama3-V 2.5 发布之前就获取到这些信息?
这件事持续在网上发酵。
6 月 2 日,不死心的网友在 Llama3-V 的 GitHub Issue 上发布质疑,或许是因为心虚,该条质疑的评论很快就被 Llama3-V 团队删除。
幸运的是,发布质疑的网友早已机智地提前截图保存了自己在 GitHub Issue 上发布的内容。
这名网友列举了在他看来 Llama3-V“套壳” MiniCPM-Llama3-V 2.5 的四点证据:
证据一:模型结构和代码几乎是双胞胎兄弟。
比如,套壳的 Llama3-V 与 MiniCPM-Llama3-V 2.5 几乎“共用”了完全相同的模型结构和代码。Llama3-V 的模型结构和配置文件与 MiniCPM-Llama3-V 2.5 完全相同,只是变量名不同。
![](https://static001.geekbang.org/infoq/b1/b17eebf7018881bc6a38da001d5835bf.png)
左图:MiniCPM-Llama3-V 2.5 右图:Llama3-V
证据二:Llama3-V 的代码似乎就是 MiniCPM-Llama3-V 2.5 的代码。更令人震惊的是,Llama3-V 仅仅只是进行了一些重新格式化并把一些变量重新做了命名,比如图像切片、分词器、重采样器、数据加载等变量,下图是一些示例。
![](https://static001.geekbang.org/infoq/a5/a5d29d816945e3409cfd9846b1f99470.png)
证据三:Llama3-V 的作者表示他们“引用了 LLaVA-UHD 作为架构”,还列出了差异点(关于 ViT 和 LLM 的选择)。但是他们并没有提到,这个项目的具体实现与 MiniCPM-Llama3-V 2.5 极其相似,却在空间模式等许多方面与 LLaVA-UHD 有非常多的差异。Llama3-V 也具有与 MiniCPM-Llama3V 2.5 相同的分词器,包括 MiniCPM-Llama3-V 2.5 新定义的特殊符号。
![](https://static001.geekbang.org/infoq/7a/7a23662d9623f271b1cefd8299d5e33c.png)
![](https://static001.geekbang.org/infoq/45/458913d4dfbd98e676cf324b94e90078.png)
证据四: 最初 Llama3-V 的作者在上传代码时直接导入了 MiniCPM-V 的代码,然后将名称更改为 Llama3-V。
https://huggingface.co/mustafaaljadery/llama3v/commit/3bee89259ecac051d5c3e58ab619e3fafef20ea6
![](https://static001.geekbang.org/infoq/93/934c15b6a4a165f8ec409a859a567991.png)
面壁智能团队下场实锤,斯坦福 AI 团队连夜删库跑路
在屡遭质疑后,斯坦福 AI 团队已经被逼到了不回应实在说不过去的地步了,有网友开脸贴大该项目的作者,“你们有没有勇气面对事实”?
![](https://static001.geekbang.org/infoq/b7/b7cccb06d67ca9d15c4b3601ebc00bdd.png)
这种情况下,该团队成员不得不对网友关注的问题进行了回复。该项目中的一位作者表示:
“你们的说我们抄袭简直是没影儿的事儿。Llama3-V 推理存在 bug,而 MiniCPM 的配置可以有效解决该问题,这就是为什么我们使用了相同的配置。此外,我已经指出了架构是相似的,但 MiniCPM 的架构来自 Idéfics。SigLIP 也来自 Idéfics。我们遵循 Idéfics 论文中的那些内容。LLava UHD 来自他们的实验室,我也已经指出了这一点。此外,我还强调了更多内容,即它是相同的架构,但该架构是基于综合研究的,你怎么能说它是 MiniCPM 呢?MiniCPM 的代码,看起来,视觉部分的也是从 Idéfics 那里使用的。”
不少网友还注意到,Llama3-V 在 MiniCPM-Llama3-V 2.5 项目发布之前就已经使用了 MiniCPM-Llama3-V 2.5 的 tokenizer 。有一些用户在 Twitter 和 HuggingFace 上指出以上问题后,Llama3-V 的作者表示他们只是使用了 MiniCPM-Llama3-V 2.5 的分词器(tokenizer)。他们还声称在 MiniCPM-Llama3-V 2.5 发布之前就开始了 Llama3-V 的工作。但令人无法解释的是,他们如何能在 MiniCPM-Llama3-V 2.5 发布之前就获取到其详细的分词器?
![](https://static001.geekbang.org/infoq/f1/f121ad805bec2bdf1e8c39ba36446fdc.png)
对此,Llama3-V 项目作者反驳说从已经发布的上一代 MinicPM-V-2 项目里拿的标记器。但实际上,有网友留意到,MiniCPM-V-2 的 tokenizer 与 MinicPM-Llama3-V2.5 完全不同,在 Huggingface 里是两个文件。既不是同一个 tokenizer 件,文件大小也完全不同。MinicPM-Llama3-v2.5 的 tokenizer 是 Llama3 的 tokenizer 加上 MiniCPM-V 系列模型的一些特殊 token 组成,MiniCPM-v2 因为在 Llama 3 开源之前就发布的,不会有 Llama 3 的分词器。
Llama3-V 团队屡遭质疑却始终咬死不认的态度,惹怒了面壁智能 MiniCPM-Llama3-V 2.5 团队的研究人员们。
6 月 3 日,面壁智能向 AI 前线列举了一些 Llama3-V 团队抄袭的“实锤”。
面壁智能认为,Llama3-V 项目的作者似乎并不完全理解 MiniCPM-Llama3-V 2.5 的架构,甚至也不理解他们自己的代码。
如下图 Llama3-V 的技术博客和代码显示, Llama3-V 的作者似乎没有完全理解 MiniCPM-Llama3-V 2.5 的架构,甚至也不懂他们"自己"(假若真是他们所写)的代码。
感知器重采样器(Perceiver resampler)是单层 cross-attention,而不是双层 self-attention。但是下图所示 Llama3-V 的技术博客里作者的理解很明显是错的。另外 SigLIP 的 Sigmoid 激活也不用于训练多模态大语言模型,而仅用于预训练 SigLIP。
![](https://static001.geekbang.org/infoq/8a/8a75f9e9de53acf5d793df56cae1ed45.png)
截图来源:Llama3-V 的技术博客
![](https://static001.geekbang.org/infoq/51/512a694de9e4328876ed049242ea6623.png)
截图来源:Llama3-V 的代码
面壁智能团队还表示:“另外视觉特征提取不需要 Sigmoid 激活,但下图所示 Llama3-V 的技术博客里作者的理解是错的,但代码其实是正确的,这说明作者压根不理解自己的代码”。
![](https://static001.geekbang.org/infoq/42/42eeb98c7de98601c9aa8ebf7dadccdd.png)
![](https://static001.geekbang.org/infoq/d1/d12f22ad32d7194fe7a00eefadc55d90.png)
此外,Llama3-V 相当于 MiniCPM-Llama3-V 2.5 的加噪声版本。
据网友反馈,当运行 Llama3-V 时,作者提供的代码无法与 HuggingFace 上的 checkpoint 配合使用。
然而令人啼笑皆非的是,当把 Llama3-V 模型权重中的变量名更改为 MiniCPM-Llama3-V 2.5 的名称后,模型可以成功运行 MiniCPM-V 的代码。这一下子帮忙解决了困扰 Llama3-V 作者一周的问题。
![](https://static001.geekbang.org/infoq/60/6054c03b78fc21f2eb5ad2a12978f68a.png)
如果在 MiniCPM-Llama3-V 2.5 的 checkpoint 上添加一个简单的高斯噪声(由一个标量参数化),你会预期得到什么结果?
new_dict = {}
for k, v in model.state_dict().items():
torch.cuda.manual_seed_all(42)
new_dict[k] = v + torch.randn_like(v) / 708
model.load_state_dict(new_dict)
结果是会得到一个行为与 Llama3-V 极为相似的模型。
![](https://static001.geekbang.org/infoq/d1/d1cda987e18bed0bfb1064a003ea9f6c.png)
然而,这些还不够。更更更炸裂的是,Llama3-V 连清华团队内部并未对外公开的私有数据都能拿到???
据面壁智能内部团队透露,Llama3-V 大模型居然能识别清华简,OCR 表现对比也很惊人,这些清华大学内部的私有数据他们又是如何拿到的呢?
MiniCPM-Llama3-V 2.5 的一个实验性功能是能够识别清华简,这是一种非常特殊且罕见的中国战国时期(公元前 475 年至公元前 221 年)写在竹简上的古文字。这些训练数据的采集和标注均有由清华 NLP 实验室和面壁智能团队完成,相关数据尚未对外公开。经过专有数据训练后,MiniCPM-Llama3-V 2.5 能够初步识别清华简的文字,甚至连犯的错误都一样。
然而令人惊讶的是,不可能获得专有数据训练的 Llama3-V 竟然也具有相同的能力!
![](https://static001.geekbang.org/infoq/67/67627805e2f4889d976c1944a65d8de5.png)
下图展示了 Llama3-V 在识别清华简的文字时,其结果和 MiniCPM-Llama3-V 2.5 一致。
![](https://static001.geekbang.org/infoq/fd/fdacef044c8278ebed1f58329d1b8c52.png)
有趣的是,Llama3-V 在清华简识别犯错时竟然也和 MiniCPM-Llama3-V 2.5 一模一样。
![](https://static001.geekbang.org/infoq/40/406fcf41ab5f31c53e2b59bd7e67bb1d.png)
为谨慎起见,作者在 1000 张竹简图像上测试了几种基于 Llama3 的视觉-语言模型,并比较了每对模型的预测精确匹配。
结果显示,正常情况下每两个模型之间的重叠为零,而 Llama3-V 和 MiniCPM-Llama3-V 2.5 之间的重叠竟然达到了惊人的 87%!此外,MiniCPM-Llama3-V 2.5 和 Llama3-V 甚至在错误分布上也非常相似。Llama3-V 和 MiniCPM-Llama3-V 2.5 分别有 236 和 194 个错误预测,而其中重叠部分高达 182 个。
另外,这个高斯噪声对竹简字符也是有效的。
![](https://static001.geekbang.org/infoq/14/14fc6f40c674a41da3b28123999a477b.png)
与 MiniCPM-Llama3-V 2.5 类似,Llama3-V 也显示出了很强的 OCR 能力,甚至包括中文。
![](https://static001.geekbang.org/infoq/90/90072ebd0f7e0c45881bb9792ef0b11a.png)
Prompt:请输出图片中的文字
MiniCPM-Llama3-V 2.5
Llama 3-V
同样的事情也发生在内部的 WebAgent 数据上,这是一个已经整合但尚未发布的功能。
![](https://static001.geekbang.org/infoq/3e/3ebe7617cac4cbab5f0d5c68ff26825c.png)
![](https://static001.geekbang.org/infoq/31/312dd56311e0b9be740ccedf88ea9314.png)
Github 开源:https://github.com/mustafaaljadery/llama3v(已删库)
HuggingFace 开源:https://huggingface.co/mustafaaljadery/llama3v(已删库)
Medium 发布文章:https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee
Twitter 官宣模型:https://twitter.com/AkshGarg03/status/1795545445516931355(已删除)
事情发酵至此,就在网友们都等着斯坦福 AI 团队再次发文力证清白时,AI 前线留意到,该团队成员似乎集体“闭麦”,并且已经删除了他们在 X 上官宣模型的推文,连带着该项目在 Github 和 HuggingFace 上的库也已经删干净了。
而今天,面壁智能联合创始人 &CEO 李大海也在朋友圈发文对此事进行了最新回应,李大海对此事表示遗憾。他写道:
“经过团队核实,除了社区网友列出的证据外,我们还发现 Llama3v 展现出和小钢炮一样的清华简识别能力,连做错的样例都一模一样,而这一训练数据尚未对外公开。这项工作是团队同学耗时数个月,从卷帙浩繁的清华简中一个字一个字扫描下来,并逐一进行数据标注,融合进模型中的。更加 tricky 的是,两个模型在高斯扰动验证后,在正确和错误表现方面都高度相似。
技术创新不易,每一项工作都是团队夜以继日的奋斗结果,也是以有限算力对全世界技术进步与创新发展作出的真诚奉献。我们希望团队的好工作被更多人关注与认可,但不是以这种方式。
我们对这件事深表遗憾!一方面感慨这也是一种受到国际团队认可的方式,另一方面也呼吁大家共建开放、合作、有信任的社区环境。一起加油合作,让世界因 AGI 的到来变得更好!”
![](https://static001.geekbang.org/infoq/99/99daea9d24cdf221bbe0c7aefedfb388.png)
公众号推荐:
AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。
![](https://static001.geekbang.org/resource/image/b4/f4/b4b2dc5e41bda1a344a3179afd0049f4.png)
评论 2 条评论