AICon 深圳站聚焦 Agent 技术、应用与生态,大咖分享实战干货 了解详情
写点什么

性能接近 GPT-4,Mistral-Medium 遭泄露?CEO 最新回应来了......

  • 2024-02-01
    北京
  • 本文字数:3062 字

    阅读完需:约 10 分钟

大小:1.41M时长:08:12
性能接近GPT-4,Mistral-Medium遭泄露?CEO最新回应来了......

开源模型疑似泄露,开发者纷纷下场测试

 

近日,一则关于“Mistral-Medium 模型泄露”的消息引起了大家的关注,该消息在 Hacker News 和 X(原 Twitter)上持续发酵。

 


 此消息之所以受到这么多关注,与一款叫做“Miqu”的神秘模型有关。

 

1 月 28 日左右,一位名为“Miqu Dev”的用户在开源 AI 模型和代码共享平台HuggingFace 上发布了一组文件,这些文件共同构成了一个看似新的开源大语言模型,名为“miqu-1-70b”。

 

开源地址:https://huggingface.co/miqudev/miqu-1-70b

 


 在 Hugging Face 平台的 miqu-1-70b 项目上,多条内容指出这款新的大语言模型的“提示格式”以及用户与其交互的方式与 Mistral AI 公司正在研发中的 Mistral Medium 模型相同。同一天,4chan 上的一位匿名用户(可能是“Miqu Dev”)在 4chan 上发布了 miqu-1-70b 文件的链接,该项目的受关注程度逐渐升高。

 

模型放出后,有业内人士猜测,这个神秘泄露的 miqu-1-70b 可能就是 MistralAI 模型的 Medium 或者过往混合专家测试版本。

 

一些人用户在 X 上分享了该模型的发现,以及该模型在常见 LLM 任务(通过称为基准的测试来衡量)上表现出的异常出色的性能,甚至接近了 OpenAI 的 GPT -4 在 EQ 工作台上的表现。

 


有用户测试了这款神秘模型和 Medium 模型后表示:“尽管可能有些晚了,但现在我 100%确信 miqu 与 Perplexity Labs 上可访问的 Mistral-Medium 模型是同一个模型。该用户还称:“它似乎知道标准谜题,但如果是恶作剧者,根本不可能将其调整为同样用俄语回答。”

 

这款备受瞩目的生成式 AI 新星——miqu-1-70b 自然要被拿来与各位前辈进行一番比较。有测试者用 4 项德国数据保护测试对这款神秘模型做了更深入的测试,方法如下:

 

  • 这里通过 4 项德国在线数据保护培训/考试,对这套新模型的表现加以验证。

  • 测试数据、问题及所有说明均为德语,而答题卡则为英语。这考察了模型的翻译能力和跨语言理解能力。

  • 在提供信息之前,测试者会用德语指示模型:接下来向你提供一些信息,请记住相关内容,并回答“确定”以确认已经理解其内容。这一步是为了测试模型的指令理解与遵循能力。

  • 在提供关于某个主题的全部信息之后,测试者会向模型提出测试问题。这是一套包含三个选项的多选题,但首题采用 A/B/C 选项,末题为 X/Y/Z 选项。每项考试包含 4 至 6 道题,测试流程总计 18 道选择题。

  • 根据模型给出的正确答案数量进行排名,先测试事先提供课程内容后的成绩,再测试没有提供信息下的盲答成绩(作为决胜局)。

  • 所有测试均单独运行,每次测试间会清除上下文,保证会话之间的记忆/状态不相互干扰。

 

还进行了包括SillyTavern前端、koboldcpp后端(对于 GGUF 模型)在内的其他测试,另外还预先设置确定性生成,以尽可能消除随机因素并进行有意义的模型间比较,也包括注明官方提示词格式。

 

以下为详细注释、排名基础和其他评论与观察发现:

❌ 正确回答了 4+4+4+5=17/18 道选择题,而在盲答阶段,正确答案题为: 4+3+1+5=13/18。

❌ 未能按照要求用“确定”来回应数据输入。

 

经过了多项测试后,结果显示 miqu-1-70b 的效果着实不错,测试者出于个人猜测,miqu-1-70b 可能是一套外泄的 MistralAI 概念验证旧模型,从开发次序来讲应该不会比 Mixtral 更晚。此外,测试者也表示,在测试过程中注意到了几个有趣的点,从这几个方面来看,miqu-1-70b 跟 Mixtral 存在诸多相似:

 

  • 优秀的德语拼写与语法能力。

  • 支持双语,可在回复中添加翻译。

  • 能够为回复添加注释和评论。

 

但测试者也表示,在测试中,miqu-1-70b 仍无法与 Mixtral-8x7B-Instruct-v0.1(4-bit)相媲美,不过性能仍比 Mistral Small 和 Medium 更好(亲自测试 Medium 时其表现相当糟糕,可能是 API 的问题)。但与测试者每天都在使用的 Mixtral 8x7B Instruct 相比,miqu 也没有好太多。

 

在这场 miqu 和 Mistral Medium 模型对比测试中,前阵子号称要干掉谷歌搜索的 Perplexity 印度创始人 Aravind Srinivas 也在 X 上发表了自己的观点:

 

很多人问我 Mistral 的所有模型是否都基于 Meta 的 Llama。特别是因为 Mistral Medium 在 Perplexity Labs 上的输出与 miqu 非常相似,而这种相似性是通过测试发现的。Mistral 的 CEO Arthur 已经提供了一个清晰的解释,并确认这是一个来自早期访问客户的泄露。

 

此外,Perplexity 从未获得过 Mistral Medium 的权重访问权限。所以,当你在 Labs 上使用 Mistral Medium 时,我们只是将你的请求路由到 Mistral 支持的有效端点,而没有访问权重。泄露的权重实际上是量化版本,与 NVIDIA TensorRT 不兼容。

 

此外,很多人在看到这个消息是本能地反应会认为 Mistral 不知道如何进行预训练,只是在 LLama 2 上构建。这是明显不真实的。Mistral 7b 是一个由 Mistral 团队从头开始训练的模型,而 Mistral 8x7b MoE 也是通过使用他们自己的 7b 作为每个专家的初始化来训练的。所以很明显,这个团队知道如何从零开始训练自己的模型。Mistral Medium 是从 LLama 后期训练的,可能是因为迫切需要一个接近 GPT-4 质量的 API,以便早期客户使用。但是一个能够在计算和时间投入远少于 Gemini Pro 的情况下取得胜利的团队,现在他们有了更多的资金和计算资源,显然能够做到 GPT-4 级别的质量。

 

当然,泄露是不好的。Mistral 的胜利对社区来说是一件好事:无论是对学术界还是对初创公司。支持他们!

Mistral AI 高层发声:是泄露了,但只是个旧版本

在 Mistral AI 的新模型遭泄漏这一话题热度不断上涨之时,据外媒最新消息,Mistral AI 联合创始人兼 CEO Arthur Mensch 在 X 上澄清:

 

“一个我们早期客户的热情员工泄露了一个我们公开训练和发布的老模型的量化(带水印)版本。为了尽快与一些特定的客户开始合作,我们在获得整个集群访问权限后立即从 Llama 2 重新训练了这个模型——预训练在 Mistral 7B 发布的那一天完成。自那时以来,我们取得了很好的进展——敬请期待!”

 


有趣的是,Mensch 并没有要求删除 HuggingFace 上的帖子,而是留下那些评论说发帖者“可能会遭到模型所属公司追责”的评论。

Mistral AI 创始团队成员均来自谷歌和 Meta

 

Mistral AI 是一家总部位于巴黎的欧洲公司,由 Arthur Mensch 和 Guillaume Lample 以及 Timothée Lacroix 于 2023 年 2 月联合创立,并于去年 12 月 10 日宣布筹集了 3.85 亿美元,仅半年多的时间,该公司估值近 20 亿美元。Mistral AI 在刚成立且没有任何产品时就已筹集了 1.05 亿美元。

 

因此,它也成为继德国 Aleph Alpha 在去年 11 月筹集了 5 亿欧元之后,第二家筹集到如此多资金的欧洲人工智能初创公司。

 

Mistral AI 一直在研究如何提高模型性能,同时减少为实际用例部署 llm 所需的计算资源。Mistral 7B 是他们创建的最小 LLM,它为传统的 Transformer 架构带来了两个新概念,Group-Query Attention(GQA)和 Sliding Window Attention(SWA)。这些组件加快了推理速度,减少了解码过程中的内存需求,从而实现了更高的吞吐量和处理更长的令牌序列的能力。

 

Mistral AI 首席执行官 Arthur Mensch,31 岁,在 Google 人工智能实验室 DeepMind 工作了近三年。Mistral 的科学总监 Guillaume Lample 是 Facebook 母公司 Meta 在 2 月份推出的 LLaMA 语言模型的创建者之一。Timothée Lacroix 是 Mistral AI 的技术总监,也是 Meta 的研究员。

 

参考链接:

https://twitter.com/Yampeleg/status/1751837962738827378

https://www.euronews.com/next/2023/12/11/french-ai-start-up-mistral-reaches-unicorn-status-marking-its-place-as-europes-rival-to-op

https://analyticsindiamag.com/mistral-ai-challenges-dominance-of-openai-google-meta/

https://news.ycombinator.com/item?id=39175611

2024-02-01 16:138893
用户头像
李冬梅 加V:busulishang4668

发布了 1131 篇内容, 共 751.5 次阅读, 收获喜欢 1276 次。

关注

评论

发布
暂无评论
发现更多内容

Mac专业级的PDF编辑和管理软件:Acrobat Pro DC 2023

展初云

Mac软件 PDF编辑 PDF管理

在 Windows 平台下安装与配置 MySQL 5.7.36

小齐写代码

消灭指标二义性!提效30%的指标管理如何炼成?

奇点云

奇点云 数据云操作系统 指标标签

塑造未来经济的游戏规则改变者:去中心化金融交易所的发展

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 NFT开发

文件比较对比软件中的佼佼者Beyond Compare 4 for Mac

展初云

Mac Mac软件 文件比较对比工具

李彦宏,AI原生应用的秋收时刻

脑极体

AI

浅谈分布式事务及解决方案 | 京东物流技术团队

京东科技开发者

数据库 分布式 分布式事务 事务 企业号10月PK榜

sip中继的内容介绍

cts喜友科技

SIP sip中继

如何将电脑上的“小电影”隐藏为一张图片?这波操作绝了!!

冰河

程序员 图片 视频创作 知识分享 小视频

SAAS堡垒机安全吗?为什么性价比那么高?

行云管家

云计算 软件 SaaS SAAS软件

DHorse v1.4.2 发布,基于 k8s 的发布平台

tiandizhiguai

解析设计模式与设计原则:构建可维护性和可扩展性代码的重要性

华为云开发者联盟

开发 华为云 华为云开发者联盟

图文详解!带你认识 ancert:硬件兼容性标准实现工具!| 龙蜥技术

OpenAnolis小助手

开源 操作系统 龙蜥社区 Ancert 硬件兼容性

简单好用的pdf编辑工具 PDF Expert 最新中文版

胖墩儿不胖y

PDF 编辑pdf pdf处理工具

驱动数字化转型,Doris Summit Asia 2023 智慧金融与政企论坛精彩预告!

SelectDB

数据库 大数据 数据分析 实时数仓 apache doris

TDengine 资深研发整理:基于 SpringBoot 多语言实现 API 返回消息国际化

TDengine

时序数据库 ​TDengine

宁夏企业过等保选哪家测评机构好?选哪家堡垒机?

行云管家

等保 等级保护 宁夏

Opencv入门篇:简介与基本使用 | 京东物流技术团队

京东科技开发者

Python OpenCV 计算机视觉 企业号10月PK榜

AI原生应用速通指南

百度Geek说

App 百度文库 AIGC 企业号10月PK榜

博睿数据获评2023中国智能运维领域“最具商业合作价值企业”

博睿数据

可观测平台 智能运维AIOps

Bonree ONE 秋季产品发布会上新功能提前剧透!

博睿数据

可观测性 智能运维

记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队

京东科技开发者

人工智能 gpu 企业号10月PK榜

记一次MySQL5初始化被kill的问题排查 | 京东云技术团队

京东科技开发者

MySQL 数据库 企业号10月PK榜

火山引擎ByteHouse:双十一即将到来,如何用数据分析提升电商平台销售转化?

字节跳动数据平台

大数据 数据仓库 云原生 电商

设计模式之策略模式:让你的代码灵活应对不同的算法 | 京东云技术团队

京东科技开发者

算法 设计模式 策略模式 企业号10月PK榜

AI大模型下一步怎么走?百度携AI原生应用抢先作答

陈橘又青

文心一言

性能接近GPT-4,Mistral-Medium遭泄露?CEO最新回应来了......_生成式 AI_李冬梅_InfoQ精选文章