时隔16年Jeff Barr重返10.23-25 QCon上海站,带你看透AI如何重塑软件开发! 了解详情
写点什么

微软秒删堪比 GPT-4 的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试

  • 2024-04-22
    北京
  • 本文字数:2652 字

    阅读完需:约 9 分钟

大小:1.25M时长:07:15
微软秒删堪比GPT-4的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试

因发布前忘了测试,微软删除最新开源大模型

 

上周五,Meta 宣布推出了开源大模型 Llama 3,以其卓越性能引发热议。而在 Llama 3 发布之前,微软也悄悄发布了最新的开源模型 WizardLM-2。

 

颇具戏剧性的是,这款模型在发布仅几个小时后,就被微软下架了,理由是在发布之前忘了进行“毒性测试”。

 

据悉,这款大模型发布于上周一,提供三个版本:8x22B、70B 和 7B,每个版本都旨在满足不同的规模和要求。8x22B 模型是旗舰模型,拥有 1410 亿个参数,使其成为开源社区中最有效的模型之一。

 

微软这次发完模型又删除的行为让很多网友表示困惑,因此微软开发人员在 X 上发布了一份声明解释了下架模型的原因。开发人员遗憾地承认了他们在模型发布过程中由于工作疏忽忘记了进行毒性测试。为了向社区保证迅速采取行动,他们承诺在重新发布模型之前立即进行必要的测试。

 

还有外界消息称,WizardLM-2 背后的研发团队总部位于北京。他们澄清表示:“删除该模型是由于忘记测试,而不是故意试图绕过审查”。

 

我们深感抱歉。

 

距离我们发布模型已经过去一段时间😅,所以现在的我们对于新的发布流程有点生疏,不小心遗漏了模型发布过程中的重要一环——有毒内容测试。

 

目前,我们正在快速补全测试工作……

 


 大语言模型的毒性,是指其创作有害或不当内容的能力。如果在大模型中发现“有毒”内容,不单会影响技术方案的性能表现,更可能在全球各地纷纷对 AI 技术抱谨慎、甚至负面态度的背景下引发轩然大波。相关错误输出可能在互联网上疯狂自传播,甚至招来政府当局的调查。没有哪家公司愿意看到这样灾难性的经营事故。

 

因此,该模型的所有文件均被从 GitHub 和 Hugging Face 上移除,访问相关页面现在会显示 404 错误。

 

这款大模型是在 Apache 2.0 协议下发布的,在 repo 被移除之前,许多人已经下载了模型权重。但有细心的 Hacker News 用户还是将其发布地址备份保存了下来(地址如下):

 

https://huggingface.co/dreamgen/WizardLM-2-7B

https://huggingface.co/dreamgen/WizardLM-2-8x22B

 

甚至在下架之前,部分用户已经在其他基准测试中对该模型进行了评估。那么,这款大模型具有哪些功能?与其他大模型相比性能如何?

WizardLM-2“开箱”评测

WizardLM 是一套基于指令的模型,构建于 Meta 的 Llama 基础之上,属于研究人员使用生成的指令数据对 Llama 微调得到的产物。

 

值得注意的是,WizardLM-2 基于混合专家 (MoE) 架构开发,利用完全由人工智能驱动的综合训练系统,增强其处理复杂、多语言对话和执行高级推理的能力。该系统支持模型在各个领域(包括写作、编码、数学等)提供精致且与上下文相关的响应的能力。

 

该模型的第二个版本 WizardLM-2 是在 Mistral AI 的 Mixtral 8x22B 模型基础之上构建而成,并利用合成数据进行了微调。该模型家族共包含三大领先型号:WizardLM-2 8x22B、70B 与 7B。

与各领先的专有大语言模型相比,这些模型表现出极具竞争力的性能水平。

 

WizardLM-2 8x22B 是其中最先进的模型,仅略微落后于 GPT-4-1106-preview。70B 在相同体量下达到了顶级性能,而 7B 版本则速度最快,甚至拥有与参数规模 10 倍于它的领先模型相当的性能表现

 

该模型利用 AI 模型生成的合成数据训练而成。微软公司在 X 上发帖指出:

 

随着天然存在的人类数据逐步被大语言模型训练用尽,我们坚信:AI 精心创造的数据与 AI 分步监督的模型将是通往更强 AI 成果的唯一途径。因此,我们构建了一套完全由 AI 驱动的合成训练系统以增强 WizardLM-2。



WizardLM 2 的训练方式(来源:模型启动页面,现已删除)

 

在 MT-Bench 框架等基准评估中,WizardLM-2 展现出具有竞争力的性能,甚至可以与最先进的专有模型相媲美。它在现实场景中的应用较为广泛,从增强对话式人工智能到支持业务环境中的复杂决策流程。

 


将 WizardLM2 基准与 GPT-4–1106-preview、Command R Plus、Mistral Large、Qwen 1.5、Straling LM 7B 进行比较。(来源:模型启动页面,现已删除)

 

在 MT-Bench 中将 WizardLM-2 与 GPT-4-Turbo 和 Claude-3 等最先进的专有大模型相比,WizardLM-2 8x22B 仍然具备极富竞争力的性能。同时,7B 与 70B 也均成为同等参数规模之下性能最强的大语言模型。

最近几年,微软的步子迈得太大了

 

Hugging Face 及其首席执行官 Clément Delangue 对删除表示失望,并强调了 WizardLM 的开源模型对其平台的重大影响。他们正在积极寻求与 Microsoft 的解决方案,以满足社区需求。

 

随着故事的展开,人们的注意力转向了微软对负责任的 AI 实践的承诺。尽管该公司拒绝直接置评,但更新后的负责任人工智能标准一般要求的发布强调了其对道德人工智能开发的奉献精神,强调需要减少人工智能输出中的偏见和差异。

 

实际上,当前几年还没有在 AI 领域展现出强大的统治力时,微软时常因产品的发布令人失望,甚至被贴上创新停滞和顶尖人才流失的标签。

 

快进到 2024 年,微软已然成为了全世界最有价值的科技巨头之一。在首席执行官萨蒂亚·纳德拉 (Satya Nadella) 的领导下,微软股价在 10 年内飙升了 1000% 以上。一月份,该公司的市值达到 3 万亿美元,超过了法国的 GDP 总和。

 

能够让微软卷土重来的核心是人工智能。微软在 Azure 云计算平台、Office 生产力套件和 Bing 搜索引擎中嵌入了人工智能。而这一转变的关键事件是微软投资了 OpenAI,并迅速其借助先进的人工智能技术成为了生成式 AI 时代的先行者。

 

微软与 OpenAI 的合作始于 2017 年,当初这家备受瞩目的初创公司在云计算上花费了大约 790 万美元——占其职能支出的四分之一,这让两者有了初步的接触。

 

到 2019 年,微软已经成为 AI 实验室的“独家”云计算提供商。在向这家初创公司新投资 10 亿美元后,微软成为 OpenAI 商业化的首选合作伙伴。

 

微软很快将 OpenAI 大语言模型 (LLM) 集成到 Azure 云服务中。客户使用该软件实现各种应用程序功能,从聊天机器人和内容生成到翻译和个性化营销。

 

该服务增长迅速。今年第二季度,微软报告称,Azure OpenAI 的用户数量较前 12 个月增长了 50%。纳德拉表示,目前已有超过 53,000 名客户使用该服务,其中包括“一半以上”的财富 500 强企业。可以说,OpenAI 在微软的商业帝国复兴中发挥了关键作用。

 

但借助 OpenAI 这一外力重新崛起的老牌巨头想要依靠自身实力继续保持领先,并且能在激烈的竞争中始终处于有利位置,却是件很难的事情。

 

参考链接:

https://blog.stackademic.com/beyond-gpt-4-exploring-microsofts-wizardlm-2-2863e432f291

https://favtutor.com/articles/wizardlm-2-benchmarks/

https://www.teiss.co.uk/news/microsoft-pulls-wizardlm-2-ai-model-due-to-missed-toxicity-testing-13873

2024-04-22 17:385058
用户头像
李冬梅 加V:busulishang4668

发布了 1185 篇内容, 共 806.9 次阅读, 收获喜欢 1302 次。

关注

评论

发布
暂无评论
发现更多内容

问题排查 | 客户端突如其来的“白屏”等待

蚂蚁集团移动开发平台 mPaaS

html5 移动开发 mPaaS 离线包

Spark常见的故障排除

五分钟学大数据

大数据 spark 28天写作 3月日更

最全面试考点与面试技巧,面试必问

欢喜学安卓

android 程序员 面试 移动开发

【活动回顾】5G时代的直播,将带来哪些低延迟体验

ZEGO即构

python 爬虫之selenium可视化爬虫

诡途

Python 爬虫 selenium

入选Gartner全球AI报告,阿里云解读AI工程化的三大基础能力

阿里云大数据AI技术

机器学习 AI Gartner

数据分析实战项目-蛋壳公寓投诉分析

诡途

Python 数据分析 蛋壳公寓

在这里,每一行代码都需要被认真对待

DT极客

C 语言性能优化:循环展开

1

编程 程序员 性能优化 C语言 循环展开

Flink架构体系

大数据技术指南

大数据 flink 28天写作 3月日更

Fluid 0.5 版本发布:开启数据集缓存在线弹性扩缩容之路

阿里巴巴云原生

容器 云原生 k8s 分布式数据库 调度

启动延时缩短 50%-80%,函数计算发布镜像加速功能

阿里巴巴云原生

Docker 容器 开发者 云原生 存储

一套亿级用户的IM架构技术干货(下篇):可靠性、有序性、弱网优化等

JackJiang

智能家居操作系统谁最强?海尔智家独有“智家大脑”行业最领先

DT极客

最全模型效果评估报告上线,百度EasyDL助力模型效果快速优化

百度大脑

飞桨 EasyDL

致远互联低代码平台让项目管理“秒变”数字化

爱极客侠

一气之下开发了个群聊机器人

诡途

Python 办公自动化 群聊机器人

【遇见Doris】基于Apache Doris的小米增长分析平台实践

ApacheDoris

安卓最全面试考点与面试技巧,大厂直通车!

欢喜学安卓

android 程序员 面试 移动开发

【疑难杂症】关于Github私有库问题

Sher10ck

GitHub pycharm

实时 摔倒识别 /运动分析/打架等异常行为识别/控制手势识别等所有行为识别全家桶 原理 + 代码 + 数据+ 模型 开源!

cv君

AI 目标检测 视频理解 引航计划

2021年ONNX开发者大会即将召开

百度大脑

百度飞桨 ONNX

手把手教学基于深度学习的遥感影像倾斜框算法训练与分析

cv君

人工智能 深度学习 AI 智能 视觉

如何优化管理,打造高效的技术团队?

有只小耳朵

团队管理 技术管理 数字化转型

加入即可服务1.83亿个家!海尔智家让开发者面向亿万家庭

DT极客

寻找被遗忘的勇气(二十二)

Changing Lin

3月日更

飞桨刷新分子性质预测榜单,助力AI药物研发

百度大脑

AI 药物研发 百度飞桨

【实战问题】-- 缓存穿透,缓存击穿和缓存雪崩的区别以及解决方案

秦怀杂货店

Java redis 缓存 架构 分布式

数据产品经理实战-由BI到业务洞察

第519区

大数据 数据产品 数据分析体系

飞桨中国行首站重庆 解读产业 智造

百度大脑

百度 飞桨 中关村智酷

首席AI架构师进阶之旅开启!第4期60位AICA学员硬核开学

百度大脑

AI 百度飞桨

微软秒删堪比GPT-4的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试_生成式 AI_李冬梅_InfoQ精选文章