硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

截胡 DeepSeek 开源周?Kimi 深夜首发开源模型,杨植麟参与,同计算量下好过 DeepSeek?

  • 2025-02-24
    北京
  • 本文字数:911 字

    阅读完需:约 3 分钟

大小:293.46K时长:01:40
截胡DeepSeek开源周?Kimi深夜首发开源模型,杨植麟参与,同计算量下好过DeepSeek?

2 月 23 日凌晨,月之暗面发布最新论文《Muon is Scalable for LLM Training》,并开源了 MoE 模型 Moonlight( MIT 许可证),模型激活参数仅需 3B。


 

论文显示,月之暗面通过深度改造 Muon 优化器并将其运用于实际训练,证明了 Muon 在更大规模训练中的有效性,是 AdamW 训练效率的 2 倍且模型性能想相当。Moonlight 3B/16B MoE 模型使用 Muon 在 5.7T token 上进行训练,“以更少的 FLOP 和更好的性能推进帕累托前沿。”



月之暗面此次贡献主要在于:

 

  • Muon 有效扩展分析:月之暗面发现权重衰减在 Muon 的可扩展性中起着至关重要的作用。此外,团队提出通过参数级别更新尺度调整,保持不同矩阵和非矩阵参数之间的一致更新均方根(RMS)。这种调整显著提高了训练稳定性。

  • 高效分布式实现:团队开发了一个基于 ZeRO-1 优化的 Muon 分布式版本,实现了最佳内存效率并降低了通信开销,同时保持算法的数学特性。

  • Scaling Law 验证:月之暗面进行了 Scaling Law 研究,比较了 Muon 与 AdamW 的性能,结果显示 Muon 具有更优的表现。根据 Scaling Law 结果,Muon 在性能上与 AdamW 训练的对比模型相当,但训练所需的 FLOP 仅约为 AdamW 的 52%。

 


对于月之暗面深夜发布开源模型的行为,有网友认为是在截胡 DeepSeek。2 月 21 日午间,DeepSeek 团队在 X 官方账号发布消息,下周将陆续完全开源 5 个代码库,为“开源周”(OpenSourceWeek)预热,以完全透明的方式分享研究进展。

 

根据媒体消息,QuestMobile 最新数据显示,DeepSeek App 以“零营销”姿态创造增长神话:上线至 2 月 9 日,累计下载量突破 1.1 亿次,周活跃用户最高触及 9700 万。这一成绩正在重塑行业竞争规则。

 

反观传统玩家的“重营销”策略遭遇寒冬。Kimi 过去一年投入近 9 亿元营销费用,每月营销预算高达 2 亿元,在小红书等平台大手笔投放,一度让 B 站"沦陷"。然而即便投入如此巨资,其日活规模仍未破千万,与 DeepSeek 短短数十天靠自然流量达到 3500 万日活形成鲜明对比。此外,豆包的投放规模据称是 Kimi 的数倍,Minimax 的 Talkie 在海外投入数千万美金,星野在国内市场也投入上亿元。


代码和实现:https://github.com/MoonshotAI/Moonlight

完整模型系列:https://huggingface.co/moonshotai

论文:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

 

2025-02-24 10:197096

评论

发布
暂无评论

盘点华为云GaussDB(for Redis)六大秒级能力

华为云开发者联盟

数据库 后端 华为云

NLP 论文领读|文本生成模型退化怎么办?SimCTG 告诉你答案

澜舟孟子开源社区

人工智能 自然语言处理 机器学习 nlp 文本生成

电商秒杀系统

Dean.Zhang

程序员女友给我做了一个疲劳驾驶检测

华为云开发者联盟

人工智能 疲劳驾驶检测

设计电商秒杀系统

流火

全文手敲代码,教你用Java实现扫雷小游戏

华为云开发者联盟

Java

远程办公期间,项目小组微信群打卡 | 社区征文

IT蜗壳-Tango

6月月更 初夏征文

HashMap分析-扩容

zarmnosaj

6月月更

为什么越来越多的人选择云渲染?

Finovy Cloud

服务器 渲染 云渲染

ElasticSearch从入门到精通:基础知识

Jackpop

居家办公没有“血泪史”| 社区征文

穿过生命散发芬芳

居家办公 6月月更 初夏征文

学习总结

ASCE

元宇宙可能成为互联网发展的新方向

CECBC

“信任机器”为发展赋能

CECBC

Windbg调试工具介绍

dvlinker

c++ windbg 调试工具

Rust 如何实现依赖注入?

非凸科技

依赖注入 Trait 对象 编程语言‘ public

为什么一定要从DevOps走向BizDevOps?

阿里云云效

阿里云 DevOps 研发 BizDevOps

ElasticSearch从入门到精通:数据导入

Jackpop

ElasticSearch从入门到精通:Logstash妙用

Jackpop

毕业设计

ASCE

数字货币:影响深远的创新

CECBC

开源实习经验分享:openEuler软件包加固测试

openEuler

开源 操作系统 部署 openEuler 实习

一次革命、两股力量、三大环节:《工业能效提升行动计划》背后的“减碳”路线图

脑极体

攻防演练中的防泄露全家福

穿过生命散发芬芳

6月月更 防泄露

如何使用物联网低代码平台进行服务管理?

AIRIOT

低代码 物联网 低代码开发平台 低代码,项目开发

ElasticSearch从入门到精通:常用操作

Jackpop

联想YOGA 27 2022,超强配置全面升级

极客天地

做一个 Scrollbar 的思考

cssghost

全技术栈、全场景、全角色云原生系列培训重磅首发,助力企业打造硬核云原生技术团队

York

容器 云原生 IT建设 技术培训 开发运维

实践GoF的23种设计模式:装饰者模式

华为云开发者联盟

开发 对象 装饰者模式

激发新动能 多地发力数字经济

CECBC

截胡DeepSeek开源周?Kimi深夜首发开源模型,杨植麟参与,同计算量下好过DeepSeek?_AI&大模型_褚杏娟_InfoQ精选文章