2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

截胡 DeepSeek 开源周?Kimi 深夜首发开源模型,杨植麟参与,同计算量下好过 DeepSeek?

  • 2025-02-24
    北京
  • 本文字数:911 字

    阅读完需:约 3 分钟

大小:293.46K时长:01:40
截胡DeepSeek开源周?Kimi深夜首发开源模型,杨植麟参与,同计算量下好过DeepSeek?

2 月 23 日凌晨,月之暗面发布最新论文《Muon is Scalable for LLM Training》,并开源了 MoE 模型 Moonlight( MIT 许可证),模型激活参数仅需 3B。


 

论文显示,月之暗面通过深度改造 Muon 优化器并将其运用于实际训练,证明了 Muon 在更大规模训练中的有效性,是 AdamW 训练效率的 2 倍且模型性能想相当。Moonlight 3B/16B MoE 模型使用 Muon 在 5.7T token 上进行训练,“以更少的 FLOP 和更好的性能推进帕累托前沿。”



月之暗面此次贡献主要在于:

 

  • Muon 有效扩展分析:月之暗面发现权重衰减在 Muon 的可扩展性中起着至关重要的作用。此外,团队提出通过参数级别更新尺度调整,保持不同矩阵和非矩阵参数之间的一致更新均方根(RMS)。这种调整显著提高了训练稳定性。

  • 高效分布式实现:团队开发了一个基于 ZeRO-1 优化的 Muon 分布式版本,实现了最佳内存效率并降低了通信开销,同时保持算法的数学特性。

  • Scaling Law 验证:月之暗面进行了 Scaling Law 研究,比较了 Muon 与 AdamW 的性能,结果显示 Muon 具有更优的表现。根据 Scaling Law 结果,Muon 在性能上与 AdamW 训练的对比模型相当,但训练所需的 FLOP 仅约为 AdamW 的 52%。

 


对于月之暗面深夜发布开源模型的行为,有网友认为是在截胡 DeepSeek。2 月 21 日午间,DeepSeek 团队在 X 官方账号发布消息,下周将陆续完全开源 5 个代码库,为“开源周”(OpenSourceWeek)预热,以完全透明的方式分享研究进展。

 

根据媒体消息,QuestMobile 最新数据显示,DeepSeek App 以“零营销”姿态创造增长神话:上线至 2 月 9 日,累计下载量突破 1.1 亿次,周活跃用户最高触及 9700 万。这一成绩正在重塑行业竞争规则。

 

反观传统玩家的“重营销”策略遭遇寒冬。Kimi 过去一年投入近 9 亿元营销费用,每月营销预算高达 2 亿元,在小红书等平台大手笔投放,一度让 B 站"沦陷"。然而即便投入如此巨资,其日活规模仍未破千万,与 DeepSeek 短短数十天靠自然流量达到 3500 万日活形成鲜明对比。此外,豆包的投放规模据称是 Kimi 的数倍,Minimax 的 Talkie 在海外投入数千万美金,星野在国内市场也投入上亿元。


代码和实现:https://github.com/MoonshotAI/Moonlight

完整模型系列:https://huggingface.co/moonshotai

论文:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

 

2025-02-24 10:197320

评论

发布
暂无评论

架构第二周课后练习

Geek_Gu

极客大学架构师训练营

第二周作业

架构师训练营第一期第2周作业及总结

木头发芽

第二周学习总结

alpha

极客大学架构师训练营

week02 题目

xxx

架构师训练营Week02作业

IT老兵重开始

极客大学架构师训练营

SpringBoot系列(2)-第一个SpringBoot程序

引花眠

springboot

medo 支付系统架构设计

陈皮

第二周课后练习-作业1

致星海

【FastDFS】面试官:如何实现文件的大规模分布式存储?(全程实战)

冰河

高并发 高性能 分布式存储 fastdfs 海量存储

面向对象编程与软件设计原则

zero2onemore

训练营-第二周-作业一

行者

架构一期二班 - 吴水金 - 第二课总结

吴水金

架构师训练营第一期 - 第二周学习总结

卖猪肉的大叔

第二周作业

kevin

训练营-第二周-作业二

行者

第二周总结

_

极客大学架构师训练营 第二周总结

问题集锦:DBType not support : null

互联网应用架构

mybaitsplus

逆序局部链表、Paxos算法原理、架构师发现问题所在 John 易筋 ARTS 打卡 Week 19

John(易筋)

ARTS 打卡计划 发现问题的真正所在 逆序局部链表

架构师训练营1期3班-袭望-第二周

袭望

week02总结

xxx

Spring 5 中文解析数据存储篇-JDBC数据存储(中)

青年IT男

Spring5

一篇搞定前端高频手撕算法题(36道)

执鸢者

面试 算法 大前端

艺术家们手握“飞桨” 划出金秋UCCA最值得一看的AI艺术展

脑极体

第二周 框架设计 学习总结

应鹏

学习 极客大学架构师训练营

架构师训练营第 1 期 -Week2 - 框架设计学习总结

鲁大江

极客大学架构师训练营 面向对象设计原则 框架设计

Week_02

golangboy

架构训练营第二周学习总结

灰羽零

作业二:第二周学习总结

静海

第二周课后练习 - 作业 2

致星海

第二周总结

截胡DeepSeek开源周?Kimi深夜首发开源模型,杨植麟参与,同计算量下好过DeepSeek?_AI&大模型_褚杏娟_InfoQ精选文章