2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

截胡 DeepSeek 开源周?Kimi 深夜首发开源模型,杨植麟参与,同计算量下好过 DeepSeek?

  • 2025-02-24
    北京
  • 本文字数:911 字

    阅读完需:约 3 分钟

大小:293.46K时长:01:40
截胡DeepSeek开源周?Kimi深夜首发开源模型,杨植麟参与,同计算量下好过DeepSeek?

2 月 23 日凌晨,月之暗面发布最新论文《Muon is Scalable for LLM Training》,并开源了 MoE 模型 Moonlight( MIT 许可证),模型激活参数仅需 3B。


 

论文显示,月之暗面通过深度改造 Muon 优化器并将其运用于实际训练,证明了 Muon 在更大规模训练中的有效性,是 AdamW 训练效率的 2 倍且模型性能想相当。Moonlight 3B/16B MoE 模型使用 Muon 在 5.7T token 上进行训练,“以更少的 FLOP 和更好的性能推进帕累托前沿。”



月之暗面此次贡献主要在于:

 

  • Muon 有效扩展分析:月之暗面发现权重衰减在 Muon 的可扩展性中起着至关重要的作用。此外,团队提出通过参数级别更新尺度调整,保持不同矩阵和非矩阵参数之间的一致更新均方根(RMS)。这种调整显著提高了训练稳定性。

  • 高效分布式实现:团队开发了一个基于 ZeRO-1 优化的 Muon 分布式版本,实现了最佳内存效率并降低了通信开销,同时保持算法的数学特性。

  • Scaling Law 验证:月之暗面进行了 Scaling Law 研究,比较了 Muon 与 AdamW 的性能,结果显示 Muon 具有更优的表现。根据 Scaling Law 结果,Muon 在性能上与 AdamW 训练的对比模型相当,但训练所需的 FLOP 仅约为 AdamW 的 52%。

 


对于月之暗面深夜发布开源模型的行为,有网友认为是在截胡 DeepSeek。2 月 21 日午间,DeepSeek 团队在 X 官方账号发布消息,下周将陆续完全开源 5 个代码库,为“开源周”(OpenSourceWeek)预热,以完全透明的方式分享研究进展。

 

根据媒体消息,QuestMobile 最新数据显示,DeepSeek App 以“零营销”姿态创造增长神话:上线至 2 月 9 日,累计下载量突破 1.1 亿次,周活跃用户最高触及 9700 万。这一成绩正在重塑行业竞争规则。

 

反观传统玩家的“重营销”策略遭遇寒冬。Kimi 过去一年投入近 9 亿元营销费用,每月营销预算高达 2 亿元,在小红书等平台大手笔投放,一度让 B 站"沦陷"。然而即便投入如此巨资,其日活规模仍未破千万,与 DeepSeek 短短数十天靠自然流量达到 3500 万日活形成鲜明对比。此外,豆包的投放规模据称是 Kimi 的数倍,Minimax 的 Talkie 在海外投入数千万美金,星野在国内市场也投入上亿元。


代码和实现:https://github.com/MoonshotAI/Moonlight

完整模型系列:https://huggingface.co/moonshotai

论文:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

 

2025-02-24 10:197223

评论

发布
暂无评论

《仿盒马》app开发技术分享-- 个人中心页面(19)

鸿蒙小林

《仿盒马》app开发技术分享-- 个人中心页or静态头像选择(业务逻辑)(22)

鸿蒙小林

《仿盒马》app开发技术分享-- 地址管理页(24)

鸿蒙小林

《仿盒马》app开发技术分享-- 确认订单页(业务逻辑)(30)

鸿蒙小林

Windows下版本控制器(SVN)-验证是否安装成功+配置版本库+启动服务器端程序

刘大猫

人工智能 svn 大模型 tortoiseSVN 版本控制器

Paperless-ngx 文档管理系统

qife122

开源 文档管理

Solana“网络扩展(Network Extensions)”成最被误解的基础设施创新之一

PowerVerse

《仿盒马》app开发技术分享-- 确认订单页(数据展示)(29)

鸿蒙小林

《仿盒马》app开发技术分享-- 订单地址修改(31)

鸿蒙小林

为什么中国企业AI难以落地?——一场分享会后的深度反思

蜉蝣

人工智能 AI 大模型 LLL AI困境

MIAOYUN | 每周AI新鲜事儿(06.20-06.27)

MIAOYUN

人工智能 AI AI 智能体

经济型数字广告屏

Dylan

LED显示屏 全彩LED显示屏 户外LED显示屏 led显示屏厂家 户内led显示屏

《仿盒马》app开发技术分享-- 分类右侧商品列表(18)

鸿蒙小林

《仿盒马》app开发技术分享-- 用户登录页(业务逻辑)(21)

鸿蒙小林

《仿盒马》app开发技术分享-- 定位获取(25)

鸿蒙小林

根技术生态,为何需要云上繁荣?

脑极体

AI

LMCache - Redis for LLMs 无限高速KV缓存系统

qife122

LLM KV缓存

【INFINI Workshop 第三期 - 上海站】Coco AI - 赋能企业搜索,打造专属智能助手

极限实验室

人工智能 智能助手 Workshop CocoAI

《仿盒马》app开发技术分享-- 个人信息页(23)

鸿蒙小林

《仿盒马》app开发技术分享-- 原生地图展示(26)

鸿蒙小林

《仿盒马》app开发技术分享-- 新增地址(28)

鸿蒙小林

EarlGrey - iOS UI自动化测试框架

qife122

ios UI测试

大麦基于HarmonyOS星盾安全架构,打造全链路安全抢票方案

HarmonyOS SDK

harmoyos

DApp开发库选择指南

北京木奇移动技术有限公司

区块链技术 dapp开发 软件外包公司

《仿盒马》app开发技术分享-- 地图选点(27)

鸿蒙小林

🚀 从“手撸”到“秒出结果”:我与飞算JavaAI插件的一次深度邂逅

默语

大数据-27 ZooKeeper zoo.cfg多节点分布式配置

武子康

Java 大数据 hadoop zookeeper 分布式

《仿盒马》app开发技术分享-- 用户登陆页面(静态)(20)

鸿蒙小林

智慧疾控物资管理系统(源码+文档+讲解+演示)

深圳亥时科技

实战|StarRocks 通过 JDBC Catalog 访问 MongoDB 的数据

StarRocks

数据库 mongodb 数据湖 StarRocks JDBC Catalog

Web3 钱包开发的流程

北京木奇移动技术有限公司

dapp开发 区块链开发 软件外包公司

截胡DeepSeek开源周?Kimi深夜首发开源模型,杨植麟参与,同计算量下好过DeepSeek?_AI&大模型_褚杏娟_InfoQ精选文章