写点什么

截胡 DeepSeek 开源周?Kimi 深夜首发开源模型,杨植麟参与,同计算量下好过 DeepSeek?

  • 2025-02-24
    北京
  • 本文字数:911 字

    阅读完需:约 3 分钟

大小:293.46K时长:01:40
截胡DeepSeek开源周?Kimi深夜首发开源模型,杨植麟参与,同计算量下好过DeepSeek?

2 月 23 日凌晨,月之暗面发布最新论文《Muon is Scalable for LLM Training》,并开源了 MoE 模型 Moonlight( MIT 许可证),模型激活参数仅需 3B。


 

论文显示,月之暗面通过深度改造 Muon 优化器并将其运用于实际训练,证明了 Muon 在更大规模训练中的有效性,是 AdamW 训练效率的 2 倍且模型性能想相当。Moonlight 3B/16B MoE 模型使用 Muon 在 5.7T token 上进行训练,“以更少的 FLOP 和更好的性能推进帕累托前沿。”



月之暗面此次贡献主要在于:

 

  • Muon 有效扩展分析:月之暗面发现权重衰减在 Muon 的可扩展性中起着至关重要的作用。此外,团队提出通过参数级别更新尺度调整,保持不同矩阵和非矩阵参数之间的一致更新均方根(RMS)。这种调整显著提高了训练稳定性。

  • 高效分布式实现:团队开发了一个基于 ZeRO-1 优化的 Muon 分布式版本,实现了最佳内存效率并降低了通信开销,同时保持算法的数学特性。

  • Scaling Law 验证:月之暗面进行了 Scaling Law 研究,比较了 Muon 与 AdamW 的性能,结果显示 Muon 具有更优的表现。根据 Scaling Law 结果,Muon 在性能上与 AdamW 训练的对比模型相当,但训练所需的 FLOP 仅约为 AdamW 的 52%。

 


对于月之暗面深夜发布开源模型的行为,有网友认为是在截胡 DeepSeek。2 月 21 日午间,DeepSeek 团队在 X 官方账号发布消息,下周将陆续完全开源 5 个代码库,为“开源周”(OpenSourceWeek)预热,以完全透明的方式分享研究进展。

 

根据媒体消息,QuestMobile 最新数据显示,DeepSeek App 以“零营销”姿态创造增长神话:上线至 2 月 9 日,累计下载量突破 1.1 亿次,周活跃用户最高触及 9700 万。这一成绩正在重塑行业竞争规则。

 

反观传统玩家的“重营销”策略遭遇寒冬。Kimi 过去一年投入近 9 亿元营销费用,每月营销预算高达 2 亿元,在小红书等平台大手笔投放,一度让 B 站"沦陷"。然而即便投入如此巨资,其日活规模仍未破千万,与 DeepSeek 短短数十天靠自然流量达到 3500 万日活形成鲜明对比。此外,豆包的投放规模据称是 Kimi 的数倍,Minimax 的 Talkie 在海外投入数千万美金,星野在国内市场也投入上亿元。


代码和实现:https://github.com/MoonshotAI/Moonlight

完整模型系列:https://huggingface.co/moonshotai

论文:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

 

2025-02-24 10:197291

评论

发布
暂无评论

作业调度问题-遗传算法

alexgaoyh

Java 遗传算法 作业调度 生产调度 多作业多任务

AIGC、AGI、ChatGPT:揭秘人工智能大模型的变革与创新

百度开发者中心

人工智能 大模型 ChatGPT

一种轻量分表方案-MyBatis拦截器分表实践|京东零售技术实践

京东零售技术

Java 后端 mybatis

简易异步任务中心&批量导入技术处理方案

京东科技开发者

Picturesocial | 只要 5 分钟,发现容器编排的秘密武器!

亚马逊云科技 (Amazon Web Services)

API

面试官:SpringCloudGateway过滤器类型有哪些?

王磊

Java 面试

AI大底座:大模型时代的深度解析与实践

百度开发者中心

自然语言处理 语音识别 大模型 AI 大底座

室内LED显示屏能否改为户外使用?

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家 户内led显示屏

数据治理包括哪些内容

悦数图数据库

详解如何在数仓中搭建细粒度容灾应用

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 华为云GaussDB(DWS)

AI 原生时代的云计算

百度Geek说

人工智能 云计算

Nuxt 3.10 正式发布,来看看有功能变化!

伤感汤姆布利柏

Wireshark中的ICMP协议包分析

小齐写代码

IPQ9574: The core strength of WiFi 7 technology, leading the future of wireless communications

wallysSK

通过ETLCloud CDC构建高效数据管道解决方案

谷云科技RestCloud

数据同步 ETL CDC 数据集成工具

新格局,新生态!天翼云以国云智算底座赋能AI产业发展!

天翼云开发者社区

小程序 云计算

Reducer 和 Context实现简单的Redux

伤感汤姆布利柏

拥抱 AI,支付宝小程序云助力全网小程序生态变革

TRaaS

支付宝小程序 人工智能 云开发 弹性云托管 小程序云

大模型训练、多模态数据处理与融合:从理论到实践

百度开发者中心

人工智能 大模型

Kurator V0.6.0:实现应用全流程生命周期管理

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟 Kurator

数字先锋|智慧“育”见未来!天翼云携手知学云为人才培育注入新活力

天翼云开发者社区

人工智能 教育

定制开发:软件公司塑造独特解决方案

天津汇柏科技有限公司

定制软件开发 软件定制开发 软件开发定制

文心一言 VS 讯飞星火 VS chatgpt (191)-- 算法导论14.2 1题

福大大架构师每日一题

福大大架构师每日一题

实力强劲!天翼云斩获多项权威大奖与认证!

天翼云开发者社区

云计算 算力

当我谈查询优化器时,我谈些什么 (1)—— IR 设计

Databend

截胡DeepSeek开源周?Kimi深夜首发开源模型,杨植麟参与,同计算量下好过DeepSeek?_AI&大模型_褚杏娟_InfoQ精选文章