Kimi的K2开源语言模型支持动态资源可用性和新的优化器_AI&大模型



 写点什么



大小：915.09K时长：05:12

Kimi发布了 K2，这是一个混合专家型大语言模型，拥有 320 亿个激活参数和 1.04 万亿个总参数，基于 15.5 万亿个 token 训练。这次发布引入了 MuonClip，这是一种新的优化器，它在 Muon 优化器的基础上增加了 QK-clip 技术，旨在解决训练不稳定性问题，团队报告称在预训练期间实现了“零损失峰值”。该模型有两种变体：基础版本和 K2 Thinking，后者在测试推理、编码和代理能力的基准测试中声称达到了最先进的结果，包括在 Humanity's Last Exam（HLE）中使用工具时获得 44.9%，在 BrowseComp 中的 60.2%，以及在 SWE-Bench Verified 中的 71.3%。这次发布意味着 K2 成为开源模型领域的有力竞争者，特别是在软件工程和代理任务中，其中模型展示了强大的泛化能力。

团队通过一系列扩展实验验证了 MuonClip。他们首先使用标准 Muon 优化器训练了一个中等规模的模型，该模型拥有 90 亿个激活参数和 530 亿个总参数。然后研究人员测试了 QK-Clip 是否影响模型性能，发现 MuonClip 保持了 Muon 的优化特性，而没有对损失轨迹产生负面影响。对于全规模的 Kimi K2 模型，团队应用了τ值为 100 的 MuonClip，并在训练过程中跟踪了最大注意力逻辑值。最大逻辑值在训练过程中逐渐降低到正常操作范围，无需手动调整，团队将此作为优化器稳定性改进的证据。

来源：Kimi K2 基准测试结果

Kimi 在 NVIDIA H800 GPU 集群上训练了 K2，每个节点包含 2TB 的 RAM 和通过 NVLink 和 NVSwitch 连接的 8 个 GPU。集群使用 8×400 Gbps RoCE 互连进行节点间通信。团队设计了一种灵活的并行策略，允许在任何 32 的倍数节点上进行训练，解决了他们在大型语言模型训练期间所描述的动态资源可用性问题。

为了管理内存使用，团队对特定操作应用了选择性重计算，包括 LayerNorm、SwiGLU 和多头潜在注意力（MLA）上投影，选择了他们认为是成本低廉但占用空间大的阶段。训练过程还重新计算了 MoE 下投影，以进一步减少激活内存需求。

该模型可以执行 200 到 300 个由长期规划和自适应推理驱动的顺序工具调用。K2 Thinking 执行的周期遵循思考→搜索→浏览器使用→思考→编码的模式，生成和完善假设，同时验证证据和构建答案。这种方法允许模型将模糊、开放式问题分解为可操作的子任务。

对于部署，团队解决了思考模型特有的推理效率挑战。虽然低比特量化降低了推理延迟和 GPU 内存使用，但思考模型生成的长输出序列通常在量化时会导致性能下降。Kimi 在后训练阶段应用了量化感知训练（QAT），在 MoE 组件上使用 INT4 仅权重量化。这种实现使 K2 Thinking 能够以大约 2 倍的生成速度提升运行原生 INT4 推理。

Kimi K2许可证包括了一个商业使用要求。使用模型或其衍生产品用于商业产品或服务的组织，如果超过 1 亿月活跃用户或每月收入超过 2000 万美元，必须在这些产品或服务的用户界面上显著标明“Kimi K2”。这种归属要求将 K2 的许可证与通常不强制要求高规模商业部署的用户明确标注的标准开源许可证区分开来。

Awni Hannun 在 Apple Silicon 上测试了 K2 Thinking，报告的性能结果展示了模型在数据中心基础设施之外的可访问性。Hannun 表示：

新的 1 万亿参数 Kimi K2 Thinking 模型在 2 个 M3 Ultra 上以其原生格式运行良好 - 没有质量损失！该模型在 int4 上进行了量化感知训练（qat）。在这里，它使用 mlx-lm 中的流水线并行处理生成了大约 3500 个 token，速度为每秒 15 个 token。

提供 AI 模型独立分析的 Artificial Analysis 表示：

Kimi K2 Thinking 是新的领先开放权重模型：它在 Agent 环境中表现出特别的强度，但非常啰嗦，生成的 token 数量是完成我们的智能指数评估的模型中最多的。

Hacker News 上的一位评论者指出：

模型之间的终极竞争最终将成为能源竞争。中国的开源模型在能源消耗方面具有主要优势，中国本身在能源资源方面也具有巨大优势。它们可能不一定能超越美国，但它们可能也不会落后太多。

Kimi K2 进入了一个竞争激烈的开源模型领域，其中包括 DeepSeek-R1——它也专注于扩展推理，阿里巴巴的 Qwen 模型（包括用于推理任务的QwQ），Mistral 的 Mixtral MoE 系列，以及 Meta 的 Llama 3 家族。

K2 Thinking 变体可以在 kimi.com 上找到，并通过 Moonshot API 平台提供。团队已在 Hugging Face 上发布了模型权重，那里可以访问技术细节和实现指导。Moonshot平台上提供了完整的 API 文档，为希望将 K2 集成到他们应用中的开发人员提供了集成规范。

原文链接：Kimi's K2 Opensource Language Model Supports Dynamic Resource Availability and New Optimizer

发布

暂无评论

创作场景

Kimi 的 K2 开源语言模型支持动态资源可用性和新的优化器

评论

探究 PHP_CodeSniffer 的代码静态分析原理

BUG 修复预估模型

小长假要到了，来偶遇吗？

JDK RMI探索与使用--序列化

Mongodb的分页优化及索引使用

Jenkins实践——创建Pipeline的两种方式

前端代码优化小技巧

天了噜，原来有效的复盘要这样做，微妙！

史上最全的Java容器集合之基础数据结构（手撕链表)

史上最全的Java容器集合之ArrayList(源码解读)

Baklib知识分享|知识库对企业来说有哪些意义？

APISIX的安装和简单使用

8年经验面试官详解 Java 面试秘诀

行业方案｜“医疗”行业智能运维解决方案介绍

栓Q了，大厂被强制毕业，空窗一个月死背八股文，还好拿到了Offer

【Java面试宝典】带你拿offer

通过Inotify-tools 监听文件夹并同步文件至FTP服务器

重铸资源合集之荣光，吾辈义不容辞！！

Android R给自家UA工具挖坑

图像匹配几种常见算法与实践

羊了个羊NFT系统链游开发技术

ITSM | Atlassian ITSM终极指南，重构IT、运营和支持的工作方式

知识管理在企业业务中如何体现其价值

GOPS现场 | 大规模团队如何实现Jenkins的集中管理——对话龙智技术顾问

Baklib每日分享|在线产品手册的制作技巧

利用 zabbix 监控服务端口

GitHub无抗手！MySQL DBA攻坚指南一出，阿里数据库专家都解脱了

技术分享 | web自动化测试-文件上传与弹框处理

leetcode 208. Implement Trie (Prefix Tree) 实现 Trie (前缀树) (中等)

GOPS现场 | 芯片行业需要怎样的版本管理工具——对话龙智大规模安全研发技术专家

图像匹配几种常见算法与实践

创作场景

Kimi 的 K2 开源语言模型支持动态资源可用性和新的优化器

评论

推荐阅读

电子书

大厂实战PPT下载