《HarmonyOS:领航者说》技术公开课来啦,大咖分享、实战解码,不容错过 了解详情
写点什么

Kimi K2 发布两天即“封神”?80% 成本优势追平 Claude 4、打趴“全球最强 AI”,架构与 DeepSeek 相似!

  • 2025-07-14
    北京
  • 本文字数:2822 字

    阅读完需:约 9 分钟

大小:1.30M时长:07:33
Kimi K2发布两天即“封神”?80%成本优势追平Claude 4、打趴“全球最强AI”,架构与DeepSeek相似!

整理 | 华卫


近日,国内大模型独角兽月之暗面发布并开源的最新一代 MoE 架构基础模型 Kimi K2,不断在海外掀起热议。有最新数据显示,推出不到两天,该模型在大模型 API 聚合平台 OpenRouter 的 token 使用量就超越了马斯克创立的 xAI。前不久,xAI 刚发布号称“全球最强 AI”的 Grok 4。



据官方介绍,作为月之暗面首款开源发布的旗舰模型,Kimi K2 的总参数量达到 1 万亿(1T),激活参数为 32B,现已在 Kimi Web 端和 App 端中上线。有网友感叹道,“万亿参数级模型已开始能在非英伟达硬件上流畅运行……如果中国实验室能通过巧妙的路由策略,在更少的芯片上实现更强的智能,那么英伟达对 AI 硬件体系的垄断地位就会开始动摇。这是典型的 '压力下的创新’:拿不到高端芯片?没关系,我们重新设计一切,让自研硬件能发挥出更优性能。”


在代码、Agent、工具调用这三方面的相关基准测试中,该模型均取得开源模型中的 SOTA 成绩。除了基准性能测试,Kimi K2 在多个实际场景中也展现出更强的能力泛化和实用性,包括在前端开发任务中生成兼具设计感与视觉表现力的代码、自动将需求拆解为一系列格式规范和可直接执行的 ToolCall 结构和准确控制各种输出风格来改写文本等。



这几天,陆续有开发者分享测试与体验 Kimi K2 的使用感受以及与其他国内外知名大模型的能力对比情况。值得一提的是,Kimi K2 在开发者群体中的各种实测不仅没掉“链子”,而且表现似乎比官方给的预期更令人惊喜。在提到 Kimi K2 的帖子中,充斥着“不输 Claude 4 但便宜 80%!、唯一超越 R1 的存在…”等此类评价。


与 Claude Code 能力相当,但便宜了 80%


首先,不少用户踊跃测试了 Kimi K2 的真实编码能力,采取的方式为:直接将该模型连接到了 Claude Code。可以这样操作的原因是,Kimi K2 的 API 服务具备强通用性,能够兼容 OpenAI 和 Anthropic 两种 API 格式,也可以与各类框架良好兼容。


一位开发者在对比了模型性能情况与 token 价格后,得出的结果是:K2 的编码能力卓越,基本与 Claude 4 相当,但只需花费 Claude 4 的 20% 成本,唯一缺点是 API 有点慢。



多年 AI 行业从业者刘小排在使用「K2 版 Claude Code」后的感受则是:“Kimi K2 驱动下的 Claude Code,编程能力和原版 Claude Code 差别不大,能平替 85%。 如果用 DeepSeek 驱动,我认为只能平替 60%。”



有网友这样评价,“Claude Code 可以用 Kimi K2 的模型,这件事就很有意思。它证明了 Claude 这套 Agent 架构,基本可以适用于任何模型,理论上也支持 Gemini、Grok、o3。选择永远都在用户手里,而不在大模型公司的手里。”


此外,对于 Python 数据分析任务,Kimi K2 也能一次性搞定,还可以生成一个网站。“成本仅需几分钱”,测试用户表示。



还有用户分享了用 Kimi K2 几乎写完一整个前端组件库的案例,且过程完全由该模型自主实现,没有引用任何外部组件库。“只用非常简单的提示词,但是出来的效果超级好!”



其次,针对月之暗面强调的 Agent 工具调用能力,同样有不少用户进行了对比测试。


前 Anthropic AI 工程师、MagicPath 创始人兼 CEO Pietro Schirano 对 Kimi K2 的评价很高:“自 Claude 3.5 Sonnet 之后,它是第一款让我在生产环境中使用时感到放心的模型,也是第一个我觉得可以用作代理循环的非 Anthropic 模型。”他表示,Kimi K2 在工具调用和智能体循环方面表现极为出色,能够并行且可靠地调用多个工具,还具备“知道何时停止”的能力。


与此同时,有测试表明,Kimi-K2-Instruct 在创意写作、挑战性角色扮演两方面的评测指标上双双拿下榜单第一,并超越了 o3。有网友为月之暗面点赞称,“这是开源模型的又一胜利,太棒了。”“K2 的中文创意写作能力应该是唯一的超越 R1 的存在。”还有用户这样反馈道。




架构和 DeepSeek 高度“撞车”?


那么,如此“高性价比”的性能提升背后,Kimi 做了哪些技术创新呢?


据月之暗面介绍,Kimi K2 的预训练阶段使用 MuonClip 优化器实现万亿参数模型的稳定高效训练,在人类高质量数据成为瓶颈的背景下,有效提高 Token 利用效率,找到新的 Scaling 空间。其他关键技术包括大规模 Agentic Tool Use 数据合成和引入自我评价机制的通用强化学习等。


“严格来说,在预训练数据集近似有限且模型配置固定的情况下,token 利用率更高的优化器能产生更多智能。我们此前开发的 Moonlight 项目已证明,用于大语言模型训练时, Muon 优化器的性能显著优于广泛使用的 AdamW 优化器。”


值得注意的是,Kimi K2 与 DeepSeek V3 的架构高度相似,区别则在于:“注意力头数量更少、专家数量更多。”



对此,月之暗面也在技术博客中作了详细解释。其称,Kimi K2 的设计目的是进一步扩展 Moonlight,其架构与 DeepSeek-V3 相似。基于缩放律分析,他们减少了注意头的数量以提高长上下文效率,并增加了 MoE 的稀疏性以提高 token 效率。


在扩展过程中,他们还遇到一个持续的挑战:由爆炸性注意力 logit 引起的训练不稳定性,这个问题在我们的实验中更频繁地出现在 Muon 上,而在 AdamW 上则较少出现;现有的解决方案,如 logit 软上限和查询 - 键归一化,被发现不足以解决问题。为此,他们才决定引入了 MuonClip 优化器,通过其提出的 qk-clip 技术改进 Muon。具体来说,qk-clip 通过在 Muon 更新后直接重新调整查询和键投影的权重矩阵来稳定训练,从而在源头上控制注意力 logit 的规模。


这已经是月之暗面与 DeepSeek 第三次在技术研究方向上“撞车”了。今年 2 月,两家公司都围绕挑战 Transformer 架构最核心的注意力机制方面,各自提出了在核心思想上非常一致的架构。到 4 月,又分别推出了用于数学定理证明的大模型,且在技术报告中都提到了强化学习。


至于 Kimi K2 增强的智能体能力,源于两个重要方面:大规模智能体数据合成与通用强化学习。据介绍,为了让模型掌握复杂的工具使用能力,他们借鉴 ACEBench 开发了一套全面的流程,可大规模模拟现实世界中的工具使用场景,系统性地扩展了包含数千种工具的数百个领域(既包括真实的 MCP(模型上下文协议)工具,也包括合成工具),随后生成了具备多样化工具集的数百个智能体。


据悉,DeepSeek 0 广告投放却爆火后,月之暗面就叫停了在各平台的大面积投流,之后将重心转到基础模型上。此前有消息称,其对 AI 医疗产品进行了布局,用于提升旗下产品 Kimi 在专业领域的搜索质量,并且探索 Agent 等产品方向,发布了 Deep Research 等。


在 Kimi K2 发布的当晚,其联合创始人张宇韬在朋友圈转发文章时直言,“Make Kimi Great Again”。显然,月之暗面内部对 Kimi K2 寄予了厚望,并将其视作在 DeepSeek 冲击 AI 圈后、再度站稳脚跟的关键成果。


参考链接:


https://x.com/jasonzhou1993/status/1944320164889284947


https://x.com/rasbt/status/1944056316424577525


https://x.com/skirano/status/1944475540951621890


https://moonshotai.github.io/Kimi-K2/


https://mp.weixin.qq.com/s/Fmc87uTvDp1kz5dt0EvI7A


声明:本文为 InfoQ 翻译整理,不代表平台观点,未经许可禁止转载。


2025-07-14 18:535

评论

发布
暂无评论

一线管理者手中有哪些牌

芃篙君

管理

Sora给中国AI带来的真实变化

脑极体

AI

低代码开发与网络信息安全:构建高效防护体系

不在线第一只蜗牛

软件开发 低代码 网络 低代码开发

详解网络知识:iptables规则

华为云开发者联盟

开发 华为云 华为云开发者联盟 云容器网络

GaussDB(for MySQL) Serverless全面商用:无感弹性,极致性价比

华为云开发者联盟

数据库 华为云 华为云开发者联盟 华为云Serverless 华为云GaussDB(for MySQL)

跨界协作:借助gRPC实现Python数据分析能力的共享

不在线第一只蜗牛

Python gRPC RPC

扫码即可快速协作:草料二维码底部协作面板功能详解

草料二维码

如何将“龙”插入到富文本编辑器中?

OpenTiny社区

开源 前端 低代码 组件库

深入理解 Java 方法重载与递归应用

小万哥

Java 程序人生 编程语言 软件工程 后端开发

[转]Arthas 3.5.1发布:神级特性!内存搜索对象

虚实的星空

转载

计算schemas/AMs 大小的函数及 \dn++ 和 \dA++

孤傲小二~阿沐

当我们在谈安全默认时我们在谈什么

I

安全架构师 安全设计 安全架构

PolarDB-X的XPlan索引选择

阿里云数据库开源

数据库 阿里云 索引 polarDB PolarDB-X

区块链游戏解说: DeFi Kingdoms

Footprint Analytics

defi 区块链游戏 链游

软件测试学习笔记丨性能统计工具

测试人

软件测试 性能测试 自动化测试 测试开发

The Sandbox NFT 概览与数据分析

Footprint Analytics

区块链游戏 NFT 链游

ETL数据集成工具DataX、Kettle、ETLCloud特点对比

RestCloud

kettle ETL DataX 集成工具 ETLCloud

业务开发自由之路:如何打破框架束缚,实现真正的框架中立性

canonical

低代码 架构设计 Nop平台 框架中立性

Kimi K2发布两天即“封神”?80%成本优势追平Claude 4、打趴“全球最强AI”,架构与DeepSeek相似!_AI&大模型_华卫_InfoQ精选文章