写点什么

Kimi、DeepSeek 中门对狙?中外开发者大对比还暗讽 OpenAI,DeepSeek 新涌现被赞爆!

  • 2025-01-21
    北京
  • 本文字数:3732 字

    阅读完需:约 12 分钟

大小:1.81M时长:10:32
Kimi、DeepSeek中门对狙?中外开发者大对比还暗讽OpenAI,DeepSeek 新涌现被赞爆!

几乎在同一天,Kimi 和 DeepSeek 同时交了“年度作业”。Kimi 分享了自称“满血版多模态 o1”的思考模型 k1.5,DeepSeek 推出了自己的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。

 

截至发稿,Kimi 1.5 在 Github 上只发布了技术报告,因此只有不到 300 stars,而 DeepSeek 选择 MIT 许可开源,目前已有 3K stars。

 

Github 地址:

https://github.com/MoonshotAI/kimi-k1.5

https://github.com/deepseek-ai/DeepSeek-R1

Kimi、DeepSeek,中门对狙?

 

DeepSeek-R1-Zero 路线的重点是呈现了新涌现:“aha moment”(顿悟时刻)。该模型在预训练之后完全没有经过任何监督学习,即没有使用任何其他思维链模型以及人类的输出。也就是说,从 DeepSeek-V3 基座直接进行强化学习,即可解锁 o1 级别的思维链能力。不过,R1 比 o1 的价格要便宜 30 倍。

 

这一点也“打脸”了 Meta。之前 Meta 在论文《Physics of Language Models》中认为,反思是必须“训练”的,而 o1 类模型面临的问题是得不到 pretrain 量级的反思推理。但 DeepSeek 证明了,纯 RL(Reinforcement Learning,强化学习)无‌SFT(Supervised Fine-Tuning,监督微调)‌的模型,在训练期间可以学会自发思考和反思。

 

DeepSeek-R1 引入了冷启动数据和多阶段训练流程,解决模型在可读性和语言混合方面的问题,同时进一步提升推理性能。具体包括:通过少量高质量的长 CoT 数据对基础模型进行微调,作为 RL 训练的起点;在冷启动基础上,应用大规模 RL 训练,专注于提升模型在推理密集型任务上的表现;通过拒绝采样生成新的训练数据,并结合其他领域的数据进行微调,进一步提升模型的泛化能力;在最终阶段,结合多种奖励信号和多样化的提示分布,对模型进行全面优化,使其在推理能力、有用性和安全性方面达到平衡。

 


DeepSeek-R1-Zero 在训练集上的平均响应长度在强化学习(RL)过程中逐渐增加,自然地学会了通过增加思考时间来解决推理任务。

 

DeepSeek 还在 DeepSeek-R1 中引入了开发管线。此管线共包含两个强化学习阶段,旨在发现更佳推理模式并与人类偏好保持一致;以及两个监督微调阶段,以作为模型推理及非推理能力的种子。

 

此外,DeepSeek 还证明了,可以将较大模型的推理模式蒸馏成较小模型,而且与通过强化学习在小模型上发现的推理模式相比其性能更好。开源 DeepSeek-R1 及其 API 将使得研究界受益,以便未来蒸馏出质量更好的小体量模型。

 

使用 DeepSeek-R1 生成的推理数据,DeepSeek 对研究社区中广泛使用的几种密集模型进行了微调。评估结果表明,经过蒸馏的较小密集模型在基准测试中表现非常出色。现在,DeepSeek 已经向社区开源了基于 Qwen 2.5 和 Llama 3 模型家族的 1.5B、7B、8B、14B、32B 和 70B 等微调版本。由此获得的 DeepSeek-R1-Distill-Qwen-32B 模型在各类基准测试中的表现均优于 OpenAI-o1-mini,标志着密集模型的技术水平由此登上新的台阶。


DeepSeek-R1 蒸馏模型与其他同类模型在推理相关基准测试中的比较

 

而对于 Kimi 的 k1.5,其技术重点与 R1-Zero 并不相似。Kimi K1.5 的技术重点在于通过长上下文扩展和改进的策略优化方法,结合多模态数据训练和长到短推理路径压缩技术,实现高效且强大的强化学习框架,以此提升大模型在复杂推理和多模态任务中的性能和效率。

 

  • 将 RL 的上下文窗口扩展到 128k,模型能够处理更长的推理路径,从而提升性能。该方法背后的一个关键思想是,使用部分展开(partial rollouts)来提高训练效率——即通过重用大量先前的轨迹来采样新的轨迹,避免了从头开始重新生成新轨迹的成本。“上下文长度是通过 LLMs 持续扩展 RL 的一个关键维度。 ”

  • 提出了基于长推理路径(Long-CoT)的强化学习公式,并采用在线镜像下降的变体进行稳健的策略优化。k1.5 提出了一种专门的长到短强化学习(Long2Short RL)方法,通过长度惩罚(Length Penalty)和最大轨迹长度限制,进一步优化短推理路径模型,此外通过采样策略(如课程学习和优先采样)优化训练过程,使模型更专注于困难问题。

  • 简洁的框架。长上下文扩展与改进的策略优化方法相结合,为通过 LLMs 学习建立了一个简洁的 RL 框架。上下文长度的拓展让学习到的 CoTs 表现出规划、反思和修正的特性,增加上下文长度的效果增加了搜索步骤的数量。因此,k1.5 可以在不依赖更复杂技术(如蒙特卡洛树搜索、价值函数和过程奖励模型)的情况下实现强大的性能。 

  • 多模态能力。k1.5 在文本和视觉数据上联合训练,具有联合推理两种模态的能力。该模型数学能力出众,但由于主要支持 LaTeX 等格式的文本输入,依赖图形理解能力的部分几何图形题则难以应对。

 

此外,Kimi k1.5 还提出了一种混合部署框架,将训练和推理任务部署在同一硬件上,通过共享 GPU 资源提高资源利用率。利用 Kubernetes Sidecar 容器,实现训练和推理任务的动态切换。

 

对于 Kimi、DeepSeek 这次有意或无意的较量,知乎答主“ZHUI”如此总结:

 

  1. DeepSeek 应该是最早走对 o1 路子的一家厂商,从 2024.11.20 发布 R1-lite 算起,到今天两个月。这两个月(可能更早)开始在 DeepSeek-V3 的路子上走进行。个人猜测,R1-lite-preview 应该是在 v2 的小模型基础上探索策略得到的模型,大概 11 月开始,v3 的模型训练好了,开始迭代 R1。

  2. Qwen/QwQ 我倾向于路径是对的,如 DeepSeek Report 中,对比蒸馏与 RL 结果展示的,RL 结果与 QwQ 模型效果类似。

  3. 看起来,各家应该都在 11 月上旬、中旬的时候,o1 的训练诀窍成为了小圈子里面较为公开的秘密了。

  4. RL 训练的 pipeline 基建,DeepSeek 应该是比较完善的,虽然报告中没有讲。kimi 1.5 中讲了一些他们的 infra,感觉还是这一块可能拖了他们一些后腿。

  5. Kimi 1.5 的 report 有点赶工的嫌疑,内容组织的一般般。猜测可能提前得知 R1 的发布时间,赶在一起发 PR,目前看说明,还没上线。

  6. 虽然 kimi 讲了更多训练细节,如怎么限制生成长度的策略等,在原来的模型上修修补补,落了下乘。DeepSeek R1 从数据的角度解决绝对是更优雅的方案。

 

英伟达高级科学家 Jim Fan 也对两者进行了总结并表示,

 

Kimi 和 DeepSeek 的论文惊人地得出了相似的结论:

  • 不需要复杂的蒙特卡洛树搜索(MCTS),只需将思考过程线性化,并进行传统的自回归预测;

  • 不需要额外昂贵模型副本的价值函数;

  • 不需要密集的奖励建模,尽可能依赖真实结果和最终答案。

而两者的不同之处在于:

  • DeepSeek 采用 AlphaZero 方法——完全通过 RL 进行引导,无需人类输入,即“冷启动”。而 Kimi 采用 AlphaGo Master 方法:通过提示工程生成的推理链(CoT)进行轻量级的监督微调(SFT)来预热。

  • DeepSeek 的模型权重采用 MIT 开源许可(展现了技术领导力!),而 Kimi 尚未发布模型。

  • Kimi 在多模态性能方面表现出色(令人惊叹!),例如在 MathVista 基准测试中,需要对几何图形和智力测试等进行视觉理解。

  • Kimi 的论文在系统设计方面提供了更多细节:包括 RL 基础设施、混合集群、代码沙盒、并行化策略;以及学习细节:长上下文、推理链压缩、课程学习、采样策略、测试用例生成等。

 


为方便对比,有网友把两篇论文的指标重新合在了一张表格上

 

不过正如网友所说,“idea 不难想到,因为实在太直观了,我 22 年都想到过,但是做成是另一回事情。”

 

“我被 R1 震惊到了”

 

显然,由于 DeepSeek 选择直接开源,其在全球社区里收获了更多的关注。

 

根据测试,在数学任务中,DeepSeek-R1 的表现与 OpenAI-o1-1217 相当,大幅超越了其他模型。在编程算法任务中,例如 LiveCodeBench 和 Codeforces,以推理为导向的模型在这些基准测试中占据主导地位,DeepSeek-R1 也展现出类似的趋势。在工程导向的编程任务中,OpenAI-o1-1217 在 Aider 上表现优于 DeepSeek-R1,但在 SWE Verified 上两者表现相当。


Jim Fan 表示,“它或许是第一个展示强化学习飞轮效应(RL flywheel)重大且持续增长的开源项目。”他还暗讽了一下 OpenAI:影响力可以通过“内部实现的通用人工智能(ASI)”或像“草莓计划”这样的神秘名称来实现;影响力也可以通过简单地公开原始算法和 Matplotlib 学习曲线来实现。

 

年仅 19 岁便获得博士学位的 StabilityAI 研究总监 Tanishq Mathew Abraham 表示,“这是迄今为止今年人工智能领域最重要的论文。”他还表示,“我很欣赏 DeepSeek 提供的失败案例,尤其是这些想法已经被广泛讨论用于实现 o1 风格模型。这在 AI 论文中非常罕见。”

 

网友 Mckay Wrigley 表示,“我被 R1 震惊到了,它的表现简直爆表!这是一个几乎和 o1 一样好,但价格便宜 30 倍的模型。这就是为什么我们需要一个高度竞争的 AI 环境——所有实验室都会被迫推出更好但降低价格的模型。简直难以置信。”

 


还有一些开发者已经迫不及待地在本地测试和使用起来了 DeepSeek R1。

 

苹果机器学习研究员 Awni Hannun 在 2 块 M2 Ultra 芯片上运行 DeepSeek R1 671B 模型,表示“运行速度比阅读速度还快。它正在成为开源的 o1 模型,在家用消费级硬件上就能实现。”

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    然后,他向 DeepSeek R1 Distill Qwen 7B(4 位)提问了第一个数学难题。在 M4 Max 上使用 mlx-lm 大约 35 秒内计算出大约 3200 个 token。

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      网友 Matthew Berman 则评价:“DeepSeek R1 拥有我见过的最像人类的内心独白。它实际上非常可爱。”

       


      参考链接:

      https://mp.weixin.qq.com/s/BmOKGKjXP2tjmPyNdU0Hqg

      https://www.zhihu.com/question/10080578443/answer/83321932961

      https://x.com/MatthewBerman/status/1881399547064451167

       http://xhslink.com/a/iBwXlnahqdf4

      2025-01-21 13:5711046

      评论

      发布
      暂无评论

      收获认可!杭州悦数正式成为信创工委会技术活动单位

      最新动态

      藏在超级应用背后的道家哲学

      Onegun

      超级应用 superapp

      权威赛事、高额奖金,文心一言插件开发邀你来挑战!

      飞桨PaddlePaddle

      人工智能 大数据 文心一言

      面试题解答:Spring Lifecycle 和 SmartLifecycle 有何区别?

      江南一点雨

      Java spring

      如何设计一套基于API的会员系统

      Kevin_913

      架构设计实战 Java'

      Elasticsearch Relevance Engine---为AI变革提供高级搜索能力[ES向量搜索、常用配置参数、聚合功能等详解]

      汀丶人工智能

      ES 向量检索 搜索系统 语义搜索

      深入理解 Netty FastThreadLocal

      vivo互联网技术

      性能优化 Netty ThreadLocal 内存泄漏 FastThreadLocal

      提升数据决策时效,火山引擎DataLeapCDC分库分表能力升级!

      字节跳动数据平台

      大数据 数据治理 数据安全 数据研发 企业号10月PK榜

      基础设施SIG月度动态:T-One 社区版调度引擎全量替换至 runnerV2 版本,调度性能平均提升 6.8 倍

      OpenAnolis小助手

      开源 镜像 操作系统 龙蜥社区 基础设施SIG

      大模型时代,小度全屋智能超级新物种,持续加码AI未来生活

      新消费日报

      报名开启 | 支付宝小程序云 × DCloud 将强强联合,为开发者提供多端开发服务

      TRaaS

      支付宝小程序 小程序云开发 uni-app DCloud

      这一大波Offer来的太突然了

      王磊

      Java

      一款兼容微信抖音支付宝小程序的工具可以直接把小程序搬到自己App

      Onegun

      小程序 小程序容器

      如何修改模型粗糙度增强模型表面粗糙度

      3D建模设计

      3D模型 粗糙度

      OpenHarmony持久化存储UI状态:PersistentStorage

      OpenHarmony开发者

      OpenHarmony

      浅析“代码可视化” | 京东云技术团队

      京东科技开发者

      架构 字节码 企业号10月PK榜 代码可视化

      如何按照固定比例缩放模型

      3D建模设计

      3D模型 等比缩放

      想让你的代码简洁,试试这个SimpleDateFormat类高深用法

      华为云开发者联盟

      Java 后端 开发 华为云 华为云开发者联盟

      产品需求交付质量保证的“七重门” | 京东云技术团队

      京东科技开发者

      测试 交付质量 企业号10月PK榜

      HarmonyOS音频开发指导:使用AVPlayer开发音频播放功能

      HarmonyOS开发者

      HarmonyOS

      登录MySQL数据库最快需要几步

      小齐写代码

      将日志压缩并归档到 Amazon S3 Glacier 存储层中

      亚马逊云科技 (Amazon Web Services)

      分布式 S3 储存

      如何合并模型对象

      3D建模设计

      模型 3D

      如何给模型换色

      3D建模设计

      3D模型 颜色 材质

      高性能计算与多模态处理的探索之旅:英伟达GH200性能优化与GPT-4V的算力加速未来

      GPU算力

      Kimi、DeepSeek中门对狙?中外开发者大对比还暗讽OpenAI,DeepSeek 新涌现被赞爆!_AI&大模型_褚杏娟_InfoQ精选文章