多模态思维链如何重塑 AI 与短视频的未来

演讲嘉宾｜文彬，快手高级算法专家

传统多模态模型在动态视频理解与复杂推理场景面临严峻挑战。快手开源的 Keye-VL 模型在多模态思维链技术实现突破，具备独特的 auto-think（自动思考决策）、agentic-think（代理工具思考）等先进能力，在视频理解领域，尤其是短视频理解方面，展现出业界领先的性能。

在 AICon 全球人工智能开发与应用大会·深圳站，快手高级算法专家文彬分享了《Keye-VL 在多模态思维链领域的探索》，从多模态思维链技术出发，解析 Keye-VL 多模态大模型的核心技术，并分享 Keye-VL 在快手短视频社区的落地应用。

12 月 19～20 日于北京举办的AICon全球人工智能开发与应用大会将锚定行业前沿，聚焦大模型训练与推理、AI Agent、研发新范式与组织革新，邀您共同深入探讨：如何构建起可信赖、可规模化、可商业化的 Agentic 操作系统，让 AI 真正成为企业降本增效、突破增长天花板的核心引擎。
详细日程见：
https://aicon.infoq.cn/202512/beijing/schedule

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。

今天我的分享将围绕四个方面展开：多模态思维链的技术革新、Keye-VL 多模态思维链的探索、多模态思维链在快手社区的落地应用，以及未来的技术方向。

多模态思维链的技术革新与价值

思维链技术最初被定义为一种 Prompt 策略，用于引导大语言模型逐步分析问题，再给出最终答案。后续技术人员发现这一个技术方案非常的有效，才慢慢迁移到了大模型语言的迭代中。

图 1

在多模态场景下，思维链技术的发展经历了多个阶段。最早期思维链仍以文本推理为主。大家可以看到（图 1）左边上面的这个流程图，输入的部分其实是 Multi medium 的形式，包含了文本、图片、视频、语音等等。但是大模型在分析的过程中只会输出一段文本的 Token 序列，然后再得到最终的答案。传统的问答系统在解决复杂数学题时，都是用纯文本的信息实现逐步推导并求解答案。

随着技术的发展，尤其是在今年 3 月份 OpenAI 发布 O3 模型之后，多模态思维链进入了图文交错推理的阶段。模型的输入依然是多模态信息，但在思考的过程中是可以实现图文交错。例如，在（图 1）左下角的链路中，在医疗影像分析的场景下，当输入 CT 影像和患者病史时，多模态大模型不仅可以生成分析报告，还能够精准标注病灶位置，将图像与文本信息巧妙结合进行推理。

最终我们觉得可以达到多模态综合推理的成熟阶段，在那个阶段可能我们输入是多模态，输出也是文本图像等多样的形式，可以把理解、生成这样的任务很好地统一起来。

为了帮助大家更直观地理解思维链技术，我准备了两个示例。

图 2

第一个是纯文本场景。（图 2）右上角的例子是数学推理问题：给定 A、B、C、D、E 五个碗，需要求出其中哪一个碗的数字之和最大。纯文本思维链会逐步分析每个碗的数字之和，再通过比较得出最终答案 A。这个其实就很符合我们人类思考的链路。

第二个示例是多模态的一个思维链。提的问题是“鸟巢中有几颗蛋？”多模态大模型首先会给出一个目标的定位坐标，然后我们会把坐标对应的区域裁剪并放大，再给到多模态大模型，它会去进行一个二次的校验，当它发现每个区域都是蛋且属于不同实例时就会得到最终的答案。

由此可以发现，引入思维链技术后，多模态大模型与人类的对齐程度显著提升，推理过程更加具备可解释性，同时也更为具体。

在介绍了多模态思维链的定义与示例之后，接下来要介绍我们为什么要探索思维链？

首先，自去年以来，OpenAI 发布 O1 模型以及 DeepSeek 发布 R1 模型后，我们发现思维链技术真的能够显著提升模型的智能上限。像在数学和代码等场景中，这类模型能够达到甚至部分超越普通人类的水平。

第二个方面，在复杂图表分析和视频深度理解等多模态场景中，现有多模态大模型的精度仍然不足，尚未达到商用水平。基于上述两点考虑，若要在未来持续提升多模态大模型的性能并推动落地，就必须重点发展多模态思维链技术。

关于多模态思维链的定义，是指模型在处理图片、声音、文本等混合信息的问题时，能够像人类一样“边看边听，边想边说”，可以重新审视，甚至是反复去定位信息源的重要部分，然后再进行一步步思考得出结论的过程。

图 3

上图（图 3）展示了两个传统多模态大模型表现不佳的案例。左侧这个例子是问 Gemini：2014 年计算与无线两个领域对半导体的需求分别是多少。 Gemini 只能给出大概的估计，无法提供准确数值。但如果我们引入多模态思维链后，它就可以先定位到计算和无线这两个领域分别的需求是多少，然后再求和就行了。

右侧这个例子（图 3）则是问基督城哪个月的降水量最多。Gemini 直接给了一个错误答案，且他给的降水量也是错误的。同样的，如果我们引入了思维链的技术，那我们就可以先分析每一个月的降水量是多少，然后再进行一个比较，这样他的思考过程更清晰，答案的话可靠性也会更高一些。

接下来我会给大家介绍多模态思维链的一些发展历程。

下图中（图 4）左上角展示了多模态推理的演变过程。 stage 1 是以 感知为核心 的推理。例如，在 2023 年前后的多模态大模型，基本就是 stage 1，当我们问一个图里面男孩戴的帽子是什么颜色的时候，多模特大模型不需要推理，只需要关注视觉信息本身就可以给出一个答案。这种情况下多模态大模型几乎可以说没有推理这个概念。

图 4

在 stage 2 ，我们是以语言为中心的短推理的过程，就像刚才提到的，当我们的多模态大模型在遇到一个数学题的时候，如果你提示它一步一步分析再给出答案。那它也会去分析，但可能整个链路会比较短，大概就在几百个 Token 以内。那到了第三个阶段，其实主要是得益于大语言模型 O1、R1 的发布，多模态领域成功借鉴了他们的经验并迭代了一系列深度思考的多模态大模型，在这个阶段，当我们面对一些复杂的数学题的时候，多模态大模型的思考链路可以从几千到上万的 Token 不等，相较于 stage 2 的话会有一个大幅提升。

在未来多模态发展到 stage 4 的时候，市面上主流的多模态模型应该是原生多模态的推理模型，输入可能是视觉、文本、视频这种多模态的融合信息，然后在推理的时候它也可以生成图像、文字以及音频等不同模态，实现真正的具身智能。

经过一两年的发展，多模态思维链的训练范式已基本固定，大致分为冷启动和强化学习两个阶段。冷启动阶段主要构造领域内的长思维链式数据，引导模型学习深度思考的范式，否则模型难以从 0 到 1 直接去激发它这个能力；强化学习阶段则引入更加精细化的奖励信号，并结合前沿的强化学习算法（如 GRPO、GSPO、DPO 等），大幅提升多模态大模型的推理质量与结果精度。

图上右侧（图 4）是一些纯文本思维链的落地案例。得益于纯文本思维链这种简单的思考形式，多模态大模型只需要输出文本序列就能实现高效推理。因此这也是学术界和工业界最先得到验证和发展的思维方式。纯文本的思维链技术在音频的 QA、视觉的 QA，图片定位以及视频定位等场景都有不错的学术产出。

而多模态思维链，则进一步结合了视觉与文本推理，生成图文交错的思维链，推动人工智能向更接近人类认知水平的方向演进。其训练范式与前述冷启动和强化学习一致，但在思维链形式上实现了创新，即图文交错。

图 5

例如图 5 左下角的案例，当我们给了一张图，然后去询问这个卡车门上的网址是多少的时候，模型会先进行一个纯文本的分析，然后给出粗略的一个位置，那我们会把这个对应的位置裁剪，然后放大，再通过 visual encoder 的方式作为大语言模型思考的上下文，它会逐步地再通过文本思考再定位到一个更精细化的位置。这样最后当我们把网址所在的区域丢给模型，它生成答案的置信度就会变得非常高。

可以看到，多模态思维链引入之后，当模型面对很复杂的任务时，可以一步一步去拆解，最终得到非常置信的答案。

图 5 的 Image Reasoning 给的是迷宫案例。给定一个物体的起点及其后续的动作序列，我们需要去预估它最终会停在什么位置，那引入了多模态的思维链，它完全可以去模拟这个物体下一个动作之后所在的位置，去描绘出它的行为轨迹，最终我们就可以得到一个精确答案。

最后一个案例是视频推理任务，询问“这个房间中有多少个沙发？” 模型会先抽取包含沙发的这些视频帧，然后得到视频帧之后再去定位到视频帧里面沙发的位置，它会把对应的区域都裁剪出来，然后再放大，再去判定这些沙发哪一些其实是同一个物体，做完去重之后就会给到一个精准的答案。

上述案例表明，在面对复杂且难以直接求解的问题时，多模态大模型可以通过多模态思维链的形式来将问题拆解为多个步骤，从而使推理过程更为简化。

Keye-VL 多模态思维链核心技术解析

接下来介绍我们 Keye-VL 团队在多模态思维链上做了哪些探索？首先带大家了解下 Auto Think， 这是一项创新方案，它能够使多模态大模型自主判断何时需要启动深度思考。

提出这一机制的原因在于，现实场景中相当一部分多模态任务本身较为简单，若在此类任务中普遍启用深度思考，会造成计算资源的浪费。而在复杂任务中启用深度思考，则既能确保结果的可靠性，又能使整体效率可控。

为赋予模型 AutoThink 能力，我们引入了两个不同的阶段，分别叫 Mix-Mode SFT 和 Mix-Mode RL。Mix-Mode SFT 阶段 的目标在于使模型掌握不同的推理模式，所以我们在训练中引入了 /think 模式的长思维链数据与 instruct 版本的 /no_think 数据进行混合训练；第二步会根据题目的难易程度生成相应的 auto_think 数据，在 SFT 阶段帮助基座模型更好地掌握 auto think 的格式，题目难度的判断过程由自研 LLM 生成，并通过特殊的标记格式“XXX”进行区分。

在 Mix-Mode RL 阶段， 我们通过引入混合 reward 机制，在评估最终答案是否准确的前提下也会校验模型生成的 CoT 质量是否优质，惩罚低质思考过程。比如它的思考很冗余，针对某一个问题反复的去思考，那这种就要扣分。还有它的思考是错误的，比如计算步骤有错误，那这种也是要扣分。

最后还有逻辑的自洽性，我们会发现在训练的过程中，有的时候模型的思考过程是错的，但是答案反而对了，或者思考过程是对的，答案却错了。针对这种不一致的情况我们也会做惩罚。

在引入了 Mix-Mode 的强化学习之后，我们就发现基座模型在强化学习阶段真正掌握何时该启动深度思考，在效果和效率上达到平衡。

在引入 Mix-Mode 的强化学习机制后，Keye-VL 基座模型能够逐渐学会根据任务特征选择推理模式：在复杂任务中启用深度推理，在简单任务中采用简短推理，从而在效果与效率之间实现平衡。

下图（图 6）展示了在 No_Think 模式与 Think 模式下，Keye-VL 是怎么去解决问题的。

图 6

左侧示例展示了一个引用勾股定理计算直角边长度的问题。模型在 Analysis 阶段就会分析说这个问题只需应用勾股定理就可以求得 x，所以它就直接用了一个很短的 Token 序列就把答案给求到了。

那右边这个问题就相对复杂一些，给到了两个半圆，然后要求对应的阴影部分的面积，这里面其实需要模型掌握特定的几何性质，以及半圆和弦之间的关系，它是需要很多个计算步骤才能得到答案的，所以模型就采用了 think 的模式。

接下来我们从评测数据来看，引入 Mix-Mode 后对机制的提升有多大。通过在自建的多模态内容理解任务以及开源基准 OpenCompass 等评测集上进行测试，我们发现基座模型在 no_think 模式下的性能得到了显著提升。

接下来，我们深入挖掘一下 AutoThink 模型在不同任务中智能触发深度思考的决策表现。

图 7

从图 7 表格中可以清晰地看到，模型是如何根据任务的复杂度来判定是否启用深度思考的。在 MathVista 和 MMStar 这类偏向多模态推理的 Benchmark 上，模型启用深度思考的比例约为 35%。而在幻觉和 OCR 等偏向感知类的任务中，模型更倾向于直接采用 no_think 模式。

接下来，我将介绍另外一项技术 Agentic Think，这项技术的核心目标是使模型具备自主编写代码以处理图像的能力。其整体流程共分为五个环节：

用户输入：用户提供原始输入，可能是图片或涉及计算的请求。
核心处理模块：模型根据输入内容进行理解和判断是否需要生成代码。
代码生成与执行：模型输出对应的代码提交至安全沙盒环境，包括图像旋转、裁剪、缩放、对比度增强以及数学计算等操作。
沙盒处理
沙盒负责代码的格式修正及输入输出错误的检测和处理，确保代码的安全和正确执行；
在严格时间限制内运行代码，执行图像操作或计算任务；
运行结果（处理后的图像或计算输出）反馈给模型。
输出结果
模型根据沙盒反馈，输出最终的推理结果或图像。

Agentic Think 的技术路线主要分为三个部分：

构建多样化监督微调数据集：覆盖无代码图像操作、高复杂度裁剪、旋转校正、对比度增强、复杂代码计算及多轮交互场景，助力模型全面掌握多模态任务
引入混合强化学习数据与优化算法。标注了一批高难度的感知数据用于强化学习训练，同时提除了自动温度设置的采样策略，在 code 生成结果设置 temperature 为 0，在文本生成阶段恢复为默认值。同时对奖励机制进行相应的优化。
搭建高质量且安全的代码执行沙盒：自动管理代码细节和图像边界，保障模型生成代码高效稳定执行，减轻编码负担。

在此我们也非常高兴地宣布，Agentic Think 技术 迎来了一个重要的里程碑——Thyme 模型开源了。 在这里我们为大家提供了 Thyme 模型相关的资源的完整路径。开源 Thyme 模型，也标志着我们让模型学会自己写代码处理图像的技术正式向社区开放，然后也期待与大家一起推动这一领域的发展。

接下来介绍一下我们在强化学习方面的探索，主要是如何通过精心设计的奖励函数来提升模型的推理上限。

其实只要做过强化学习，大家可能都知道最核心的可能就两点，第一点是怎么保证奖励信号是精准的、是完备的。第二个点是强化算法到底是不是最先进的。

图 8

那我们主要的工作就是构建完备的奖励机制并将 reward 的信号大致分为了两大类。

第一类是硬约束，比如「输出格式的校验」、「输出长度的约束」以及「IoU 计算」等约束，完全可以通过代码去计算并评定对错，无需大语言模型去判断。

第二类是软约束，比如语言风格的判定（例如古诗或文言文风格）、生成内容的流畅度，以及生成的思维链与最终答案之间的一致性。这类指标无法通过代码直接度量，因此需依赖大语言模型进行评估。

图 8 右侧是一个复杂指令遵循的例子。当收到一个复杂的 prompt 时， policy model 就会生成一段回复，Reward System 按照硬约束和软约束进行分流。硬约束的部分比如像长度的判定、关键词判定、段落判定以及输出格式判定等约束，都可以用代码校验。但是类似语言风格判定、语义元素判定等约束都只能通过大语言模型判定。最终 Reward System 会把硬约束和软约束的得分汇总起来再加权。

在硬约束方面，验证相对容易；而在软约束方面，核心在于建立一个能够进行有效评分的模型。为此，我们探索了全新的奖励模型，用于对模型输出结果进行精确打分。在此任务定义下，模型会对同一问题生成多个候选答案，当给定两个答案时，奖励模型需判定哪一个更优。其判定逻辑包括依次确认两个答案是否正确，若均正确，则进一步比较哪个思考过程更加简洁、合理。

在探索过程中，我们还观察到奖励模型在引入强化学习算法优化后还涌现出了一定的反思能力。例如，它在初步分析时可能错误地判定了优劣，但在后续分析中能够纠正先前的判断。

基于上述技术探索，Keye-VL 模型在推理能力方面取得了显著提升。不仅在开源的多模态推理 benchmark 上取得了显著提升；而且在通用图文与视频理解任务上，相较于仅经 SFT 训练的模型，也展现出可量化的性能改进。

多模态思维链在快手社区的落地

当前，短视频社区的审核主要面临以下几方面挑战：

第一，缺乏有效的评测基准。这使得审核效果难以科学衡量。相比之下，大语言模型（如 R1、O1）能够快速发展，很大程度上得益于数学和代码领域存在丰富的评测基准，使研发人员能够基于这些标准进行高效迭代；

第二，数据质量与成本问题。大语言模型的进步同样得益于数学与代码领域拥有大量高质量数据来源。数学方面可依赖丰富的教育资源，代码方面则可借助开源社区（如 GitHub、Hugging Face）提供的大规模优质数据。然而，在短视频审核场景中，优质数据稀缺，如果依赖人工标注，成本将十分高昂。此外，不同标注人员的尺度存在差异，导致一致性难以保证。相比之下，若引入多模态大模型进行审核，则能够在不同样本间保持一致的判定尺度，结果更具可控性；

第三，违规内容快速迭代。在快手平台，每日新增短视频数量达到数千万甚至上亿，完全依赖人工审核并不可行。同时，违规内容的形式与手段不断变化，传统分类模型难以及时应对新的违规类型；

针对上述挑战，我们分析了现有解决方案的局限性，并提出了 KuaiMod 方案，这个工作也荣获 KDD 2025 最佳论文提名。核心理念是让多模态大模型成为审核策略的核心决策者，从而重塑内容审核体系。方案的创新点主要体现在以下三个方面：

第一，构建并开源劣质内容基准评测体系。 我们建立了快手专属的分类体系，涵盖 4 大类与 15 个细粒度类别，包括低俗、暴力等常见劣质内容。同时发布了包含 1000 条样本的高质量测试集，该数据集经过 4–5 轮人工标注验证，确保高置信度，并为行业提供了可复用的评估标准。

第二，提出自动化内容判别方案。 在自动化内容判别方面，我们基于思维链构造了审核场景下的深度思考数据集，并结合冷启动和强化学习方法进行训练。经过部署后，模型可处理快手社区中分发量较高的头部视频，线上测试结果显示其审核准确率已可媲美人工，且社区整体用户举报率下降了 20%，所有正向指标均未受到影响。

第三，动态热点实时适配机制。 在动态热点适配方面，我们针对违规形式不断演变的特点，引入基于用户反馈的强化学习机制。系统每日收集用户反馈数据，并结合模型判定识别难例样本，构建高质量的偏好配对数据。通过 DPO 进行日级别迭代，实现模型的实时更新，对动态违规内容的打击效果较传统模型有显著提升。

在 KuaiMod 的实现中，我们采用大规模监督微调与直接偏好对齐。在监督微调阶段，模型输入涵盖视频帧、标题、ASR/OCR 等内容。在推理过程中，引入可控思维链机制，通过状态转换生成对应的推理步骤与判定结果。

接下来介绍我们在短视频内容体系建设方面的另一项重要成果，即 KC-MMbench 的开源。这个 Benchmark 的核心价值在于覆盖了短视频场景中的多个核心任务。刚说的 KuaiMod 主要聚焦于短视频审核，而 KC-MMBench 则拓展至六大任务，具体包括：

Think with Video

最后跟大家介绍一下，我们未来的技术方向想做“Think with Video”，就是从传统的多模态的理解迈向动态的世界理解，这项技术的一个核心突破在于它突破了静态图文交互的限制，可以赋予 AI 对动态视频的深度理解能力，可以构建视频与文本交错的立体的思维链。

以下是一个具体示例：某视频展示了克里斯蒂安·贝尔生平作品的合集。针对该视频，大模型需要回答“贝尔在何种年龄出演过蝙蝠侠系列电影”。该任务涉及多个推理环节：首先，模型需要掌握贝尔的出生年份；其次，需要准确识别合集片段中哪些属于蝙蝠侠系列；最后，还需识别视频中细粒度的 OCR 信息，例如各部蝙蝠侠电影的上映时间。与以往仅对图像局部区域进行裁剪和分析不同，该过程要求模型直接对长视频中的特定片段进行分析。

在该方向下，存在两个主要技术难点：

长上下文理解能力。处理超长视频时，每帧可能转化为数千个视觉 Token，若采用密集抽帧，上下文长度将急剧膨胀。然而，现有多模态大模型的上下文处理能力仍存在限制。
精确定位能力。类似于在文本中“大海捞针”，模型需在冗长的视频数据中准确定位关键信息，这个任务难度极高。

若能突破上述难点，模型将能够准确定位蝙蝠侠电影上映时间，并据此推理出贝尔出演时的年龄，从而得到正确答案。可以预见，未来的推理任务将更加复杂，更贴近真实场景。我们也将持续致力于 Think with Video 的能力迭代，并计划在未来进行开源，与业界同行展开更深入的交流。

嘉宾介绍

文彬，现任快手高级算法专家，负责 Keye-VL 多模态大模型后训练阶段的研发。研究方向涵盖多模态大模型监督微调 (SFT)、人类偏好对齐 (RLHF)、多模态思维链以及强化学习等领域，相关学术成果在 CVPR、ICML、ICLR 以及 NeurIPS 等 CCF-A 类会议上发表。作为核心贡献者参与的 Keye-VL-8B-Preview 模型开源项目获得业界高度关注，在 Hugging Face 平台模型下载量已突破 200,000 次。

创作场景

多模态思维链如何重塑 AI 与短视频的未来

多模态思维链的技术革新与价值

Keye-VL 多模态思维链核心技术解析

多模态思维链在快手社区的落地

Think with Video