快手高欢深度解读：多模态理解如何成为AIGC视频生成的“幕后功臣”？

2024 是 AIGC 爆发的一年。自年初 OpenAI 的 Sora 概念推出以来，各家互联网公司争相进入文生视频的赛道，AI 创作出的视频愈加真实且具有美感，满足了更多影视创作和专业用户的需求。

同时，生成式的搜索和推荐也逐渐进入各家电商和短视频平台的事业，将用户画像建模和意图理解准确性提升到新的高度。多模态理解技术在这些 AI 原生应用背后承担着支撑性的作用，显著提升了 AIGC 的可控性。

在 InfoQ 举办的 AICon 全球人工智能开发与应用大会上快手快意多模态模型算法负责人高欢做了专题演讲“多模态理解在 AIGC 场景中的主要应用”，分享从国内外多模态理解技术的发展脉络出发，首先介绍行业的几个重点流派。随后将结合快手中的实际需求场景，讲述在技术落地过程中对疑难关键问题的思考和处理方案。同时，多模态大模型训练过程中的规模效应、模型选择、数据构造、训练范式等方面的探索也会被介绍。最后，结合短视频社交平台业务属性和创作者生态的主要关注目标，本次分享中将讨论未来多模态理解数据的发展方向和更多的应用前景。

内容亮点

展示了几种当前主流 AIGC 产品的形态，包括文生视频、图生视频、视频编辑等
介绍了 AIGC 多模态任务的特点、主要优化目标和典型解决方案
对文生视频及 AIGC 多模态理解方向提出了一些展望

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。

多种多样的 AIGC

在当今的 AIGC 领域，我看到了一些典型的应用和产品形态。以下图为例，左边是一个静态图，通过输入一段详细的文本，就可以生成一幅有趣的图像。目前，其语义响应能力已经较为出色。

例如，我们希望生成一幅具有《教父》电影中柯里昂家族风格的泰迪熊图像，由于 prompt（提示词）写得详细，生成的图像效果相当不错，无论环境背景还是主体形态都基本符合预期。

右边则是可灵平台的主产品之一，可以通过文本或图片输入来生成视频，文本能对视频进行有力的控制。比如，可以生成一个在长城上快速移动的镜头场景，也可以创造出现实中不存在的视频，像让一只熊猫在繁华街道上吃火锅。

借助这类产品，我们能够将过去难以实现或无法见到的场景以视频形式呈现出来，也能将一些在小影视作品中较难呈现的内容展现出来。这正是目前 AIGC 领域大家努力攻克的重点之一。

基于图片的生成目前也应用广泛，图生图或图生视频更是热门应用。以图生图为例，我可以提供一张图片和一段 prompt，对图片进行调整、修改或基于图片进行创作。

比如，把一只猫变成巫师形态的猫，将一只柴犬变成动画风格的柴犬。还可以创作现实中不可能出现的场景，比如让自己的猫揉面，只需上传一张猫的图片，基于该图片生成视频，就能在一定程度上保持较好的身份识别度（ID 保持），让大家看出这只猫确实是我自己的猫。

同样，也可以对蒙娜丽莎等经典艺术作品进行二次创作，通过指令让其产生特殊效果。如果想要基于已有内容进行创作或保持身份识别度，这是一种很好的方法。

除了基于文本和图片，基于视频的修改也是目前比较常见的应用，近期有不少平台推出了相应产品。可灵在这方面起步较早，我们可以对一个给定视频进行添加或删除操作。

比如，有一个实际拍摄的视频是打开冰箱门，我们希望在冰箱里生成一个小怪兽，只要提供对应的图片，就可以将其添加进去。如果原始图片是一个骑士，我们希望它按照特定方向运动，可以通过运动笔刷的方式，圈定其区域并给定路线，使其动起来，且整体运动效果比较符合物理规律。

除了基于单张图片生成视频，还可以提供参考图，将多个图片元素整合到同一个视频中，这样可以将我们想要的信息尽可能多地保留在生成的视频里。目前，这些就是一些主要的产品形态，当然，可灵平台上还有很多丰富的玩法，欢迎大家去尝试体验。

AIGC 背后的多模态理解

AIGC 背后的多模态理解与普通的多模态理解存在一些差异。普通的多模态理解往往侧重于在特定任务上取得顶尖效果，例如刷榜等。

而 AIGC 的多模态理解则更倾向于全面感知与转述，目标是将我所有的想象以及画面中呈现的内容，通过特定的表征方式注入到 DIT 模型中，以便后续生成。

目前，一些典型的多模态理解模型架构已被提及。除了基于 LLaVA 的传统架构及其采样帧之外，在视频理解领域，视频压缩编码成为了一个研究热点。例如，Qwen2VL 采用了 3D RoPE 来表征时间戳；VideoChatFlash 通过 token 压缩实现更高效的视觉 token 表征。

快手则直接对视频块进行编码，通过 CLIP 训练得到向量表征，用于后续训练。这些方法都是为了更好地表征视频中的视觉 token。

在将这些表征注入 DiT 环境时，主要采用两大类方式。在训练场景中，多模态理解主要涉及三个方面。

首先，需要准备数据并打 Caption，对视频或图片进行尽可能准确且全面的描述，注入到 DiT 中，确保图片中的每个细节都能被准确提及，避免遗漏或错误。其次，除了纯文本 Caption 外，还需注入特殊多模态信息，通过 Condition 的方式加入 DIT。

最后，多模态能力的一个重要方面是判断最终生成视频的好坏，构建 Reward Model，利用多模态模型检查是否有残肢、物理规律不合理或语义不对齐等问题。

在推理阶段，由于不需要输入视频，主要关注两个方面。用户可能只提供一段简短甚至语义不明确的描述，此时关键在于如何基于这些信息进行合理改写并注入 DiT，使其与训练分布尽可能一致，以最大化发挥模型能力，同时需要对效果进行分析，如同训练阶段一样，判断生成内容的质量，避免将质量不佳的结果直接展示给用户。

DiT 是目前主要的方式，其变种 MMDiT 也是开源方案中常见的两大类之一。最近也有一些基于 AR 的研究，但 AR 在视频方面仍处于初级阶段，图片方面虽有新进展，但仍围绕 DiT 展开。DiT 的文本信息主要通过 Condition 方式或 MMDiT 中的前置拼接方式注入。

其关键在于 caption 的准确性和全面性，以及推理输入与训练分布的一致性，以充分发挥模型效果。自 DiT 出现并应用于文生 AI 场景以来，已近两年时间，被普遍认为是提升语义响应能力的重要架构，是结构上的重大创新。

除了语义如何融入 DiT，更重要的是语义以何种方式融入。目前有三种常见方式。第一种是将文本和多模态信息直接输入 VL 模型，提取对应位置的 output 并注入 DIT，这种方法已有成品模型采用。第二种方式是利用语言模型强大的推理能力，先让模型对多模态输入进行推理，得到表征后再将 Meta Query 的 token 输入拼接，提取输出接入 DiT，从而利用语言模型的长推理能力，但目前仅有少数工作采用此方法。第三种是能比较好地解决 ID 保持的问题，前两种方案将图片和文本输入语言模型后，输出为离散的 CLIP token，难以保持像素级特征且恢复效果不佳。

因此，更好的方式是直接将图像的连续信号注入 DiT，并在 DiT 过程中插入特定模块，如 IP Adapter 等，使图片信号在 Diffusion 降噪过程中持续发挥作用，从而提升 ID 保持能力。

在 AIGC 领域，我们再深入探讨一下 Caption 的作用。尽管 Caption 本质上是文本形式，可能会在信息传递过程中有所损失，但从整体来看，其语言表述能力仍然非常强大。它是一种相对透明的媒介，能够让我们明确知晓描述是否准确。

在我们快手的产品可灵中，用户在输入时可能仅提供一张图片、一段文本或一个视频，但从后台角度来看，整个流程其实相当复杂。它涉及多种输入形式，包括深度图、分割图、骨架图等。

这些都是我们在背后采取的策略，而这些策略也需要转化为我们期望的文本描述。因此，如何将这些多模态信息转化为具有相同信息密度和格式的文本描述，是 AIGC 中多模态理解的一个重要任务。

另一个关键点是，用户的输入往往比较简短，这与我们训练数据的分布存在较大差异。一个重要的挑战是如何将用户的输入转化为更接近我们训练分布的内容。这可以分为两个部分来考虑。

首先，我们需要直接评估文本在扩写或改写后是否合理，以及是否更接近训练输入。然而，这种评估主要基于统计学意义或格式层面，很难确切判断其是否完全适合模型，尽管这也很重要。其次，我们会引入强化学习的方法。我们会直接使用端到端的视频生成，通过改写的 prompt 来生成视频，从而判断生成结果的好坏。

这同样涉及到了之前提到的 Reward Model，用于自动化地评估模型在给定规则下是否能够接收输入并产生优质的视频。通过视频反馈和文本反馈相结合，我们可以将 Query 改写模块训练到一个较好的状态。这在整个文生视频体系中是一个非常关键的环节。

如何提升多模态理解能力

如果我要提升多模态理解的能力，我认为可以从三个主要维度入手。首先，模型选型至关重要。一个好的模型不仅要在理论上可行，更要具备实际应用价值，不能仅仅是为了在排行榜上取得高分而设计。那种仅靠刷榜技巧取胜的模型，虽然在榜单上可能风光无限，但实际应用中往往不尽如人意。

它们过于专注于特定的任务，以至于变得僵化，难以适应多模态理解所需的灵活性。因此，在选择模型时，我们需要考虑其架构是否能够最大程度地减少信息损失。

例如，在处理视频数据时，传统的抽样采样帧方法可能会遗漏大量关键信息，这就要求我们寻找更优的架构来避免这种损失。这在 AIGC 的多模态理解场景中，是大家普遍关注的一个重要方面。

其次，数据的处理和准备也不容忽视。我们需要明确数据的格式，确保它既能涵盖模型需要表达的各个方面，又能适应各种模态输入的特性。由于多模态输入的多样性，我们必须将它们准确地转化为对应的文字描述，以保证文本描述的合理性。

然而，获取绝对高质量的数据并非易事。开源数据资源有限，且难以进行大规模的专业改写。这就需要我们选择合适的专家模型来进行数据蒸馏。每个专家模型在训练时使用了不同的数据，因此它们各有优劣。

我们不能盲目崇拜任何单一模型，也不能忽视那些在特定领域表现优异的小模型。合理地选择和利用这些专家模型，对于提升多模态理解能力至关重要。

最后，评测环节同样关键。如果评测方法不当，整个迭代过程可能会朝着错误的方向发展，这显然不是我们所期望的。因此，我们需要进行更客观、全面的评测，目的是真实地反映问题和优势，而不是为了欺骗自己或他人。

评测方法还必须保持稳定，不能因为时间或条件的变化而出现大幅波动。此外，随着推理模型的快速发展，Reward Hacking 现象日益频繁。如果我们的奖励机制设计不当，很容易被模型轻易学到模式，从而在多模态排行榜上刷出高分但没有实用价值。

为了避免这种情况，我们需要在评测时仔细考虑如何设计准确的评测标准，以防止 Reward Hacking 的发生。

进一步来说，数据格式的选择也是一个需要细致考量的方面。目前，有三种较为常见且声誉较高的 Caption 格式。

第一种格式较为简洁，仅描述了视频的核心内容；第二种格式则更为结构化，不仅涵盖了主要内容，还包含了主体、背景、镜头和风格等描述；第三种格式则以镜头为单位，描述每个分镜头中的事件和变化。这三种格式各有优劣，很难说哪一种格式本身存在绝对的限制，只有在实际训练过程中，才能判断它们是否符合我们的需求。

除了这三种格式，还有一个名为 Vbench 的视频 AIGC 榜单。从评测的角度来看，如果我们在设计 Caption 时能够全面覆盖榜单中提到的各种要素，如主体一致性、背景一致性等，那么在 Vbench 榜单上就更有可能取得好成绩。这进一步证明了 Caption 设计的重要性，它并非随意编写，而是需要精心构思。

为了提升视频的视觉 token 信息密度，一种常见的方法是进行 token drop。这种方法在某些情况下确实有效，例如在一些长视频榜单上，即使大幅减少 token 数量，模型的分数也不会下降，甚至可能略有上升。然而，在 Caption 场景下，盲目减少 token 可能会导致真正有用的信息丢失。

因此，在处理视频和 Caption 时，我们不能简单地为了推理性能而缩短它们，而应该保持原始的、完整的信息。目前，仍然有很多工作集中在提升视频视觉信号的表征能力而不造成明显的损失上，我们也在持续关注。

在专家模型的选择方面，目前的基准测试非常多。虽然从某个角度来看，当前这个时间点在学术会议上提出一个新的 bench 相对容易被接受，但最终大家还是会关注每个 bench 的独特之处，是否有实用价值。经过筛选，一些 bench 能够反映出重要的信息。

例如，左边的 bench 衡量模型对运动的理解和描述能力，而右边的 bench 则衡量镜头移动和摄影术语的准确性。这表明，在选择专家模型时，不能仅仅依赖于 GPT-4o 或 Gemini 等大型模型，实际上，一些小模型在特定领域可能更具优势。

因此，在选择专业模型时，我们需要有更多的尝试和分析，不一定完全笃信大模型，选择最佳的专家模型才是最经济且最有效的。

在评测方面，我们需要考虑多个因素。首先，评测必须全面且准确地反映问题。例如，阿里巴巴发布的评测榜单 CAPability 涵盖了多个项目，每个项目都包含图片和视频，我们可以据此专门评测 Caption 是否覆盖了相应的内容以及覆盖的准确性。

这是一种通过 Checklist 方式避免 Reward Hack 的有效方法。另一种方法是字节跳动提出的工作，它提取关键信息并检查这些信息是否被我们的 Caption 覆盖，同时计算 Reward 和 Recall，以判断我们是否提供了无关的冗余信息。

这两种方法是目前评价多模态理解好坏的重要体系。尽管这两个榜单也存在被 Hack 的可能性，但构建这样的评测体系仍然是非常重要的。

多模态理解如何赋能 AIGC

多模态理解为 AIGC 赋予了新的应用潜力，站在当下这个时间节点，展望未来，多模态理解还能在哪些领域大展身手，这是值得我们深入思考的问题。

目前，很多人指出 AIGC 生成的视频时长较短，通常只有 5 秒或 10 秒，对于一些专业用户来说，他们可能仅需要这些简短的素材，但对另一些用户而言，他们渴望直接获得更长的视频，比如分钟级别的，且希望视频内容合理，能够满足他们提出的需求。这在广告制作或短宣传片设计等领域，显得尤为重要。

要实现这一目标，需要考虑几个关键问题。

首先，如何确保生成的视频剧情连贯。我们可以采用续写的方式，让模型持续生成视频，但如果在续写过程中剧情出现偏差，甚至完全脱离原本的轨道，这显然不是我们所期望的。其次，要保证整个描述的合理性，不能让剧情变得杂乱无章，脱离原有的体系。

再者，视频中的主角应保持稳定，不能频繁更换，更不能出现前后不一致的情况，比如一开始是某个主体，到后面却完全变成了另一个东西。这些都是目前亟待解决的关键难点，基于这些难点，大家正在探索新的多模态理解方案，以及如何与 DiT 等技术更好地配合。

在处理 ID 指代问题时，情况与传统的语言模型有所不同。对于普通语言模型，我们希望生成的文本可读性强，不会出现奇怪、别扭的表达。

然而，在多模态理解中，模型需要处理大量的信息，尤其是代词的指代问题。随着信息的不断累积，代词的指代会变得越来越混乱，模型难以准确理解代词所指的对象。

因此，我会尽量避免使用代词，如 he、she、they 等，而是明确地指出每个关键词所指代的对象。这样，我们就能清楚地知道在特定时间点出现的是谁，建立起上下文的关联。

基于这种关联，我们可以按照剧本的方式撰写长视频。剧本首先会有一个主体定调，对整个故事进行完整描述，接着介绍故事中的主角，每个主角都配有相应的描述和图片，这些图片将贯穿整个视频生成过程，从而确保主角的身份不会丢失。

之后，我们会详细地描述每个分镜头的内容，比如第一个分镜头中谁做了什么，第二个分镜头中谁又做了什么，以此类推，按照这样的节奏来构建整个长视频。当然，这也需要 DiT 在生成每个分镜头时具备上下文感知能力，这是一个多模态理解与 DiT 协作的完整过程。

我们相信，这只是目前的一个阶段性探索过程。未来，可能会有更先进的方法来生成视频。最近，有人提出了 AR 与多模态理解相结合的方式，认为 AR 的理解和生成可以相互促进，从而实现更好的控制效果。

当然，我们也在积极探索，期待未来能找到更合理的多模态与 AIGC 的配合方式，以产出更让用户满意的视频作品。

展望

让我简单谈谈我们对这一发展方向的思考。实际上，我们有两个主要的思考方向。首先，产品和技术的发展是一个不断演进的过程。以大语言模型的发展路径为例，最初，大家主要关注于提升模型在各类榜单上的表现，如 MMLU、CEval 等。

这些榜单在半年左右的时间内就被刷爆了。榜单被刷爆后，我们需要寻找新的目标。于是，在那段时间里，市场上涌现出了许多新的产品形态，包括情感陪聊和阅读类产品。

然而，由于模型能力或产品形态的限制，这些产品大多难以盈利。因此，大家又将目光重新聚焦于技术本身，开始探索长上下文处理等领域，各家公司纷纷推出了具有 1M 甚至 10M 上下文处理能力的模型。

但这些模型的实际效用又引发了人们的思考，因为即使是将一本书的内容输入到模型中，也很难达到 1M 的上下文规模。于是，大家又开始围绕长推理技术展开研究，让模型能够进行更长的思考、反思和自我修正。这一技术在数学和代码领域展现出了明显的优势，催生了许多有趣的技术和新产品。

但长推理终究只是一项技术，我们不能仅仅满足于让语言模型输出几兆的上下文内容。因此，许多人开始关注 agent（代理）相关技术，Manus 等产品应运而生。未来，Agent 技术将呈现更多形态，目前我们还难以预知其全部潜力，但可以肯定的是，Agent 技术的应用将越来越广泛。

在视频生成领域，早期也经历了类似的专项模型刷榜过程，大家不断追求提升各类指标。但很快，大家意识到单纯刷榜并无太大实际意义，这些模型更像是玩具，难以实现商业变现。

于是，一些团队开始将视频生成技术应用于动漫制作或特殊运镜控制等领域，但这些产品仍存在局限性，距离真正实现商业价值还有很长的路要走。随后，大家开始尝试生成更长的视频，最初从 1 秒到 2 秒的短视频发展到 5 秒到 10 秒的视频。

在这个过程中，DiT 技术的引入显著提升了视频生成的效果。那么，接下来会发生什么呢？是否会像语言模型领域一样，出现推理视频或更多基于 Agent 的视频生成技术呢？我们拭目以待，各家公司也在为此努力探索。

从另一个角度思考，模型和数据一直在不断调整和优化。以文生图领域为例，早期的目标是生成定向的、特定类别的图片。

后来，随着 Stable Diffusion 等技术的出现，画面质量得到了显著提升，这是 Stable Diffusion 的重要贡献之一。再往后，大家希望用更完整的自然语言来控制图片生成，而不是仅仅依赖于一堆碎片化的词汇。在这个过程中，DIT 技术的出现极大地弥补了语义理解方面的不足。

随后，DiT 模型逐渐定型，开始注重数据的优化。数据质量的提升直接影响了最终生成视频的能力，包括风格化和特色视频的生成等。目前，大家还在探索专项数据定制等领域，例如文字控制生成等。

未来，可能会在 Unify Model 等相关技术上有所突破，这又将是一个从数据回归到模型的循环过程。文生视频领域也是如此，最初专注于专用生成，随后不断优化画面质量和语义响应能力。

现在，大家正在努力提升数据治理水平，利用更高质量的数据生成电影级片段，实现更好的控制力度和视觉效果。我们期待出现更多有趣的技术突破。目前，我们正处于这个时间点，等待着未来的发展。

我们的愿景可以追溯到语言模型刚出现的时候。当时，Character AI 吸引了许多人的关注并积累了大量用户，尽管它当时仅具备文字陪聊的能力，看似并无太多实际干货，但它确实弥补了人们在工作或生活中语言对话对象的缺失。

将这一理念应用到视频领域，目前数字人技术已经相对成熟，但数字人缺乏交互能力。我们可以给数字人输入一段指令，让它进行电商宣传直播等，效果非常逼真，几乎可以以假乱真，但它的缺点是没有交互能力。

没有交互能力的最大问题是无法像 Character AI 那样满足人们的工作需求或提供情感陪伴。我们畅想未来，数字人是否能够真正成为 AI 角色，代替现实中的人为我们提供必要的支持。或许那时，我们就能迎来真正的 AGI。因此，我们目前不仅致力于纯 AI 生成视频，更关注在 AGI 的道路上能做出怎样的贡献。

嘉宾介绍

高欢，快手可灵多模态模型算法负责人。主要负责 AI 生成场景背后的多模态理解研发工作，深度参与快手多个 AIGC 算法技术落地。

创作场景

快手高欢深度解读：多模态理解如何成为 AIGC 视频生成的“幕后功臣”？

多种多样的 AIGC

AIGC 背后的多模态理解

如何提升多模态理解能力

多模态理解如何赋能 AIGC

展望

嘉宾介绍