
过去半年,国内多模态 AI 仍在加速,但模型层和应用层的热度却出现分化——一边是模型厂商们打得火热,一边则是多模态 AI 在更多严肃场景的缓慢落地,例如虚拟讲师、医疗辅助诊断、工业自动化质检等。
现在的模型能力足以让多模态 AI“可以”在很多场景做实事。但要想让 AI 在这些场景“把事做好”,仅靠多模态模型还远远不够。
就以教育领域为例,虚拟讲师真正替代、甚至超越真人教师角色,实现商业价值的关键,在于提供媲美线下的体验,例如高清画质、实时互动、跨终端流畅性等等。当千万级学生并发在线,这些基础需求将转化为对系统稳定性的严峻挑战。此类高并发、强实时互动场景的挑战,在直播电商、工业质检、医疗辅助诊断等领域也同样普遍。
整体来看,多模态应用落地正面临三大趋势带来的挑战——
首先是多模态应用体验升级。多模态理解与生成模型能力迭代加速的同时,实时交互成为优化体验的关键,需依赖底层视频云技术支撑。
其次,视频化趋势正在向全行业扩展。 从文娱延伸至医疗影像、教育虚拟讲师、工业质检等复杂场景,对应用编排能力要求更高。
最后,大模型部署向边缘下沉。 为满足大模型计算量、实时性、成本与低延时需求,算力从中心向边缘流动,云 - 边 - 端协同更紧密。
这些趋势和挑战也催生了视频云向智能视频云的升级需求,从底层基建到平台再到上层应用,传统视频云技术需要迎来一次全面升级。
其中,平台层作为连接底层基建与上层应用的“枢纽”,需高效整合计算、存储、网络资源,并为应用提供智能接口与服务,确保数据跨层级流畅、安全处理。其灵活、智能、可扩展的特性,是应对复杂场景的关键。因此,智能视频云时代需要专属的多媒体智能处理平台。
分布式处理是大势所趋
在讨论多媒体处理平台的具体变化前,我们需要看清多媒体处理行业的核心趋势变化。
传统的音视频处理任务通常对计算资源的要求相对较低,单台处理器足以应对这些工作负载。
然而,多模态 AI 引入后,整个流程要处理的数据形态和处理流程都更加复杂和多样,分布式处理就成为更理想的选择。
具体到场景需求来看,我们可以将视频处理流程分为在线和离线两种典型场景。
其中,在线处理通常强调实时性,需要在最短时间内完成视频的编码、解码和传输,适用于直播、视频会议等场景。下图就是一个典型的在线视频生成场景:
先输入文字和图片,经过预处理后送入 SD 模型,再通过后处理增强,最后编码生成最终文件。由于这是在线场景,对延时有一定要求,且视频生成计算量大,成本也需控制。
为同时低延时和低成本的需求,就可以尝试对流程进行分布式拆解。比如在 SD 模型里,把 U-net 迭代拆解到多机多卡执行;后处理增强时,直接将生成模型的输出帧送入增强模块,省去额外的编解码,这样能实现性能和成本的最优。
离线场景也是相似的逻辑。下图展示了一个典型的用大模型批量处理视频的离线场景:

上图描述的是利用大模型对视频进行预处理的过程。批量视频被输入系统后,会先进行切片处理,然后依次经过粗筛和精筛两个步骤,每个步骤都会应用多个算子来处理视频数据,最终生成所需的产物。
由于这是一个典型的离线场景,首先要保证高吞吐量,因此需要尽可能高效地利用资源,确保资源利用率最大化。同时,考虑到不同团队对数据可能有不同的需求,比如需要加入定制算子等,这就要求系统具备良好的灵活性。
为了平衡高吞吐量和灵活性的需求,同样可以尝试将整个处理流程拆解,并在多卡上进行分布式执行,提升处理效率,且能满足个性化需求。
分布式处理的思路并非凭空想象,已经有一些新的分布式技术出现,为其提供技术可行性。
例如,RDMA 和 NVLink 是两种尖端传输技术,RDMA(远程直接内存访问)通过绕过 CPU 直接传输数据,显著降低网络延迟;NVLink 则通过高速 GPU 互联,提升模型并行计算效率。模型推理架构也在向分布式演进,像 PD 分离架构这样将存储与计算分离的设计,大幅增强了系统的灵活性和可扩展性。
有需求,有技术,接下来则需要一个能“链接”技术和需求的分布式平台,让这些先进技术真正落地。
在 6 月 11 日举办的 2025 FORCE 春季大会上,火山引擎便为行业提供了一个分布式多媒体处理的实践案例。
作为支撑字节旗下庞大移动视频生态正常运转的核心基础设施,火山引擎的多媒体处理技术在正式向外提供前就积累了大量实战经验,这些经验对行业有一定参考意义。
分布式多媒体处理平台长什么样?
事实上,在多模态 AI 出现之前,视频处理已经发展成一个相当复杂的系统工程,它不仅仅局限于简单的剪辑或播放,而是涵盖了特效制作、格式转码、内容审核到多渠道分发等一系列流程。
这意味着,如果一家企业想要开发自己的音视频应用,首先要拼出一支“队伍”,需要协调多个专门处理不同环节的供应商。但这种外包的合作模式会拉长整个开发周期,企业需要投入额外的人力、物力和财力来管理这些外部合作,大大增加了项目的复杂度和执行成本。
在此背景下,火山引擎从 2021 年就开始对视频架构进行成本优化,尝试引入新的异构资源、探索资源混合部署、自研更通用的多媒体框架等各个维度进行优化。
2023 年 8 月,火山引擎开源了其自研的 BMF(Babit Multimedia Framework)框架,这个框架极大地简化了视频处理流程。
BMF 就像一个“百宝箱”,将视频处理中复杂的各种功能(如转码、剪辑、滤镜等)都预先制作成标准化的模块。开发者不再需要从零开始搭建,只需根据自己业务的具体需求,像搭积木一样直接选取并“拼装”这些现成的模块,就能快速、便捷地实现几乎所有音视频处理任务,大大提高了开发效率。
此外,BMF 通过提供统一的语言接口,打破了不同框架和编程语言之间的壁垒,无论模块或应用是基于何种技术栈开发的,都能轻松迁移到 BMF 平台上,并能够无障碍地调用 BMF 所提供的丰富功能。
凭借这一优势,火山引擎过去几年在 BMF 框架的基础上,已成功构建了超过 200 个音视频算法的原子能力,为后来多模态时代的音视频处理领域夯实了基础。
此次 FORCE 大会上,火山引擎将 BMF 升级为分布式多媒体处理框架 D-BMF,专门用于应对多模态应用带来的分布式处理需求。
D-BMF 的分布式处理能力主要体现在其对帧数据的独特处理方式上。
它能将视频处理管线中产生的每一帧视频精准分配到不同的计算节点,每个节点独立处理对应帧。这样一来,原本需要按顺序逐帧处理的任务被分解成多个并行任务,每个计算节点可以同时处理不同的视频帧,从而缩短了整体处理时间。
此外,D-BMF 还采用流式处理机制,每一帧视频在生成的同时就能被立即处理,无需等待整个视频片段完成后再进行操作。这种即时处理方式赋予了系统极高的实时性,使其能够迅速响应类似电商直播和在线授课等场景需求。
在分布式 BMF 基础上,火山引擎将其与底层计算平台深度融合,构建了全新的分布式多媒体智能处理平台 MIPP。

这幅架构图直观地展示了 MIPP 所涵盖的核心能力,其中有两项能力很值得关注。
一个是“批流一体可视化编排”能力。
批流一体的编排引擎能够同时处理批量数据和流数据。这里的“批”指的是文件粒度,即系统以文件为单位处理数据,适合处理大规模、静态的数据集,通常需要较长时间完成处理任务。而“流”指的是帧粒度,即系统可以在每一帧视频生成的同时就实时处理数据流。
批流一体的编排引擎则能将这两种处理模式融合在一起,既能够高效处理大规模的历史数据,又能够实时响应新产生的数据,提供了一种更加灵活和高效的解决方案。
另一个亮点则是位于中间层的 M-Planner。
M-Planner 作为 MIPP 的核心智能分析引擎,如同其“大脑”,能深度理解用户业务流程,并借助智能算法,将流程自动、高效地转化为可在分布式环境并行执行的详细部署计划。
以往,这个看似简单的“一键转换”过程实则需大量人力手动拆分处理管线、分配计算节点并优化部署,成本高昂。而 M-Planner 实现了多媒体处理管线编排与执行的解耦,用户只需专注流程,平台负责优化,开发者无需关心底层硬件资源,就能轻松完成处理,极大提升了效率、降低了成本。
除了两个核心引擎外,火山引擎还在最上层提供了直接面向用户的多模态应用;批流一体的编排引擎之下也提供了一系列诸如视频编解码、多模态理解与生成等原子能力共开发者调用。
火山引擎也透露,未来会将分布式 BMF 和关键的平台组件一起开源,并推出相应的商业化产品。
事实上,从 MIPP 的现有架构中已经可以看到很大商业潜力。目前,火山引擎也开始内部尝试利用 MIPP 的编排能力开发新的智能多媒体应用,目前已经有两项成果。
一项是面向手机端的 Agent 解决方案 Mobile Use。今年年初,基于浏览器的 browser use 由 Manus 快速引爆。但对于我们日常使用更广泛的手机,还没有一个成熟的 Agent 方案。为此,火山引擎依托视频云的云手机基建,推出了 Mobile Use 解决方案。Mobile Use 方案可以让用户在云端创建一个或多个手机分身,并通过自然语言交互对云端手机进行控制,完成一系列工作。
另一项则是基于 RTC 的对话式 AI 解决方案。无论是在 AI 社交、直播互动还是医疗诊断等场景,用户都期待 AI 能像真人一样交流。这是他们愿意使用这类产品的重要前提。
而要实现真正流畅自然的交互体验,AI 首先要具备“秒回”的即时响应能力。对此,MIPP 上积累的一系列原子能力(如 ASR、大模型、TTS)已经可将人机交互时延压至 1.6 秒。事实上,1.6 秒的响应速度并不算最快的,市面上虽有宣称更低延时(几百毫秒)的方案,但多依赖轻量模型牺牲应答质量,并不可取。
除即时响应外,另一技术难点在于,如何在让 AI 在各类嘈杂环境处理日常对话时,能够想人类对话一样,在合理的地方打断。为此,火山引擎运用人声检测、回声消除、AI 降噪等系列算法,精准过滤杂音、识别用户意图。
此外,AI 还需克服弱网环境(地铁、展会等)下传统方案的卡顿问题。卡顿不仅影响体验,更会导致语音识别丢字、语义错位。理想体验应“不挑网络”,在各种复杂环境下保持流畅。
长期来看,如果更多这些能力融入多模态应用开发,不仅会刺激互联网 AI 应用生态的繁荣,还有可能激活 AI 硬件产品的应用生态,从而真正打开 AI 硬件的市场需求。
试想,如果上述实时对话能力能够更早集成到 AI 硬件产品中,曾经红极一时的 AI Pin 是否就不会因为糟糕的交互体验而最终沦为“电子垃圾”?
评论