
“特效 10 秒钟,渲染两小时。”相信这是让无数视频后期从业者抓破脑袋,却无法打破的“紧箍咒”。
多模态 AI 浪潮出现后,这道“紧箍咒”又收得更紧了些。大量在离线音视频处理需求激增,传统的单机算力已经无法承担;大模型加入后,传统多媒体开发流程的复杂度上升,但现有工具却尚未完全适配多模态开发范式;大量 Agent 应用出现,开发者与多媒体平台的交互方式也需迎来变革......一系列挑战盘绕在所有多媒体应用开发者上空。
本期《极客有约》,我们邀请到火山引擎视频云首席架构师张清源,深入探讨在这场由 AI 驱动的产业升级中,火山引擎如何通过 MIPP 平台与 BMF 框架,破解多模态时代下,音视频处理的成本与效率难题,并为开发者描绘一幅通往未来的技术路线图。
部分精彩观点如下:
过去需串联多个小模型的任务(如检测+去 Logo),大模型可能单步解决;传统 API 调用可能被 Agent 交互取代。
传统单机处理遭遇算力极限时,“帧级别”调度能最大化硬件利用率。例如用 A 机器 CPU 解码,B 机器 GPU 推理,通过网络协同实现性能飞跃。
火山引擎真正的技术壁垒其实在于生态,就像 NVIDIA 的 CUDA,技术复杂度高,但更重要的是生态壁垒使其难以被复制。
未来多模态模型和视频处理的融合可能有三种思路:一是大模型赋能多媒体链路(如智能翻译),二是多媒体技术赋能大模型(构建多模态基础设施),三是探索大模型和传统视频编解码、增强处理、质量评价等算法的结合。
以下内容基于直播速记整理,经 InfoQ 删减。
多模态 AI 如何重塑视频处理格局?
InfoQ:近年来,尤其是大模型技术爆发后,多模态 AI 为视频处理领域带来了哪些具体变化与新的痛点?
张清源:2017、2018 年第一波 AI 兴起就对多媒体处理产生了很大影响。之前多媒体处理主要是服务端转码和移动端播放,AI 出现后,视频处理开始出现基于 CNN 的增强、检测、分析等算法,使视频处理流程更复杂,处理数据不再局限于传统音视频,还出现文本、embedding 类数据,催生了如 Google 开源的 MediaPipe 等新多媒体处理框架。同时,因流程复杂、计算量增大,GPU 等异构资源进入多媒体处理领域。
如今大模型发展延续了当时趋势,如视频处理流程会用大模型算法,引入更多异构资源,但也有新变化:
一是大模型时代动态处理计算量更大,数据量倍增,对性能和成本要求更极致,性能方面如实时建模、渲染、对话式 AI 及视频内容实时理解分析等要求高;成本方面,处理大量视频时成本差异显著,处理上亿视频时成本巨大。
二是大模型时代下,模型效果相较于小模型有显著提升,这种量变到质变促使各行业出现视频化升级需求,同时也对多媒体处理的开发门槛和迭代效率提出了更高的要求。
InfoQ:面对这些趋势,像火山引擎这样的头部云厂商,以及你们的客户,主要的应对思路是什么?
张清源:目前云厂商普遍采取"all in AI"策略,专注三个方向:提升模型效果、优化成本(如火山引擎将大模型成本降低 90%以上)、以及降低开发门槛。这些措施本质上是为了扩大大模型应用范围并降低成本,促进各行业落地。
在视频云领域,我们采取类似思路:将传统视频编解码、增强等算法与大模型结合,极致优化多媒体链路成本,并通过 MIPP 平台提升开发效率。视频数据处理复杂度在所有数据中最高,因此需要重点提升相关应用的开发门槛和迭代效率。
从客户视角来看也有两个趋势:AI 相关需求正在爆发,多媒体 AI 技术已显示收益潜力;但这些技术资源消耗大、成本高,如抖音特效模板需服务端渲染。尽管面临成本压力,但业务收益天花板远超以往。
开发者需要“开箱即用”的多媒体开发平台
InfoQ:火山引擎在 FORCE 大会上发布了新的多媒体智能处理平台 MIPP,它诞生的初衷和核心能力是什么?
张清源:MIPP 平台开发的核心目标是一次性解决多媒体处理领域的成本、性能、开发门槛和迭代效率问题。解决单个问题相对容易,但同时解决所有问题则极具挑战性。我们希望即使非多媒体专业人员也能轻松构建大规模可扩展、成本效能优化、快速迭代的多媒体处理应用。
我们的设计思路主要有两点:
首先,将多媒体处理的编排与部署解耦,用户仅需关注处理流程,而平台负责资源分配、并行优化、规模扩展和容错处理等底层问题;其次,实现能力复用,平台提供大量原子能力供用户串联,同时所有用户共享平台级的成本和性能优化,相当于有多媒体专家帮助优化应用。
值得一提的是,在 AI 时代,原子能力在不同业务间的复用变得极为重要,这与传统视频应用(如直播、点播、RTC)之间复用性较低的情况有很大不同。
MIPP 提供四大核心能力:一是灵活的编排能力,结合文件级和帧级编排,全面覆盖在线和离线应用场景;二是丰富的原子能力,包括通用多媒体处理、增强、流媒体处理和大模型相关能力;三是多元的资源支持,包括 GPU 和专用编解码芯片等异构资源,利用字节大规模的弹性和潮汐资源降低成本;四是平台级的成本和性能优化,自动实现最佳部署和执行方式。
InfoQ:用户如何调用平台的原子能力?是否可以通过简单代码串联?
张清源:是的,类似其他 AI 应用开发平台,我们提供可视化编辑方式串联原子能力,也提供 SDK 让用户通过简单代码实现“开箱即用”。
同时,多媒体领域同时具备在线和离线特性,具有较大弹性。例如,大模型训练的视频图片预处理对延时要求不高,可安排在夜间;点播业务可利用夜间资源为热门视频进行多档位转码,提高资源利用率。字节内部这类潮汐资源规模大,将多媒体处理与潮汐资源结合,能在特定场景实现极低成本。
InfoQ:MIPP 中一个关键升级是将自研的 BMF 框架升级为分布式,并强调其“帧级别”分布式处理能力。为何要特别强调“帧级别”?火山引擎又为何能率先实现?
张清源:传统多媒体处理多在单机单进程内完成,因为视频帧数据量巨大,跨进程或网络通信的开销会严重影响性能。但在大模型时代,情况变了:
首先,大模型时代,单流程的算力要求经常会超过单机性能极限。复杂的处理流程和高实时性要求,使得单机算力捉襟见肘,分布式处理成为必然。
其次是硬件资源与场景不匹配。一个常见的场景是,用 CPU 解码、GPU 推理。如果模型不大,很可能 CPU 解码成为瓶颈,导致 GPU 利用率低下。此时,最佳方案就是用另一台机器的 CPU 来协同解码,通过网络将帧数据传给 GPU 机器。这种“帧级别”的调度,能最大化硬件利用率。
最后是出现了大量异构资源需求。一个 pipeline 可能包含计算密集型和存储密集型等不同步骤,将它们拆分并运行在最适合的硬件上,能实现极致优化。
BMF 升级为分布式,正是为了解决这些问题。我们之所以能较早提出并实现这一思路,一方面,得益于 BMF 框架自 2019 年以来在字节内部海量业务中的长期打磨与积累;另一方面,字节庞大的业务规模让我们能敏锐捕捉到最新的需求变化,驱动我们通过框架和平台创新来应对挑战。当然,我们也参考了业界如 Ray 等优秀工作,这更像是一次抛砖引玉。
InfoQ:火山引擎已经开源了上一代 BMF,未来对新 BMF 和 MIPP 平台是否有进一步的开源规划?
张清源:BMF 项目在 2019 年启动时就计划开源,但由于内部打磨和业务扩展,精力有限,直到 2023 年才实现开源。选择开源是因为作为框架,开源有助于收集更多需求完善功能,同时建立生态系统,这点非常重要。多媒体领域的其他框架如 Mediapipe 和 GStreamer 也都采用开源模式。
关于 MIPP,我们发现 BMF 框架开源后,视频领域仍较为专业化。虽然 BMF 接口设计相对易用,但对普通开发者门槛仍高。未来我们希望开源 MIPP,使其成为比 BMF 更加开箱即用的引擎,让开发者能像开发简单 Python 程序一样轻松构建多媒体处理分布式应用。这项工作正在进行中,预计明年能够开源。
InfoQ:如果这些核心能力都开源后了,你们的技术壁垒是什么?
张清源:在多媒体处理和 AI 领域,技术复杂性确实构成一定壁垒,但现在整体环境比较开放,我们愿意分享技术成果。比如今年 DeepSeek 开源了许多底层组件和库,给我们的优化工作提供了借鉴。我们不希望设置纯技术门槛。
真正的技术壁垒其实在于生态,如 NVIDIA 的 CUDA,技术复杂度高,但更重要的是生态壁垒使其难以被复制。因此我们希望通过开源 BMF 和 MIPP,与业界共建多媒体应用开发生态。
InfoQ:目前市面上有 MIPP 的直接竞品吗?
张清源:目前我没看到完全一样的竞品,这也合理,因为字节在多媒体领域规模大,面临的业务复杂性和需求多样,我们可能探索得更前沿。但业界有类似工作,虽然不全在多媒体领域,但思路相似,如扣子等 AI 应用开发平台、Ray 分布式执行引擎等。大家都在相似方向努力,但尚无完全一致的产品。我们也希望 MIPP 能成为多媒体领域专业的应用开发平台。
给开发者的实操指南
InfoQ:MIPP 会如何改变多媒体应用开发者的开发范式?FORCE 大会之后,你们收到了哪些关于 MIPP 的用户反馈?
张清源:MIPP 本身不会改变工作模式,工作模式已被扣子等 AI 开发平台改变了。当前 AI 应用平台很多,包括图片生成、视频生成等媒体应用。但处理大数据量或大规模场景时,需要更专业平台满足性能和成本要求,这是我们开发 MIPP 的原因。
成本降低因场景而异,我们通过多种方式优化,例如混合部署、冷启动优化、CPU-GPU 并行优化、使用更经济计算资源、弹性扩缩容等。多媒体领域优化效果显著,例如去年与内部团队合作,BMF 帮助优化视频处理 pipeline 后,性能提升 5 倍以上,成本节省 80%以上。
FORCE 大会后,MIPP 平台及 AI 应用确实也引起内外部关注。平台现阶段主要在内部使用(尚未对外发布),正与多业务洽谈合作。外部客户更关注在线应用,例如如声影制译、视频精修等,目前也正在接入。
InfoQ:未来对外开放使用后,开发者和 MIPP 的交互形式是什么样的?
张清源:未来会支持两种模式——
一种是不需要写代码,在可视化编排界面串联组件。我们计划推出类似 Coze 的商用产品,但更专注于多媒体领域,预计在今年下半年或明年上半年。推出后,开发者可直接在我们的云产品上使用相关能力。
另一种是当逻辑复杂时,需要简单代码开发,但代码复杂度不会很高。这些开发者可以在我们开源的 MIPP 核心引擎上构建自己的分布式多媒体处理平台。
InfoQ:现在市面上有很多多媒体处理技术和平台,您可以给开发者一些具体的选型建议吗?
张清源:在多媒体领域,关键指标主要有几个:处理画质、性能(如处理延时)、整体成本和平台稳定性。
不过具体选择还要看场景需求。如果是传统转码或视频编辑,不需要太多 AI 能力,可能传统的 FFmpeg 使用起来更稳定方便。但如果需要处理相对复杂的 pipeline,建议尝试 BMF。
InfoQ:如果开发者想在 MIPP 里添加自定义音视频处理算子,或是把其他平台的工具或算子迁移到 MIPP 上,具体流程是怎样的?
张清源: 流程类似于开发代码。BMF 框架已开源,其标准规则允许开发插件化模块。MIPP 平台已能无缝运行 BMF 模块。未来商业化后,用户同样可开发并注册 BMF 模块。我们还在开发更简便的方式,例如结合 Agent 自动生成模块代码,用户可能只需简单描述需求或修改几行代码,以降低开发门槛。
MIPP 底层支持多种框架能力(如 FFmpeg 的 filter),可直接调用 BMF 内的相关模块。若不支持,则需要将原有模块适配 BMF 的接口。
多媒体处理和大模型融合的新思路
InfoQ:您近期思考最多的问题是什么?
张清源: 最近一直在想如何将多媒体处理、大模型和多模态深度结合。传统视频云本质上就是把多媒体全链路技术(处理、存储、分发)打造得更极致,怎么把这些技术和大模型结合呢?我有几个初步的思路:
一个是大模型赋能多媒体链路, 利用大模型能力开发智能应用(如 FORCE 大会展示的“声影致译”实时翻译短剧),提升处理流程。
一个是多媒体技术赋能大模型, 发挥视频云在多模态数据处理上的优势,构建基础设施(如 MIPP),助力其他云产品(数据湖、AI 产品)向多模态升级。
最后就是整体技术架构的深度融合,例如探索用大模型思路应用于视频编解码、增强、质量评价等场景。
整体来看,这波大模型浪潮可能带来颠覆性变化。过去需串联多个小模型完成的任务(如检测并去除 Logo),大模型可能单模型即可解决,而且传统 API 调用可能被 Agent 式交互取代。因此,传统视频处理链路未来可能发生根本性变化。
InfoQ:在这种技术趋势变化下,多媒体处理领域还会有哪些潜在变化?从业者如何应对?
张清源: 除了 MIPP,我们也在探索其他路径。未来端到端联动会增多,包括处理算法和策略。大模型时代对实时性、算力和成本要求极高,这将推动算力体系从云端向移动端迁移,以降低延迟和云成本。
其次,多模态理解技术会有更多应用发展。当前系统依赖的信息偏传统,未来视频内容本身将能提取更丰富信息,应用于推荐、搜索等系统,显著提升体验上限。另外,在视频处理的分布式趋势中,底层资源如 GPU 和专用编解码芯片可能组合,形成更适配视频处理的硬件架构。
对于从业者来说,技术发展确实很快,需要对行业变化和新技术保持敏感性,同时多试错、多探索创新。
评论