搞AI音视频开发的注意一下，“减负”开始了_生成式 AI_刘杨楠

2天时间，聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情 



 写点什么

“特效 10 秒钟，渲染两小时。”相信这是让无数视频后期从业者抓破脑袋，却无法打破的“紧箍咒”。

多模态 AI 浪潮出现后，这道“紧箍咒”又收得更紧了些。大量在离线音视频处理需求激增，传统的单机算力已经无法承担；大模型加入后，传统多媒体开发流程的复杂度上升，但现有工具却尚未完全适配多模态开发范式；大量 Agent 应用出现，开发者与多媒体平台的交互方式也需迎来变革......一系列挑战盘绕在所有多媒体应用开发者上空。

本期《极客有约》，我们邀请到火山引擎视频云首席架构师张清源，深入探讨在这场由 AI 驱动的产业升级中，火山引擎如何通过 MIPP 平台与 BMF 框架，破解多模态时代下，音视频处理的成本与效率难题，并为开发者描绘一幅通往未来的技术路线图。

部分精彩观点如下：

过去需串联多个小模型的任务（如检测+去 Logo），大模型可能单步解决；传统 API 调用可能被 Agent 交互取代。

传统单机处理遭遇算力极限时，“帧级别”调度能最大化硬件利用率。例如用 A 机器 CPU 解码，B 机器 GPU 推理，通过网络协同实现性能飞跃。

火山引擎真正的技术壁垒其实在于生态，就像 NVIDIA 的 CUDA，技术复杂度高，但更重要的是生态壁垒使其难以被复制。

未来多模态模型和视频处理的融合可能有三种思路：一是大模型赋能多媒体链路（如智能翻译），二是多媒体技术赋能大模型（构建多模态基础设施），三是探索大模型和传统视频编解码、增强处理、质量评价等算法的结合。

以下内容基于直播速记整理，经 InfoQ 删减。

多模态 AI 如何重塑视频处理格局？

InfoQ：近年来，尤其是大模型技术爆发后，多模态 AI 为视频处理领域带来了哪些具体变化与新的痛点？

张清源：2017、2018 年第一波 AI 兴起就对多媒体处理产生了很大影响。之前多媒体处理主要是服务端转码和移动端播放，AI 出现后，视频处理开始出现基于 CNN 的增强、检测、分析等算法，使视频处理流程更复杂，处理数据不再局限于传统音视频，还出现文本、embedding 类数据，催生了如 Google 开源的 MediaPipe 等新多媒体处理框架。同时，因流程复杂、计算量增大，GPU 等异构资源进入多媒体处理领域。

如今大模型发展延续了当时趋势，如视频处理流程会用大模型算法，引入更多异构资源，但也有新变化：

一是大模型时代动态处理计算量更大，数据量倍增，对性能和成本要求更极致，性能方面如实时建模、渲染、对话式 AI 及视频内容实时理解分析等要求高；成本方面，处理大量视频时成本差异显著，处理上亿视频时成本巨大。

二是大模型时代下，模型效果相较于小模型有显著提升，这种量变到质变促使各行业出现视频化升级需求，同时也对多媒体处理的开发门槛和迭代效率提出了更高的要求。

InfoQ：面对这些趋势，像火山引擎这样的头部云厂商，以及你们的客户，主要的应对思路是什么？

张清源：目前云厂商普遍采取"all in AI"策略，专注三个方向：提升模型效果、优化成本(如火山引擎将大模型成本降低 90%以上)、以及降低开发门槛。这些措施本质上是为了扩大大模型应用范围并降低成本，促进各行业落地。

在视频云领域，我们采取类似思路：将传统视频编解码、增强等算法与大模型结合，极致优化多媒体链路成本，并通过 MIPP 平台提升开发效率。视频数据处理复杂度在所有数据中最高，因此需要重点提升相关应用的开发门槛和迭代效率。

从客户视角来看也有两个趋势：AI 相关需求正在爆发，多媒体 AI 技术已显示收益潜力；但这些技术资源消耗大、成本高，如抖音特效模板需服务端渲染。尽管面临成本压力，但业务收益天花板远超以往。

开发者需要“开箱即用”的多媒体开发平台

InfoQ：火山引擎在 FORCE 大会上发布了新的多媒体智能处理平台 MIPP，它诞生的初衷和核心能力是什么？

张清源：MIPP 平台开发的核心目标是一次性解决多媒体处理领域的成本、性能、开发门槛和迭代效率问题。解决单个问题相对容易，但同时解决所有问题则极具挑战性。我们希望即使非多媒体专业人员也能轻松构建大规模可扩展、成本效能优化、快速迭代的多媒体处理应用。

我们的设计思路主要有两点：

首先，将多媒体处理的编排与部署解耦，用户仅需关注处理流程，而平台负责资源分配、并行优化、规模扩展和容错处理等底层问题；其次，实现能力复用，平台提供大量原子能力供用户串联，同时所有用户共享平台级的成本和性能优化，相当于有多媒体专家帮助优化应用。

值得一提的是，在 AI 时代，原子能力在不同业务间的复用变得极为重要，这与传统视频应用（如直播、点播、RTC）之间复用性较低的情况有很大不同。

MIPP 提供四大核心能力：一是灵活的编排能力，结合文件级和帧级编排，全面覆盖在线和离线应用场景；二是丰富的原子能力，包括通用多媒体处理、增强、流媒体处理和大模型相关能力；三是多元的资源支持，包括 GPU 和专用编解码芯片等异构资源，利用字节大规模的弹性和潮汐资源降低成本；四是平台级的成本和性能优化，自动实现最佳部署和执行方式。

InfoQ：用户如何调用平台的原子能力？是否可以通过简单代码串联？

张清源：是的，类似其他 AI 应用开发平台，我们提供可视化编辑方式串联原子能力，也提供 SDK 让用户通过简单代码实现“开箱即用”。

同时，多媒体领域同时具备在线和离线特性，具有较大弹性。例如，大模型训练的视频图片预处理对延时要求不高，可安排在夜间；点播业务可利用夜间资源为热门视频进行多档位转码，提高资源利用率。字节内部这类潮汐资源规模大，将多媒体处理与潮汐资源结合，能在特定场景实现极低成本。

InfoQ：MIPP 中一个关键升级是将自研的 BMF 框架升级为分布式，并强调其“帧级别”分布式处理能力。为何要特别强调“帧级别”？火山引擎又为何能率先实现？

张清源：传统多媒体处理多在单机单进程内完成，因为视频帧数据量巨大，跨进程或网络通信的开销会严重影响性能。但在大模型时代，情况变了：

首先，大模型时代，单流程的算力要求经常会超过单机性能极限。复杂的处理流程和高实时性要求，使得单机算力捉襟见肘，分布式处理成为必然。

其次是硬件资源与场景不匹配。一个常见的场景是，用 CPU 解码、GPU 推理。如果模型不大，很可能 CPU 解码成为瓶颈，导致 GPU 利用率低下。此时，最佳方案就是用另一台机器的 CPU 来协同解码，通过网络将帧数据传给 GPU 机器。这种“帧级别”的调度，能最大化硬件利用率。

最后是出现了大量异构资源需求。一个 pipeline 可能包含计算密集型和存储密集型等不同步骤，将它们拆分并运行在最适合的硬件上，能实现极致优化。

BMF 升级为分布式，正是为了解决这些问题。我们之所以能较早提出并实现这一思路，一方面，得益于 BMF 框架自 2019 年以来在字节内部海量业务中的长期打磨与积累；另一方面，字节庞大的业务规模让我们能敏锐捕捉到最新的需求变化，驱动我们通过框架和平台创新来应对挑战。当然，我们也参考了业界如 Ray 等优秀工作，这更像是一次抛砖引玉。

InfoQ：火山引擎已经开源了上一代 BMF，未来对新 BMF 和 MIPP 平台是否有进一步的开源规划？

张清源：BMF 项目在 2019 年启动时就计划开源，但由于内部打磨和业务扩展，精力有限，直到 2023 年才实现开源。选择开源是因为作为框架，开源有助于收集更多需求完善功能，同时建立生态系统，这点非常重要。多媒体领域的其他框架如 Mediapipe 和 GStreamer 也都采用开源模式。

关于 MIPP，我们发现 BMF 框架开源后，视频领域仍较为专业化。虽然 BMF 接口设计相对易用，但对普通开发者门槛仍高。未来我们希望开源 MIPP，使其成为比 BMF 更加开箱即用的引擎，让开发者能像开发简单 Python 程序一样轻松构建多媒体处理分布式应用。这项工作正在进行中，预计明年能够开源。

InfoQ：如果这些核心能力都开源后了，你们的技术壁垒是什么？

张清源：在多媒体处理和 AI 领域，技术复杂性确实构成一定壁垒，但现在整体环境比较开放，我们愿意分享技术成果。比如今年 DeepSeek 开源了许多底层组件和库，给我们的优化工作提供了借鉴。我们不希望设置纯技术门槛。

真正的技术壁垒其实在于生态，如 NVIDIA 的 CUDA，技术复杂度高，但更重要的是生态壁垒使其难以被复制。因此我们希望通过开源 BMF 和 MIPP，与业界共建多媒体应用开发生态。

InfoQ：目前市面上有 MIPP 的直接竞品吗？

张清源：目前我没看到完全一样的竞品，这也合理，因为字节在多媒体领域规模大，面临的业务复杂性和需求多样，我们可能探索得更前沿。但业界有类似工作，虽然不全在多媒体领域，但思路相似，如扣子等 AI 应用开发平台、Ray 分布式执行引擎等。大家都在相似方向努力，但尚无完全一致的产品。我们也希望 MIPP 能成为多媒体领域专业的应用开发平台。

给开发者的实操指南

InfoQ：MIPP 会如何改变多媒体应用开发者的开发范式？FORCE 大会之后，你们收到了哪些关于 MIPP 的用户反馈？

张清源：MIPP 本身不会改变工作模式，工作模式已被扣子等 AI 开发平台改变了。当前 AI 应用平台很多，包括图片生成、视频生成等媒体应用。但处理大数据量或大规模场景时，需要更专业平台满足性能和成本要求，这是我们开发 MIPP 的原因。

成本降低因场景而异，我们通过多种方式优化，例如混合部署、冷启动优化、CPU-GPU 并行优化、使用更经济计算资源、弹性扩缩容等。多媒体领域优化效果显著，例如去年与内部团队合作，BMF 帮助优化视频处理 pipeline 后，性能提升 5 倍以上，成本节省 80%以上。

FORCE 大会后，MIPP 平台及 AI 应用确实也引起内外部关注。平台现阶段主要在内部使用(尚未对外发布)，正与多业务洽谈合作。外部客户更关注在线应用，例如如声影制译、视频精修等，目前也正在接入。

InfoQ：未来对外开放使用后，开发者和 MIPP 的交互形式是什么样的？

张清源：未来会支持两种模式——

一种是不需要写代码，在可视化编排界面串联组件。我们计划推出类似 Coze 的商用产品，但更专注于多媒体领域，预计在今年下半年或明年上半年。推出后，开发者可直接在我们的云产品上使用相关能力。

另一种是当逻辑复杂时，需要简单代码开发，但代码复杂度不会很高。这些开发者可以在我们开源的 MIPP 核心引擎上构建自己的分布式多媒体处理平台。

InfoQ：现在市面上有很多多媒体处理技术和平台，您可以给开发者一些具体的选型建议吗？

张清源：在多媒体领域，关键指标主要有几个：处理画质、性能(如处理延时)、整体成本和平台稳定性。

不过具体选择还要看场景需求。如果是传统转码或视频编辑，不需要太多 AI 能力，可能传统的 FFmpeg 使用起来更稳定方便。但如果需要处理相对复杂的 pipeline，建议尝试 BMF。

InfoQ：如果开发者想在 MIPP 里添加自定义音视频处理算子，或是把其他平台的工具或算子迁移到 MIPP 上，具体流程是怎样的？

张清源： 流程类似于开发代码。BMF 框架已开源，其标准规则允许开发插件化模块。MIPP 平台已能无缝运行 BMF 模块。未来商业化后，用户同样可开发并注册 BMF 模块。我们还在开发更简便的方式，例如结合 Agent 自动生成模块代码，用户可能只需简单描述需求或修改几行代码，以降低开发门槛。

MIPP 底层支持多种框架能力（如 FFmpeg 的 filter），可直接调用 BMF 内的相关模块。若不支持，则需要将原有模块适配 BMF 的接口。

多媒体处理和大模型融合的新思路

InfoQ：您近期思考最多的问题是什么？

张清源： 最近一直在想如何将多媒体处理、大模型和多模态深度结合。传统视频云本质上就是把多媒体全链路技术（处理、存储、分发）打造得更极致，怎么把这些技术和大模型结合呢？我有几个初步的思路：

一个是大模型赋能多媒体链路，利用大模型能力开发智能应用（如 FORCE 大会展示的“声影致译”实时翻译短剧），提升处理流程。

一个是多媒体技术赋能大模型，发挥视频云在多模态数据处理上的优势，构建基础设施（如 MIPP），助力其他云产品（数据湖、AI 产品）向多模态升级。

最后就是整体技术架构的深度融合，例如探索用大模型思路应用于视频编解码、增强、质量评价等场景。

整体来看，这波大模型浪潮可能带来颠覆性变化。过去需串联多个小模型完成的任务（如检测并去除 Logo），大模型可能单模型即可解决，而且传统 API 调用可能被 Agent 式交互取代。因此，传统视频处理链路未来可能发生根本性变化。

InfoQ：在这种技术趋势变化下，多媒体处理领域还会有哪些潜在变化？从业者如何应对？

张清源： 除了 MIPP，我们也在探索其他路径。未来端到端联动会增多，包括处理算法和策略。大模型时代对实时性、算力和成本要求极高，这将推动算力体系从云端向移动端迁移，以降低延迟和云成本。

其次，多模态理解技术会有更多应用发展。当前系统依赖的信息偏传统，未来视频内容本身将能提取更丰富信息，应用于推荐、搜索等系统，显著提升体验上限。另外，在视频处理的分布式趋势中，底层资源如 GPU 和专用编解码芯片可能组合，形成更适配视频处理的硬件架构。

对于从业者来说，技术发展确实很快，需要对行业变化和新技术保持敏感性，同时多试错、多探索创新。

发布

暂无评论

创作场景

搞 AI 音视频开发的注意一下，“减负”开始了

多模态 AI 如何重塑视频处理格局？

开发者需要“开箱即用”的多媒体开发平台

给开发者的实操指南

多媒体处理和大模型融合的新思路

评论

Go 并发编程 — 深入浅出 sync.Pool ，围观最全的使用姿势，理解最深刻的原理

Python - 日志处理（logging模块）

双峰哲学 - 一种深度工作的哲学

高性能 JavaScriptの五 -- 快响应用户界面

架构实战营-作业四

模块四：课后作业

编辑器的江湖

如何提升Hadoop访问对象存储US3的效率？我们做了这些技术实践

【音视频】基于声网实时音视频能力的音视频质量体系建设

【渗透测试】hackthebox靶场之ScriptKiddie

ORACLE数据库应用开发三十忌

再谈前端性能监控及4个最佳工具分享

模块4-作业

模块4作业4

设计千万级学生管理系统的考试试卷存储方案

自我复盘

今年过一次不一样的520！

设计千万级学生管理系统的考试试卷存储方案

☕【Java技术之旅】从底层角度去认识线程的原理

Go 并发编程-goroutine 初体验

InnoDB 锁类型及其分析

🚄【Redis 干货领域】帮你完全搞定 Cluster 原理（实践篇）

Python 持久化 - 文件

Shell脚本-简单爬虫

MySQL主从网络延迟解决方案

如何根据日志来了解一个请求经历了什么？

和另一半过不一样的520

开发中Docker常用容器记录

架构学习笔记：读写分离

基于Mac的手动搭建WordPress个人站点的方法

架构实战营模块4作业

创作场景

搞 AI 音视频开发的注意一下，“减负”开始了

多模态 AI 如何重塑视频处理格局？

开发者需要“开箱即用”的多媒体开发平台

给开发者的实操指南

多媒体处理和大模型融合的新思路

评论

电子书

大厂实战PPT下载