写点什么

搞 AI 音视频开发的注意一下,“减负”开始了

  • 2025-06-27
    北京
  • 本文字数:5047 字

    阅读完需:约 17 分钟

搞AI音视频开发的注意一下,“减负”开始了

“特效 10 秒钟,渲染两小时。”相信这是让无数视频后期从业者抓破脑袋,却无法打破的“紧箍咒”。


多模态 AI 浪潮出现后,这道“紧箍咒”又收得更紧了些。大量在离线音视频处理需求激增,传统的单机算力已经无法承担;大模型加入后,传统多媒体开发流程的复杂度上升,但现有工具却尚未完全适配多模态开发范式;大量 Agent 应用出现,开发者与多媒体平台的交互方式也需迎来变革......一系列挑战盘绕在所有多媒体应用开发者上空。


本期《极客有约》,我们邀请到火山引擎视频云首席架构师张清源,深入探讨在这场由 AI 驱动的产业升级中,火山引擎如何通过 MIPP 平台与 BMF 框架,破解多模态时代下,音视频处理的成本与效率难题,并为开发者描绘一幅通往未来的技术路线图。


部分精彩观点如下:


  • 过去需串联多个小模型的任务(如检测+去 Logo),大模型可能单步解决;传统 API 调用可能被 Agent 交互取代。


  • 传统单机处理遭遇算力极限时,“帧级别”调度能最大化硬件利用率。例如用 A 机器 CPU 解码,B 机器 GPU 推理,通过网络协同实现性能飞跃。


  • 火山引擎真正的技术壁垒其实在于生态,就像 NVIDIA 的 CUDA,技术复杂度高,但更重要的是生态壁垒使其难以被复制。


  • 未来多模态模型和视频处理的融合可能有三种思路:一是大模型赋能多媒体链路(如智能翻译),二是多媒体技术赋能大模型(构建多模态基础设施),三是探索大模型和传统视频编解码、增强处理、质量评价等算法的结合。


以下内容基于直播速记整理,经 InfoQ 删减。


多模态 AI 如何重塑视频处理格局?


InfoQ:近年来,尤其是大模型技术爆发后,多模态 AI 为视频处理领域带来了哪些具体变化与新的痛点?


张清源:2017、2018 年第一波 AI 兴起就对多媒体处理产生了很大影响。之前多媒体处理主要是服务端转码和移动端播放,AI 出现后,视频处理开始出现基于 CNN 的增强、检测、分析等算法,使视频处理流程更复杂,处理数据不再局限于传统音视频,还出现文本、embedding 类数据,催生了如 Google 开源的 MediaPipe 等新多媒体处理框架。同时,因流程复杂、计算量增大,GPU 等异构资源进入多媒体处理领域。


如今大模型发展延续了当时趋势,如视频处理流程会用大模型算法,引入更多异构资源,但也有新变化:

一是大模型时代动态处理计算量更大,数据量倍增,对性能和成本要求更极致,性能方面如实时建模、渲染、对话式 AI 及视频内容实时理解分析等要求高;成本方面,处理大量视频时成本差异显著,处理上亿视频时成本巨大。


二是大模型时代下,模型效果相较于小模型有显著提升,这种量变到质变促使各行业出现视频化升级需求,同时也对多媒体处理的开发门槛和迭代效率提出了更高的要求。


InfoQ:面对这些趋势,像火山引擎这样的头部云厂商,以及你们的客户,主要的应对思路是什么?


张清源:目前云厂商普遍采取"all in AI"策略,专注三个方向:提升模型效果、优化成本(如火山引擎将大模型成本降低 90%以上)、以及降低开发门槛。这些措施本质上是为了扩大大模型应用范围并降低成本,促进各行业落地。


在视频云领域,我们采取类似思路:将传统视频编解码、增强等算法与大模型结合,极致优化多媒体链路成本,并通过 MIPP 平台提升开发效率。视频数据处理复杂度在所有数据中最高,因此需要重点提升相关应用的开发门槛和迭代效率。


从客户视角来看也有两个趋势:AI 相关需求正在爆发,多媒体 AI 技术已显示收益潜力;但这些技术资源消耗大、成本高,如抖音特效模板需服务端渲染。尽管面临成本压力,但业务收益天花板远超以往。


开发者需要“开箱即用”的多媒体开发平台


InfoQ:火山引擎在 FORCE 大会上发布了新的多媒体智能处理平台 MIPP,它诞生的初衷和核心能力是什么?


张清源:MIPP 平台开发的核心目标是一次性解决多媒体处理领域的成本、性能、开发门槛和迭代效率问题。解决单个问题相对容易,但同时解决所有问题则极具挑战性。我们希望即使非多媒体专业人员也能轻松构建大规模可扩展、成本效能优化、快速迭代的多媒体处理应用。


我们的设计思路主要有两点:


首先,将多媒体处理的编排与部署解耦,用户仅需关注处理流程,而平台负责资源分配、并行优化、规模扩展和容错处理等底层问题;其次,实现能力复用,平台提供大量原子能力供用户串联,同时所有用户共享平台级的成本和性能优化,相当于有多媒体专家帮助优化应用。


值得一提的是,在 AI 时代,原子能力在不同业务间的复用变得极为重要,这与传统视频应用(如直播、点播、RTC)之间复用性较低的情况有很大不同。


MIPP 提供四大核心能力:一是灵活的编排能力,结合文件级和帧级编排,全面覆盖在线和离线应用场景;二是丰富的原子能力,包括通用多媒体处理、增强、流媒体处理和大模型相关能力;三是多元的资源支持,包括 GPU 和专用编解码芯片等异构资源,利用字节大规模的弹性和潮汐资源降低成本;四是平台级的成本和性能优化,自动实现最佳部署和执行方式。


InfoQ:用户如何调用平台的原子能力?是否可以通过简单代码串联?


张清源:是的,类似其他 AI 应用开发平台,我们提供可视化编辑方式串联原子能力,也提供 SDK 让用户通过简单代码实现“开箱即用”。


同时,多媒体领域同时具备在线和离线特性,具有较大弹性。例如,大模型训练的视频图片预处理对延时要求不高,可安排在夜间;点播业务可利用夜间资源为热门视频进行多档位转码,提高资源利用率。字节内部这类潮汐资源规模大,将多媒体处理与潮汐资源结合,能在特定场景实现极低成本。


InfoQ:MIPP 中一个关键升级是将自研的 BMF 框架升级为分布式,并强调其“帧级别”分布式处理能力。为何要特别强调“帧级别”?火山引擎又为何能率先实现?


张清源:传统多媒体处理多在单机单进程内完成,因为视频帧数据量巨大,跨进程或网络通信的开销会严重影响性能。但在大模型时代,情况变了:


首先,大模型时代,单流程的算力要求经常会超过单机性能极限。复杂的处理流程和高实时性要求,使得单机算力捉襟见肘,分布式处理成为必然。


其次是硬件资源与场景不匹配。一个常见的场景是,用 CPU 解码、GPU 推理。如果模型不大,很可能 CPU 解码成为瓶颈,导致 GPU 利用率低下。此时,最佳方案就是用另一台机器的 CPU 来协同解码,通过网络将帧数据传给 GPU 机器。这种“帧级别”的调度,能最大化硬件利用率。


最后是出现了大量异构资源需求。一个 pipeline 可能包含计算密集型和存储密集型等不同步骤,将它们拆分并运行在最适合的硬件上,能实现极致优化。


BMF 升级为分布式,正是为了解决这些问题。我们之所以能较早提出并实现这一思路,一方面,得益于 BMF 框架自 2019 年以来在字节内部海量业务中的长期打磨与积累;另一方面,字节庞大的业务规模让我们能敏锐捕捉到最新的需求变化,驱动我们通过框架和平台创新来应对挑战。当然,我们也参考了业界如 Ray 等优秀工作,这更像是一次抛砖引玉。


InfoQ:火山引擎已经开源了上一代 BMF,未来对新 BMF 和 MIPP 平台是否有进一步的开源规划?


张清源:BMF 项目在 2019 年启动时就计划开源,但由于内部打磨和业务扩展,精力有限,直到 2023 年才实现开源。选择开源是因为作为框架,开源有助于收集更多需求完善功能,同时建立生态系统,这点非常重要。多媒体领域的其他框架如 Mediapipe 和 GStreamer 也都采用开源模式。


关于 MIPP,我们发现 BMF 框架开源后,视频领域仍较为专业化。虽然 BMF 接口设计相对易用,但对普通开发者门槛仍高。未来我们希望开源 MIPP,使其成为比 BMF 更加开箱即用的引擎,让开发者能像开发简单 Python 程序一样轻松构建多媒体处理分布式应用。这项工作正在进行中,预计明年能够开源。


InfoQ:如果这些核心能力都开源后了,你们的技术壁垒是什么?


张清源:在多媒体处理和 AI 领域,技术复杂性确实构成一定壁垒,但现在整体环境比较开放,我们愿意分享技术成果。比如今年 DeepSeek 开源了许多底层组件和库,给我们的优化工作提供了借鉴。我们不希望设置纯技术门槛。


真正的技术壁垒其实在于生态,如 NVIDIA 的 CUDA,技术复杂度高,但更重要的是生态壁垒使其难以被复制。因此我们希望通过开源 BMF 和 MIPP,与业界共建多媒体应用开发生态。


InfoQ:目前市面上有 MIPP 的直接竞品吗?


张清源:目前我没看到完全一样的竞品,这也合理,因为字节在多媒体领域规模大,面临的业务复杂性和需求多样,我们可能探索得更前沿。但业界有类似工作,虽然不全在多媒体领域,但思路相似,如扣子等 AI 应用开发平台、Ray 分布式执行引擎等。大家都在相似方向努力,但尚无完全一致的产品。我们也希望 MIPP 能成为多媒体领域专业的应用开发平台。


给开发者的实操指南


InfoQ:MIPP 会如何改变多媒体应用开发者的开发范式?FORCE 大会之后,你们收到了哪些关于 MIPP 的用户反馈?


张清源:MIPP 本身不会改变工作模式,工作模式已被扣子等 AI 开发平台改变了。当前 AI 应用平台很多,包括图片生成、视频生成等媒体应用。但处理大数据量或大规模场景时,需要更专业平台满足性能和成本要求,这是我们开发 MIPP 的原因。


成本降低因场景而异,我们通过多种方式优化,例如混合部署、冷启动优化、CPU-GPU 并行优化、使用更经济计算资源、弹性扩缩容等。多媒体领域优化效果显著,例如去年与内部团队合作,BMF 帮助优化视频处理 pipeline 后,性能提升 5 倍以上,成本节省 80%以上。


FORCE 大会后,MIPP 平台及 AI 应用确实也引起内外部关注。平台现阶段主要在内部使用(尚未对外发布),正与多业务洽谈合作。外部客户更关注在线应用,例如如声影制译、视频精修等,目前也正在接入。


InfoQ:未来对外开放使用后,开发者和 MIPP 的交互形式是什么样的?


张清源:未来会支持两种模式——


一种是不需要写代码,在可视化编排界面串联组件。我们计划推出类似 Coze 的商用产品,但更专注于多媒体领域,预计在今年下半年或明年上半年。推出后,开发者可直接在我们的云产品上使用相关能力。


另一种是当逻辑复杂时,需要简单代码开发,但代码复杂度不会很高。这些开发者可以在我们开源的 MIPP 核心引擎上构建自己的分布式多媒体处理平台。


InfoQ:现在市面上有很多多媒体处理技术和平台,您可以给开发者一些具体的选型建议吗?


张清源:在多媒体领域,关键指标主要有几个:处理画质、性能(如处理延时)、整体成本和平台稳定性。

不过具体选择还要看场景需求。如果是传统转码或视频编辑,不需要太多 AI 能力,可能传统的 FFmpeg 使用起来更稳定方便。但如果需要处理相对复杂的 pipeline,建议尝试 BMF。


InfoQ:如果开发者想在 MIPP 里添加自定义音视频处理算子,或是把其他平台的工具或算子迁移到 MIPP 上,具体流程是怎样的?


张清源: 流程类似于开发代码。BMF 框架已开源,其标准规则允许开发插件化模块。MIPP 平台已能无缝运行 BMF 模块。未来商业化后,用户同样可开发并注册 BMF 模块。我们还在开发更简便的方式,例如结合 Agent 自动生成模块代码,用户可能只需简单描述需求或修改几行代码,以降低开发门槛。


MIPP 底层支持多种框架能力(如 FFmpeg 的 filter),可直接调用 BMF 内的相关模块。若不支持,则需要将原有模块适配 BMF 的接口。


多媒体处理和大模型融合的新思路


InfoQ:您近期思考最多的问题是什么?


张清源: 最近一直在想如何将多媒体处理、大模型和多模态深度结合。传统视频云本质上就是把多媒体全链路技术(处理、存储、分发)打造得更极致,怎么把这些技术和大模型结合呢?我有几个初步的思路:


一个是大模型赋能多媒体链路, 利用大模型能力开发智能应用(如 FORCE 大会展示的“声影致译”实时翻译短剧),提升处理流程。


一个是多媒体技术赋能大模型, 发挥视频云在多模态数据处理上的优势,构建基础设施(如 MIPP),助力其他云产品(数据湖、AI 产品)向多模态升级。


最后就是整体技术架构的深度融合,例如探索用大模型思路应用于视频编解码、增强、质量评价等场景。

整体来看,这波大模型浪潮可能带来颠覆性变化。过去需串联多个小模型完成的任务(如检测并去除 Logo),大模型可能单模型即可解决,而且传统 API 调用可能被 Agent 式交互取代。因此,传统视频处理链路未来可能发生根本性变化。


InfoQ:在这种技术趋势变化下,多媒体处理领域还会有哪些潜在变化?从业者如何应对?


张清源: 除了 MIPP,我们也在探索其他路径。未来端到端联动会增多,包括处理算法和策略。大模型时代对实时性、算力和成本要求极高,这将推动算力体系从云端向移动端迁移,以降低延迟和云成本。


其次,多模态理解技术会有更多应用发展。当前系统依赖的信息偏传统,未来视频内容本身将能提取更丰富信息,应用于推荐、搜索等系统,显著提升体验上限。另外,在视频处理的分布式趋势中,底层资源如 GPU 和专用编解码芯片可能组合,形成更适配视频处理的硬件架构。


对于从业者来说,技术发展确实很快,需要对行业变化和新技术保持敏感性,同时多试错、多探索创新。

2025-06-27 13:366483

评论

发布
暂无评论

拼多多商品详情数据接口应用在哪些场景?

tbapi

拼多多 拼多多商品详情接口 拼多多API接口

百度大模型安全解决方案获WitAwards 2023 年度大奖

百度安全

安全 大模型安全

SQL 通配符:用于模糊搜索和匹配的 SQL 关键技巧

小万哥

MySQL 数据库 程序员 sql 后端开发

智能汽车的山海之盾

脑极体

智能汽车

花见Live Wallpaper 4K Pro for mac(4k视频壁纸)

展初云

Mac 动态壁纸软件 Mac视频壁纸

3D建模软件Rhino 8 for Mac(犀牛)

展初云

Mac 建模软件 Rhino 8 犀牛

专业矢量图片转换工具 Vector Magic免激活最新

胖墩儿不胖y

Mac软件 矢量图软件

12 月 3 日北京,时序数据管理前沿技术+行业应用尽在 IoTDB 用户大会!

Apache IoTDB

全链协同,链接未来|端点科技联合IDC重磅发布新一代ERP白皮书

科技热闻

超级应用平台(HAP)起航

明道云

Puppeteer是什么?如何使用Puppeteer实现浏览器自动化

爱写字的阿城

自动化 批量 puppeteer

为什么chatGPT中文版不需要梯子🪜翻墙,在中国是合法合规的??

Geek_ccdd7f

一文搞懂Go gRPC服务Handler单元测试

Tony Bai

Go golang gRPC 单元测试 微服务、

Sensei for Mac(系统优化工具)

展初云

Mac Mac软件 系统优化工具

LED驱动控制专用电路

芯动大师

PolarDB 物理复制刷脏约束问题和解决

ba0tiao

innodb MySQL 数据库 polarDB

硬盘监测和系统优化工具推荐Sensei 注册激活版

胖墩儿不胖y

Mac软件 优化软件 系统清理工具

云HIS医院信息化管理系统源码:集团化管理,多租户机制,满足医院业务需求

源码星辰

源码 Java’ 云计算,

铭文聚合交易平台 Scorpio:铭文赛道狂潮的新引领者

股市老人

2023年datafun随手记(1)

Hua

大数据 AI GPT LLM

核药供应链创新:远大医药策略与明道云实践

明道云

GPT-4 API全面开放使用

Geek_ccdd7f

【腾讯云云上实验室】用向量数据库——实现高效文本检索功能

熬夜磕代码、

数据库、

搞AI音视频开发的注意一下,“减负”开始了_生成式 AI_刘杨楠_InfoQ精选文章