探秘B站多媒体实验室：B站视频背后的AI黑科技是如何炼成的？

快速发展的 AI 技术正在为千行百业带来越来越多可能性，以多媒体领域为例，AI 目前已经深层渗透到了内容生产、识别理解、处理增强、语音、检索、安全等诸多方面。在 B 站，不管你是看视频的用户还是发布作品的 UP 主，AI 在你的使用过程中几乎可以说无处不在。比如，你在 B 站上刷视频推荐瀑布流的时候，视频推荐页卡片封面的高能看点 GIF 动画，可能就是由大语言模型生产出来的；比如，已经有很多 UP 主在使用开箱即用的 AIGC 工具辅助内容创作；再比如，在用户所看到的视频画面里，利用 AI 算法嵌入了不可见的数字水印信息，以便于后续平台对视频归属权进行快速鉴别，等等。

而上述这些 AI 应用探索，都离不开 B 站多媒体实验室的工作。B 站多媒体实验室是 B 站多媒体技术部的核心算法研发部门，除了立足于点直播转码核心算法的研发，也承担了一系列涉及视频内容生产、结构化、版权保护等环节的技术研究与落地，以及紧跟潮流的前沿热点追踪与预研工作。

在 9 月 3-5 日即将召开的 QCon 北京 2023 上，B 站多媒体实验室算法负责人成超将带来以《B 站前沿多媒体技术保障用户体验与创作权益》为主题的演讲分享。会前，InfoQ 对成超老师进行了专访，提前揭秘 B 站多媒体实验室的重点工作方向，以及 B 站如何将 LLM 等前沿技术与多媒体业务相结合的落地探索。

以下为访谈实录，经 InfoQ 编辑整理：

InfoQ：很荣幸有机会采访您，能否请您先介绍一下您在计算机视觉及 AI 图像领域的从业经历？您是在什么时候、因为什么样的机缘加入 B 站多媒体实验室的？

成超：在加入 B 站之前我一直在云厂商从事 AI 视频分析、处理、增强等方向的工作。2021 年 B 站多媒体技术部成立了自己的算法研发部门，在紧贴业务一线的地方探索多媒体 AI 算法的更多可能性。在此契机下我加入了 B 站，同时也面临着 toB 到 toC 转变的挑战。

B 站多媒体实验室的过去和现在

InfoQ：能否进一步介绍下 B 站多媒体实验室在公司内部的定位，以及它的发展历程？

成超：B 站多媒体实验室是 B 站多媒体技术部的核心算法研发部门，目前主要从事于编码器、多媒体算法，以及前沿技术在点直播体系下落地的研发。多媒体实验室的前身是编码器组与算法组，在部门早期阶段这两个组曾是独立运行的：编码器组主要负责 B 站转码架构中最核心的 BILIAVC、BILIHEVC、BILIAV1，及当前重点投入的 BILIVVC 编码器的研发；算法组主要负责视频画质增强，如超分、超帧等处理算法的研发。

随着多媒体技术部所负责的点直播转码架构的不断演进，我们发现 AI 处理+编码结合在一起能够取得更大的想象空间。例如通过 AI 算法对视频画面进行重构然后编码，能够比纯编码在取得相同画质结果的条件下节省 10~15%的码率；又例如通过 VQA 等基于数据驱动的无参质量评价，能够一定程度替代 PSNR 等有参且不基于人眼感知的评价标准，为编码器的迭代指引更科学的优化方向。

因此在 2023 年年初，我们从组织架构层面将这两个组合并成立了多媒体实验室，合并之后的多媒体实验室除了立足于点直播转码核心算法的研发之外，还需要承担一系列涉及视频内容生产、结构化、版权保护等环节的技术研究与落地，以及紧跟潮流的前沿热点追踪与预研。

InfoQ：根据您从业这几年的观察，AI 技术在多媒体领域都有哪些应用、又带来了哪些重要变化？可否列举一些代表性案例进行说明。

成超：这个问题比较宏大，AI 目前已经深层渗透到了内容生产、识别理解、处理增强、语音、检索、安全等诸多领域，我想以内容生产为重点来谈谈目前 AI 所带来的显著变化与趋势。

AI 对内容生产的促进成果是非常令人兴奋的，我们很欣喜地看到，B 站上很多 UP 主都已经在用开箱即用的 AIGC 工具辅助内容创作了。例如最近某个专注于神话志怪题材的 UP 主为了讲解封神榜的故事背景，采用当下流行的文生图平台制作了很多符合封神故事风格的人物、鬼怪设定图并应用在了视频中，这些图片质量很高，丝毫不亚于一些专业画师的创作水准。如果没有此类技术，观众大概只能凭借 UP 主的语音文字讲解来脑补那些奇幻角色造型，无疑提高了受众门槛，也降低了观看体验。

再举一个作为平台方应用的例子，我们正在采用 AI 换脸制作个性化的直播虚拟礼物。对不同主播的高能用户我们会发送一些定制化礼物。传统的虚拟礼物生产流程是，首先创建一个虚拟人并生成一段统一的 CG，然后对不同主播的人脸进行建模并替换掉虚拟人的面部，这样呈现到用户端的效果就是，他关注的主播在一个酷炫的场景里面做出一连串复杂的动作造型。而现在采用 AI 换脸，我们能够整体替换掉主播人脸建模这一生产环节，并且 AI 换脸所渲染出来的微表情、妆容甚至比建模还具有真实感。完整的个性化礼物制作周期与成本也被极大地压缩，在同样资源条件下，我们能够为用户提供更多更有意思的玩法和内容。

InfoQ：我们知道 B 站一直有在积极探索新技术在多媒体领域的应用，比如 2018 年的蒙版弹幕，那么当前 B 站多媒体实验室的主要研究方向包括哪些？为什么选择将这些方向作为重点？

成超：B 站多媒体实验室的主要研发线可以归纳为以下几个方向：

内容生产：包括端云协同玩法的云端算法服务部分、视频虚拟化玩法的探索；
转码处理：包括点直播视频编解码（BILIAVC/BILIHEVC/BILIAV1/BILIVVC）、BiliVision 画质矩阵、窄带高清智能转码；
内容管理：包括视频结构化、BiliVQA 质量评价体系、数字版权保护。

B 站的视频数据从上传，到转码处理、分发、存储的完整生命周期，都是在多媒体技术部完成的，因而多媒体实验室的主要研发方向也都是基于点直播技术体系的基本算法需求制定的。核心出发点只有三个：体验、增长、成本。体验和成本自不必说，编码与画质是我们最核心的研发方向，也是 B 站作为一个视频平台所应当具备的硬实力。对于增长而言，我们相信视频数据在点直播技术体系中流转的过程也是能够为创作者和用户产生价值的，如通过为恰当的内容引入恰当的元素能够提升创作者收益、为观众带来更新颖的玩法；又例如保障创作者权益从而维护并激发创作热情，这都能为我们生态的建设与持续的增长带来新动能。

B 站多媒体前沿技术探索

InfoQ：您的演讲介绍中提到 B 站建立了一套覆盖云/边/端、点/直播的画质增强链路，能否展开解释一下这套链路是如何运作的，以及给用户体验带来的改进？

成超：BiliVQA 会通过无参质量评价以对视频画质进行评估，根据评估结果驱动 BiliVision 画质矩阵对视频进行增强处理。原始画质较低的内容以去噪增强为主、高播非 4K 内容以 4K 超分为主、动态收益较高的内容以超帧为主、优质高潜内容进行完整的超分+超帧+HDR 处理等。结合无参质量评价与一套严密的运营逻辑，能够让任何一部片源进入它最适合的增强链路。

我们在底层采用了一套名为 BVT 的推理框架完成这种可配置的、自定义的增强流程：它把每一个增强算法节点化，像搭积木一样把各种算法堆叠在一起。

BiliVision 从原子能力层面出发已覆盖了超分、超帧、增强、HDR/调色等主要 AI 画质增强手段；从业务层面出发已覆盖点、直播，满足大规模部署的性能需求；物理上充分利用多阶算力，点播增强主要基于云端 GPU，直播增强放在了更靠近用户的边缘 GPU，而在用户端我们也部署了更适合移动端/PC 的轻量增强算法，以实时提升那些无法被云端增强覆盖到的片源的观看画质。高画质在当下的网络环境中已经是用户刚需，但创作端能力与基础设施的完善还需要时间，在这个 gap 中 AI 画质提升是最优解。

InfoQ：用户对信息流的汲取效率，应该如何理解？传统的视频信息流推荐存在哪些问题和不足？

成超：用户观看视频一般有两种模式，一是通过关注列表，二是通过推荐列表。用户刷推荐瀑布流的过程本质是一个对信息筛选甄别的过程，需要在短时间内仅仅依靠封面、标题、时长、点赞数/观看数等信息判断是否对某些视频感兴趣。如果用户通过推荐列表对某个视频产生兴趣，会形成一次点击的转化。进入视频详情页后，用户可能发现内容本身并不像封面那样有趣而跳出观看，从而影响视频的平均观看时长以及完播率，也浪费了用户的时间。所谓的信息流汲取效率就体现在这里，即用户对真正感兴趣内容（无论兴趣是发生在观看前还是观看后）的有效观看时间除以用户使用 App 的时间。

传统模式有以下不足：

一是部分视频为了快速吸引流量，采用了大量劲爆性、诱导性的封面标题，并且可能伴随视频内容货不对板的标题党问题，导致用户点进去视频后会有一种上当受骗的感觉。传统模式无法提供更充分的信息让用户对潜在感兴趣的内容进行有效甄别，自然导致了信息汲取效率无法提升。
二是 B 站现在全面将主要增长目标从视频播放数转向到视频观看时长，鼓励优质长视频的创作。但客观来讲基于封面+标题的推荐列表是不利于长视频的点击率转化的，其能传达的有限信息显然更适用于概括短视频内容。众所周知 B 站的特色在于广大 UP 主创作的 UGC/PUGV 长视频，这类视频仅仅依靠封面贴片很难传情达意。

InfoQ：关于大语言模型在用户信息流汲取效率方面的应用，您能否分享一些具体的案例或者效果？

成超：正如一部电影在上映前会发布预告片来吸引潜在观影者，预告片对整部电影中的精彩看点做了密集总结并简要梳理了剧情梗概，这样观众就能够通过预告片未看先知电影的大致内容。

上一个问题提到，传统推荐页呈现的信息很难真实且精炼地反映一段长视频的精华。因此，B 站在推荐页卡片中引入了动画封面的模式，即通过一段包含视频内高能看点的 GIF 动画展现视频精彩时刻。高能 GIF 起到的正是类似于电影预告片的作用，这种方式对于点击转化率的提升非常大。

但它的问题也很明显：传统方式生产高能看点 GIF 需要人工打点，效率较低，并且较难处理一些需要结合画面精彩程度、专业性强内容、外文内容进行综合推荐的场景。这个时候大语言模型就具备用武之地了。大语言模型对于整体内容理解、抽象、概括的能力较强，并且涉猎的知识面也具备广度；同时结合多语言的 ASR、OCR，及视觉层面的美学评估、动态评估等技术可以形成一套非常完整、高效的自动化高能看点提取方案。我们将大语言模型生产出来的高能看点 GIF 投入到线上发现，它对转化率的提升比人工打点方式还要高，并且效率较人工有巨大的规模量产优势。

此外，大语言模型具备重构视频拆条技术体系的潜力，基于大语言模型能够更高效更高质量地完成例如视频切片、视频分章节等任务。只有真正理解了内容，才能帮助我们的用户更高效地接收信息。

InfoQ：当前在视频创作者权益保障这方面，行业内存在哪些痛点和挑战？B 站多媒体实验室采取了哪些新的策略或技术手段来解决上述问题？

成超：国内视频行业对于 UGC 版权的保护机制非常薄弱，甚至缺失。盗链搬运、恶意剪辑、洗稿等行为难以避免，打击了创作者尤其是 PUGV 创作者的创作热情，并侵犯了他们的创作权益。行业内目前已经拥有一些版权保护方案，例如视频指纹和 DRM。但这些方案也存在一些问题，视频指纹需要建立庞大的指纹库，每条视频进来后要进行指纹提取和撞库操作，成本较高，且随着内容数量的增长，视频指纹对原始稿件的召回概率也会变低；DRM 虽然能够在源头防止视频内容被记录下来，却也在需要开放二创权限的情况下变成了限制。

多媒体实验室目前采用数字水印的方法来克服以上问题，利用算法在视频画面中嵌入不可见的信息，这些信息包含了版权标识符、视频 ID、时间戳等。通过对视频文件进行解码，如果其包含了水印信息则能被正确解码，通过这些信息我们能够对视频的归属权进行快速鉴别，并能够定位到它在视频平台中具体的源头、时间点位置。它不需要像视频指纹一样建库，且版权信息是跟着码流走的，能够抵抗二次转码、裁剪、贴图等二创过程引入的攻击类型。最重要的是，我们的方案具备大规模落地能力，这大大增强了数字水印系统能够覆盖到的稿件数量。

InfoQ：关于 B 站多媒体实验室前沿技术落地的经验和思考，您能不能选择其中一个关键点提前分享给大家？也可以作为您本次 QCon 大会演讲的一个小预告。

成超：首先感谢大家的关注，前面我们其实已经提前透露了 QCon 北京 2023 上会分享的基于 LLM 的视频拆条方案，以及数字水印系统的部分内容。此外，我们还可以预告一个在为 UP 主尤其是中小 UP 主提升创作收益方向上，正在探索的一项有趣的技术，叫做 VPP（Virtual Product Placement）虚拟广告植入。它能够在视频内容中无感的植入广告等元素，与传统贴片广告不同之处在于，它与视频内容本身是融为一体的，例如将视频中张贴在背景墙上的一张海报替换为平面广告。视觉效果既不违和，又增加了商业曝光，也不影响视频本身内容或者主旨表达的连贯性。期待能在大会上与同行专家们多多交流，谢谢大家。

采访嘉宾介绍：

成超，B 站多媒体实验室算法负责人。毕业于清华大学电子系，从事计算机视觉及 AI 图像领域的研究与应用，是 B 站多媒体实验室算法负责人，面向视频质量体系、AI 智能化生产，及基于机器学习感知编码等业务方向。

QCon 北京 2023 即将在 9 月 3-5 日在北京·富力万丽酒店召开，此次大会策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近 30 个精彩专题。会上，成超老师将围绕《B 站前沿多媒体技术保障用户体验与创作权益》主题做进一步分享，详述 B 站前沿技术探索和实践细节，为参会者带来一手实战经验与深层思考，敬请期待~

现在购票即可享受 9 折优惠，立减 ¥880。咨询购票可联系票务经理 18514549229（微信同手机号）。点击链接即可查看全部专题，期待与各位开发者现场交流。

创作场景

探秘 B 站多媒体实验室：B 站视频背后的 AI 黑科技是如何炼成的？

B 站多媒体实验室的过去和现在

B 站多媒体前沿技术探索

采访嘉宾介绍：