如何 0 成本启动全员 AI 技能提升?戳> 了解详情
写点什么

基于 DiT 大模型与字体级分割的视频字幕无痕擦除方案,助力短剧出海

孙康、丁杨

  • 2025-08-13
    北京
  • 本文字数:2879 字

    阅读完需:约 9 分钟

大小:1.44M时长:08:21
基于 DiT 大模型与字体级分割的视频字幕无痕擦除方案,助力短剧出海

当短剧出海、跨境电商等新兴领域打造全球化内容时,面临着一个棘手的基础问题——原始视频的中文字幕。原始字幕对于海外观众来说,不仅是无效信息,还严重干扰观看体验。传统方案——直接添加对应外语字幕会导致画面杂乱,而使用马赛克或基于 GAN 的字幕擦除补全方案会导致画面模糊、帧间闪烁,都无法彻底解决这一挑战,使得优质内容的出海之路障碍重重。


如今,火山引擎视频点播带来了破局之道——应用基于 DiT 大模型与字体级分割的无痕字幕擦除功能。该方案以两大核心技术突破和强大工程能力,重新定义字幕擦除标准,不仅可以实现全片真实自然的“无痕擦除”,更灵活支持多字幕框、指定时间段的精准擦除。


先通过一段视频体验视频字幕无痕擦除效果:

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    一、两大技术突破:从"能用"到"优质"的代际跨越


    1. 基于 DiT 的视频字幕擦除模型:视频修复的“大模型革新”


    视频擦除修复(Video Inpainting)技术旨在移除视频字幕区域并修复背景,需确保修复区域在像素空间和时序维度上均保持稳定与一致。尽管当前主流学术方法(如 ProPainter、DiffuEraser)较早期技术已有显著进步,但在字幕擦除场景下仍面临关键挑战:


    • 未知像素区域修复伪影与幻觉显著:基于 GAN 或 UNet 架构的扩散模型对视频中未出现的像素区域进行“脑补”时,常产生不真实的伪影或内容扭曲(幻觉),且时间稳定性差。生成内容的真实性和时序稳定性不足。

    • 已知像素区域修复模糊问题突出:传统方案依赖光流、前后向传播等帧间特征融合手段,本质为平滑处理,易导致修复区域模糊。

    • 辅助先验依赖制约性能:需输入光流(Optical Flow)、文本提示(Text Prompt)等先验信息,不仅增加计算开销,且光流精度直接限制修复上限。

    • 笔画级精细修复能力薄弱:常规训练基于随机掩码(Random Mask),对字幕这类需要像素级精准处理的场景适配性不足,导致笔画边缘修复效果粗糙。


    针对上述问题,我们设计了基于 DiT 的视频字幕擦除修复创新型模型架构。其核心点有:


    1.1 强鲁棒性预训练基底


    本模型基于 DiT 架构,在大规模数据上进行了预训练,对二次元、现代、古装、奇幻等多种风格的短剧内容展现出强大的泛化能力。尤其在图像未知区域的生成上,其内容的合理性与真实性大幅领先于传统方案。


    1.2 摆脱辅助先验依赖


    • Transformer 自注意力机制驱动时序连贯:与传统的光流计算与特征前后向传播不同,火山引擎视频点播通过 Transformer 捕捉视频序列的长距离时间依赖,直接学习帧与帧之间的时间依赖信息,使得生成的相邻帧在内容、动作、物体位置等方面保持了合理的连贯性。

    • MMDiT 架构轻量化改造:移除文生视频任务中必需的 Text Prompt 与 Cross-Attention 模块,并通过大量实验验证,在字幕修复场景中,该调整既不降低生成质量,又能大幅减少计算量,避免因文本描述不准确导致的内容幻觉问题。


    轻量化主体架构如下:


    基于 DiT 的视频擦除修复创新型模型架构


    1.3 两阶段训练策略提升鲁棒性与修复精细度


    由于原始视频生成模型不具备修复能力,且模型已移除 Cross-Attention 模块,我们采用两阶段渐进式训练框架,通过分阶段优化实现性能提升:


    阶段

    训练目标

    数据来源

    数据量

    mask 形式

    分辨率

    First

    提供基础修复补全能力,保证鲁棒性

    WebVid-10M

    2000  hours

    Random  mask

    360P

    Second

    适配短剧等垂类视频以及字体级 mask,提升修复精细度

    短剧、短视频

    250  hours

    Font mask

    720P


    基于 DiT 架构的模型以大模型底层能力重构视频修复逻辑,实现“像素级无痕”修复,无论是对手、脸等人体部位,还是衣物纹理、栅格等复杂结构,均能做到无痕擦除与修复,画面整体 PSNR 达 38 以上,推动视频编辑从传统算法迈向大模型驱动的智能系统。


    • 擦除在首饰区域上的字幕,完美还原首饰的纹理,在动态场景下表现依然稳定


    • 擦除覆盖在衣服上的字幕,呈现与背景一致的质感与图案


    • 擦除覆盖在衣服上的字幕,裙子和方巾的图案贴近原片


    2. 字体级分割模型:从“粗放擦除”到“像素级修复”


    字幕擦除前需要精准定位目标区域。通常来说,擦除区域越大,修复范围越大,越容易产生伪影、模糊等问题,实现无痕修复的难度随之显著增加。当前主流技术多依赖 OCR 检测框进行整体覆盖(如下图),但这种方式存在明显局限:一方面,它忽略了字体间距与字符内部空隙,导致不必要的修复面积扩大,既增加技术难度与耗时;另一方面,字体空隙中关键的指导性像素信息被丢失,严重制约了修复效果的上限。


    基于 OCR 检测框进行整体擦除的分割方案


    基于 OCR 检测框进行整体擦除的分割方案


    要实现字体级的精细分割仍面临诸多挑战,其中最突出的两点在于:


    • 字体样式的复杂性:视频字幕可能包含宋体、黑体、手写体等多字体混合排版,同时存在阴影、描边、渐变等复杂样式,还可能带有滚动、淡入淡出等动态效果,或涉及中英双语叠加等多语言混排场景。

    • 背景干扰问题:部分字幕与背景颜色、纹理高度相似,例如白色字幕叠加在浅色背景上,或存在半透明效果,进一步增加分割难度。


    针对上述挑战,我们从数据构建模型架构两方面进行了针对性设计:


    • 数据层面:为提升分割算法的鲁棒性,确保对不同样式字体的精细处理,我们收集了 2000+常见字体库,借助像素级 2D 图形渲染库 Skia 生成了 20 万+训练数据,全面覆盖中英双语、多字体类型及阴影描边等复杂样式。

    • 模型架构:考虑到字体领域的特殊性,例如部分字体笔画纤细、结构稀疏等,我们设计了 CNN 与 Transformer 融合的分割模型。其中 CNN 部分借鉴了 OCR 检测网络的结构,并采用相关预训练模型进行初始化,以增强对文字特征的捕捉能力。  


    字体级分割模型架构


    通过上述技术手段,字体级分割模型可助力擦除补全模型实现对单个字符的独立背景填充,有效避免了传统块填充导致的背景模糊或纹理重复问题。该技术以像素级精度平衡了字幕移除与背景保护,推动视频字幕擦除从“能用”迈向“优质”阶段。


    • 鞋部上的字幕可通过精细分割,保留图案轮廓的完整性,避免修复后出现“马赛克”


    • 衣服配饰上的精美花纹可通过精细分割,保留更多参考像素,提升后续的修复质量


    二、工程实力与全球化方案:高效驱动多语言内容流转


    在工程层面,火山引擎多媒体实验室联合工程团队构建了兼顾精度与效率的技术体系:


    • 万集测试,稳定如磐:经过超万集视频数据集验证,擦除任务成功率 100%,支持跨境电商批量处理千支商品视频、影视公司高效修复百集短剧,全程稳定;

    • 分镜处理+集群高并发,速度飞跃:创新视频分镜技术,结合服务器集群分布式计算,视频越长处理效率提升越显著——1 小时视频处理耗时较传统方案压缩 50%以上,彻底终结 “漫长等待”。


    在多语言支持上,方案突破了中英文限制,支持处理多个小语种字幕擦除,既能助力中国短剧出海移除中文字幕,也能为海外视频进入国内提供小语种字幕擦除服务,双向打通全球内容流转。


    火山引擎视频点播形成了“擦除-翻译-口型同步”的一站式闭环:集成英文、日文、西班牙语等多种语言翻译能力,针对短剧场景优化俚语与文化语境适配,结合语音韵律与面部动作分析技术,实现翻译字幕与人物口型的动态对齐,较传统人工流程效率提升 20 倍,一键完成从原视频到多语言本地化内容的全流程处理。


    三、尾话


    当字幕不再是跨语言传播的障碍,当修复后的画面以卓越品质呈现,火山引擎正用技术消弭视觉隔阂,让每一个精心打磨的镜头,都能在全球观众眼中绽放原有的光彩,让出海内容创作更简单,传播更高效。


    立即访问 [火山引擎视频点播官网],感受“像素级无痕”的震撼效果。


    火山引擎视频点播官网:

    https://console.volcengine.com/vod/

    2025-08-13 19:035134

    评论

    发布
    暂无评论

    洞见科技牵头的全球「首个」IEEE隐私计算「互联互通」国际标准正式启动

    洞见科技

    隐私计算 IEEE 互联互通

    关河因果将机器学习融合逻辑规则,突破黑盒壁垒

    6979阿强

    数据分析 大数据分析 关河因果 关河智图 因果分析

    预约直播|机器学习PAI:AI加速计划

    阿里云大数据AI技术

    AI 模型开发训练

    Fegin的解析

    卢卡多多

    OpenFegin 6月月更

    机器学习实践:基于支持向量机算法对鸢尾花进行分类

    华为云开发者联盟

    人工智能 模型 华为云

    详解openGauss多线程架构启动过程

    华为云开发者联盟

    数据库 后端

    数字经济加速落地,能为中小企业带来什么?

    脑极体

    web技术分享| 【高德地图】实现自定义的轨迹回放

    anyRTC开发者

    前端 Web 音视频 地图 轨迹回放

    企业级软件开发新模式:低代码

    力软低代码开发平台

    如何给研发团队分钱?

    菜根老谭

    研发体系 绩效管理 激励体系

    一张图解码 OpenCloudOS 社区开放日

    腾源会

    数据科学家是不是特有前途的职业?

    袁袁袁袁满

    物联网开源开发平台 Shifu 开放内测!第一版技术文档发布

    亚马逊云科技 (Amazon Web Services)

    物联网 Tech 专栏

    支持在 Kubernetes 运行,添加多种连接器,SeaTunnel 2.1.2 版本正式发布!

    Apache SeaTunnel

    Apache 大数据 开源 workflow

    如何在物联网低代码平台中使用数据字典功能?

    AIRIOT

    物联网 低代码平台

    短视频源码开发,优质的短视频源码需要做好哪几点?

    开源直播系统源码

    软件开发 短视频源码

    华为云招募工业智能领域合作伙伴,强力扶持+商业变现

    华为云开发者联盟

    云计算 华为云 工业数据智能

    如何低成本快速搭建企业知识库?

    小炮

    DAP事实表加工汇总功能应用说明

    agileai

    数据分析 数据集成 数仓建设 基础事实表 汇总事实表

    网页制作存在的一些难点

    源字节1号

    万字攻略,详解腾讯面试(T1-T9)核心技术点,面试题整理

    C++后台开发

    后台开发 面试题 Linux服务器开发 C++后台开发 腾讯面试

    再读凤凰架构-分布式架构更清晰

    AiDaddy

    分布式 凤凰架构

    博睿数据出席阿里云可观测技术峰会,数字体验管理驱动可持续发展

    博睿数据

    可观测性 智能运维 博睿数据 数字体验管理

    51万奖池邀你参战!第二届阿里云ECS CloudBuild开发者大赛来袭

    阿里云弹性计算

    阿里云 分布式缓存 开发者大赛 加密计算 大数据加速

    如何做好研发效能度量及指标选取

    思码逸研发效能

    研发效能

    [译]关于 Python 中的数字你可能不知道的 3 件事

    宇宙之一粟

    Python 6月月更

    5分钟快速上线Web应用和API(Vercel)

    Liam

    前端 前端开发 开发 Postman API

    年中大促 | 集成无忧,超值套餐 6 折起

    融云 RongCloud

    视频爆炸时代,谁在支撑视频生态网高速运行?

    郑州埃文科技

    flow IP地址 NetFlow

    活动预约|阿里云如何搭建云服务 SRE 与可观测体系

    阿里巴巴云原生

    阿里云 云原生 可观测 峰会

    学习 | 写论文看这一篇就够了~

    写程序的小王叔叔

    学习笔记 论文阅读 论文写作 6月月更

    基于 DiT 大模型与字体级分割的视频字幕无痕擦除方案,助力短剧出海_生成式 AI_InfoQ精选文章