【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

基于稠密运动场的高清说话人脸视频生成 | 论文解读

  • 2021-03-19
  • 本文字数:1375 字

    阅读完需:约 5 分钟

基于稠密运动场的高清说话人脸视频生成 | 论文解读

1.概述


输入一张任意的人脸图像和一段任意的语音片段,说话人脸视频合成技术能够合成与输入语音相匹配的音视频同步、表情自然的高清晰说话人脸视频。


目前的说话人脸视频合成技术仍存在很多挑战,其中合成视频的分辨率一直受限于 256x256 大小。有两个主要的原因:第一个原因是目前没有合适的数据集可以用来合成高清说话人脸视频,视频的分辨率一直受到限制。第二个原因是之前的方法使用人脸关键点(landmark)来引导人脸图像的合成,但是人脸关键点容易受到噪声的干扰,而且对于高分辨率图像来说,人脸关键点太稀疏了,提供的人脸表情信息相对较少。


针对以上问题,网易伏羲虚拟人组收集一个高清音视频数据集,由 1080P 或 720P 的说话人脸视频组成,比之前的数据集更加清晰,并包含有更多的人物 ID。其次,论文利用三维形变人脸(3DMM)中的人脸先验信息,生成表情更加丰富的稠密运动场,并使用稠密运动场作为输入引导人脸图像生成,提高了人脸视频合成的分辨率。该工作已被 CVPR2021 接收。


2.方案概述


本文的算法框架如图 1 所示,文章利用三维形变人脸模型将整个算法框架分为动画参数合成模块(图一中的紫色部分 audio-to-animation)和人脸视频合成模块(图一中的黄色部分 animation-to-video)两个部分。动画参数模块的主体为一个特定风格动画生成器(style-specific animation generator),该生成器的输入为语音和人脸的特征,其中人脸的特征为预训练的 VGGface 提取到的人脸的特征。输出为人脸动画参数,包括嘴唇动画参数、眉眼动画参数以及头部运动动画参数。


图1:文章的算法框架


人脸视频合成模块的主体包括近似稠密运动场(appro dense flow)的合成和基于稠密运动场的视频生成器(flow-guided video generator)两个模块,因为利用 3dmm 只能保证内脸的运动场是准确的,脸之外(包括头发、上半身和背景)的运动场是不知道的,文章近似的认为在人脸说话的过程中,头发是跟随着其最近的脸的边缘一起运动,上半身是跟随着脸的整体一起运动,从而通过插值得到最终的近似稠密运动场。具体的计算过程为:首先从输入的人脸图像中计算人脸形状参数,人脸形状参数和动画参数模块合成的表情参数一起输入到 3DMM 中,计算得到近似稠密运动场。


基于稠密运动场的视频生成器的主体为一个深度神经网络,该生成器的输入为输入人脸图像和近似稠密运动场,输出为合成的人脸视频帧。


3.实验结果


图2:论文的实验结果


图 2 展示了论文的实验结果,图 2 中最左侧为输入的驱动语音,依次向右分别为输入的人脸图像以及算法生成的视频序列。同时文章也做了相关的定性和定量实验,在定量实验比较中,文章使用 PSNR、SSIM 和 CPBD 作为定量评价指标,实验结果如表 1 所示。文章提出的方法在定量比较中比其他对比方法要好。同时文章也通过主观测试做了定性评价,实验结果如表 2 所示。结果表明在主观测试中,该论文提出的方法得到了更高的分数。


表1:论文中的定量比较结果


表2:论文中的定性比较结果


4.总结和展望


本文首先收集了一个大的非实验室环境的高清音视频数据集,该数据集比之前的非实验室环境数据集有更高的视频分辨率,比之前的实验室环境数据集包含有更多的人物 ID 和句子。本文同时也提出了一种基于稠密运动场的高清人脸合成框架,该框架包含有一个特定风格动画生成器和一个基于稠密运动场的视频生成器, 动画生成器可以生成具有特定说话风格的动画参数。视频生成器可以将动画参数进一步转化成高清说话人脸。同时本文的方法仍旧存在很多局限性,如头部的运动不够大等,未来这些局限也会被不断地改进。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-03-19 11:591799

评论 1 条评论

发布
用户头像
你好请问有论文和代码链接吗
2021-03-27 13:40
回复
没有更多了
发现更多内容

Rust从0到1-并发-可扩展性

rust 并发 sync Concurrency send

360 政企安全集团基于 Flink 的 PB 级数据即席查询实践

Apache Flink

flink

基于RNN和CTC的语音识别模型,探索语境偏移解决之道

华为云开发者联盟

语音 RNN ASR CTC 语音识别模型

基于用户角色的数据库智能监控系统应用场景分析

华为云开发者联盟

数据库 架构 监控 用户 智能监控

什么是MircoPython?

华为云开发者联盟

Python 编程语言 物联网 MicroPython 嵌入式应用

获客达人app系统开发

获客I3O6O643Z97

大数据

Linux - 零拷贝

小方

Linux zero copy

深度解析 Lucene 轻量级全文索引实现原理

vivo互联网技术

lucene 检索 索引技术

Pandas高级教程之:稀疏数据结构

程序那些事

Python 数据分析 pandas 程序那些事 稀疏矩阵

HCIA-HarmonyOS Application Developer 应用方向认证资料

爱吃土豆丝的打工人

HarmonyOS HCIA认证 应用开发方向

华为云MVP周峥:气象预报是个技术活,大数据、超算、AI,缺一不可

华为云开发者联盟

人工智能 大数据 环保 气象 超算

赋能中小银行数字营销:索信达助力深圳农商行建设标签系统

索信达控股

金融 银行 用户标签

【设计模式】工厂模式

Andy阿辉

编程 程序员 设计模式 23种设计模式

Vue进阶(十六):vue项目结构启动原理详解

No Silver Bullet

Vue 7月日更 启动原理

网易传媒数据指标体系建设实践

网易数帆

大数据 数据仓库 指标体系

重磅来袭!全网最具深度的三次握手、四次挥手讲解

欢喜学安卓

android 程序员 面试 移动开发

Vue进阶(六十二):理解$nextTick()

No Silver Bullet

Vue 7月日更 nextTick

抖音霸屏系统软件开发

获客I3O6O643Z97

大数据 抖音霸屏

Go语言,你必须掌握的--高效并发模式!

微客鸟窝

Go 语言

bash: docker-compose: 未找到命令

阿呆

Docker-compose

智慧能源:清洁低碳环保新能源,沙漠光伏与光热发电站 3D 可视化

一只数据鲸鱼

数据可视化 智慧能源 光伏发电 沙漠光伏

PNEdit 百科

Geek_6bf591

vim emacs vscode UltraEdit 文本编辑器

重磅消息!写给安卓软件工程师的3条建议

欢喜学安卓

android 程序员 面试 移动开发

Python OpenCV 图像处理再循环,第一阶段复盘

梦想橡皮擦

7月日更

一文搞懂一致性hash的原理和实现

万俊峰Kevin

微服务 hash Go 语言

PNFile 百科

Geek_6bf591

【设计模式】抽象工厂

Andy阿辉

编程 程序员 设计模式 23种设计模式 编程思想

【Flutter 专题】81 图解 Android Native 集成 FlutterBoost 小尝试 (三)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 7月日更

【LeetCode】滑动窗口的最大值Java题解

Albert

算法 LeetCode 7月日更

架构实战营 模块二作业

脉醉

#架构实战营

PNFile入门指南

Geek_6bf591

vim emacs vscode UltraEdit 文本编辑器

基于稠密运动场的高清说话人脸视频生成 | 论文解读_AI&大模型_网易伏羲_InfoQ精选文章