写点什么

基于稠密运动场的高清说话人脸视频生成 | 论文解读

  • 2021-03-19
  • 本文字数:1375 字

    阅读完需:约 5 分钟

基于稠密运动场的高清说话人脸视频生成 | 论文解读

1.概述


输入一张任意的人脸图像和一段任意的语音片段,说话人脸视频合成技术能够合成与输入语音相匹配的音视频同步、表情自然的高清晰说话人脸视频。


目前的说话人脸视频合成技术仍存在很多挑战,其中合成视频的分辨率一直受限于 256x256 大小。有两个主要的原因:第一个原因是目前没有合适的数据集可以用来合成高清说话人脸视频,视频的分辨率一直受到限制。第二个原因是之前的方法使用人脸关键点(landmark)来引导人脸图像的合成,但是人脸关键点容易受到噪声的干扰,而且对于高分辨率图像来说,人脸关键点太稀疏了,提供的人脸表情信息相对较少。


针对以上问题,网易伏羲虚拟人组收集一个高清音视频数据集,由 1080P 或 720P 的说话人脸视频组成,比之前的数据集更加清晰,并包含有更多的人物 ID。其次,论文利用三维形变人脸(3DMM)中的人脸先验信息,生成表情更加丰富的稠密运动场,并使用稠密运动场作为输入引导人脸图像生成,提高了人脸视频合成的分辨率。该工作已被 CVPR2021 接收。


2.方案概述


本文的算法框架如图 1 所示,文章利用三维形变人脸模型将整个算法框架分为动画参数合成模块(图一中的紫色部分 audio-to-animation)和人脸视频合成模块(图一中的黄色部分 animation-to-video)两个部分。动画参数模块的主体为一个特定风格动画生成器(style-specific animation generator),该生成器的输入为语音和人脸的特征,其中人脸的特征为预训练的 VGGface 提取到的人脸的特征。输出为人脸动画参数,包括嘴唇动画参数、眉眼动画参数以及头部运动动画参数。


图1:文章的算法框架


人脸视频合成模块的主体包括近似稠密运动场(appro dense flow)的合成和基于稠密运动场的视频生成器(flow-guided video generator)两个模块,因为利用 3dmm 只能保证内脸的运动场是准确的,脸之外(包括头发、上半身和背景)的运动场是不知道的,文章近似的认为在人脸说话的过程中,头发是跟随着其最近的脸的边缘一起运动,上半身是跟随着脸的整体一起运动,从而通过插值得到最终的近似稠密运动场。具体的计算过程为:首先从输入的人脸图像中计算人脸形状参数,人脸形状参数和动画参数模块合成的表情参数一起输入到 3DMM 中,计算得到近似稠密运动场。


基于稠密运动场的视频生成器的主体为一个深度神经网络,该生成器的输入为输入人脸图像和近似稠密运动场,输出为合成的人脸视频帧。


3.实验结果


图2:论文的实验结果


图 2 展示了论文的实验结果,图 2 中最左侧为输入的驱动语音,依次向右分别为输入的人脸图像以及算法生成的视频序列。同时文章也做了相关的定性和定量实验,在定量实验比较中,文章使用 PSNR、SSIM 和 CPBD 作为定量评价指标,实验结果如表 1 所示。文章提出的方法在定量比较中比其他对比方法要好。同时文章也通过主观测试做了定性评价,实验结果如表 2 所示。结果表明在主观测试中,该论文提出的方法得到了更高的分数。


表1:论文中的定量比较结果


表2:论文中的定性比较结果


4.总结和展望


本文首先收集了一个大的非实验室环境的高清音视频数据集,该数据集比之前的非实验室环境数据集有更高的视频分辨率,比之前的实验室环境数据集包含有更多的人物 ID 和句子。本文同时也提出了一种基于稠密运动场的高清人脸合成框架,该框架包含有一个特定风格动画生成器和一个基于稠密运动场的视频生成器, 动画生成器可以生成具有特定说话风格的动画参数。视频生成器可以将动画参数进一步转化成高清说话人脸。同时本文的方法仍旧存在很多局限性,如头部的运动不够大等,未来这些局限也会被不断地改进。

2021-03-19 11:592155

评论 1 条评论

发布
用户头像
你好请问有论文和代码链接吗
2021-03-27 13:40
回复
没有更多了
发现更多内容

前端食堂技术周刊第 38 期:Remix v1.5.0、Babel v7.18.0、前端部署十五章、Tree Shaking 问题排查指南、一文搞懂前端技术发展

童欧巴

前端 Remix 前端部署

企业引流和留存,“App+小程序”是较优技术策略

Speedoooo

微信小程序 APP开发 小程序容器 小程序转app

一文学完Linux常用命令

编程攻略

Linux

为什么校招面试中“线程与进程的区别”老是被问到?我该如何回答?

宇宙之一粟

线程 进程 5月月更

使用 Provider 实现 Flutter 不相关页面状态数据共享

岛上码农

flutter ios 安卓开发 跨平台开发 5月月更

第一梯队,增速第一

天翼云开发者社区

天翼云通过DCMM 4级认证

天翼云开发者社区

人人皆为开发者?不可错过的低代码发展新趋势

云智慧AIOps社区

大前端 低代码 数据可视化

创业、女性、数字化:后COVID-19世界的复苏“铁三角”

脑极体

【刷题第16天】数组中出现次数超过一半的数字

白日梦

5月月更

混合办公首选轻薄本,华为MateBook的“三重变身”改变了什么?

脑极体

在星云科技,我们使用 Zadig 实现多环境并行发布,上千次周部署

Zadig

DevOps 云原生 CI/CD 软件交付

linux之tar使用技巧

入门小站

Linux

Apache ShenYu 网关正式支持 Dubbo3 服务代理

阿里巴巴中间件

阿里云 开源 微服务 云原生 dubbo

10分钟,将微信小程序转换成App

Speedoooo

微信小程序 移动开发 小程序容器 小程序转app

IET 试水SiFL中文项目 为中国工程师“走出去”创造宝贵机遇

E科讯

我们为什么选择使用分布式持续交付新星 Zadig ?

Zadig

DevOps 云原生 CI/CD 软件交付

Apache SeaTunnel(Incubating)与计算引擎的解耦之道,重构API我们做了些什么

Apache SeaTunnel

Apache 大数据 开源 DolphinScheduler workflow

在线火星文转简体中文工具

入门小站

工具

多款顶级好用的 Vue 表单设计器测评推荐,可拖拽生成表单

蒋川

Vue Element 组件 表单设计 Ant Design

十、云原生网络架构

穿过生命散发芬芳

网络架构 5月月更

使用postMessage对iframe进行跨域数据传输

空城机

iframe postMessage 5月月更

天翼云成为“云优化能力提升计划”首批成员单位!

天翼云开发者社区

“双碳”大局中再看业务合同电子化

鲸品堂

节能 提效降本 双碳

英伟达周锡健:设计到数字营销的最后一公里

阿里云弹性计算

vr XR 视觉计算

Markdown语法简介

工程师日月

markdown语法 5月月更

Hoo研究院|区块链简报 20220523期

区块链前沿News

#区块链# Hoo 热点

天翼云4.0创新成果发布!科技创新赋能安全普惠

天翼云开发者社区

Java Core「3」volatile 关键字

Samson

学习笔记 5月月更 Java core

做了5年开源项目,我总结了以下提PR经验!

OpenHarmony开发者

OpenHarmony 开源生态

小程序和App同时拥有?两者兼得的一种技术方案

Speedoooo

微信小程序 APP开发 小程序容器 小程序转app

基于稠密运动场的高清说话人脸视频生成 | 论文解读_AI&大模型_网易伏羲_InfoQ精选文章