写点什么

基于稠密运动场的高清说话人脸视频生成 | 论文解读

  • 2021-03-19
  • 本文字数:1375 字

    阅读完需:约 5 分钟

基于稠密运动场的高清说话人脸视频生成 | 论文解读

1.概述


输入一张任意的人脸图像和一段任意的语音片段,说话人脸视频合成技术能够合成与输入语音相匹配的音视频同步、表情自然的高清晰说话人脸视频。


目前的说话人脸视频合成技术仍存在很多挑战,其中合成视频的分辨率一直受限于 256x256 大小。有两个主要的原因:第一个原因是目前没有合适的数据集可以用来合成高清说话人脸视频,视频的分辨率一直受到限制。第二个原因是之前的方法使用人脸关键点(landmark)来引导人脸图像的合成,但是人脸关键点容易受到噪声的干扰,而且对于高分辨率图像来说,人脸关键点太稀疏了,提供的人脸表情信息相对较少。


针对以上问题,网易伏羲虚拟人组收集一个高清音视频数据集,由 1080P 或 720P 的说话人脸视频组成,比之前的数据集更加清晰,并包含有更多的人物 ID。其次,论文利用三维形变人脸(3DMM)中的人脸先验信息,生成表情更加丰富的稠密运动场,并使用稠密运动场作为输入引导人脸图像生成,提高了人脸视频合成的分辨率。该工作已被 CVPR2021 接收。


2.方案概述


本文的算法框架如图 1 所示,文章利用三维形变人脸模型将整个算法框架分为动画参数合成模块(图一中的紫色部分 audio-to-animation)和人脸视频合成模块(图一中的黄色部分 animation-to-video)两个部分。动画参数模块的主体为一个特定风格动画生成器(style-specific animation generator),该生成器的输入为语音和人脸的特征,其中人脸的特征为预训练的 VGGface 提取到的人脸的特征。输出为人脸动画参数,包括嘴唇动画参数、眉眼动画参数以及头部运动动画参数。


图1:文章的算法框架


人脸视频合成模块的主体包括近似稠密运动场(appro dense flow)的合成和基于稠密运动场的视频生成器(flow-guided video generator)两个模块,因为利用 3dmm 只能保证内脸的运动场是准确的,脸之外(包括头发、上半身和背景)的运动场是不知道的,文章近似的认为在人脸说话的过程中,头发是跟随着其最近的脸的边缘一起运动,上半身是跟随着脸的整体一起运动,从而通过插值得到最终的近似稠密运动场。具体的计算过程为:首先从输入的人脸图像中计算人脸形状参数,人脸形状参数和动画参数模块合成的表情参数一起输入到 3DMM 中,计算得到近似稠密运动场。


基于稠密运动场的视频生成器的主体为一个深度神经网络,该生成器的输入为输入人脸图像和近似稠密运动场,输出为合成的人脸视频帧。


3.实验结果


图2:论文的实验结果


图 2 展示了论文的实验结果,图 2 中最左侧为输入的驱动语音,依次向右分别为输入的人脸图像以及算法生成的视频序列。同时文章也做了相关的定性和定量实验,在定量实验比较中,文章使用 PSNR、SSIM 和 CPBD 作为定量评价指标,实验结果如表 1 所示。文章提出的方法在定量比较中比其他对比方法要好。同时文章也通过主观测试做了定性评价,实验结果如表 2 所示。结果表明在主观测试中,该论文提出的方法得到了更高的分数。


表1:论文中的定量比较结果


表2:论文中的定性比较结果


4.总结和展望


本文首先收集了一个大的非实验室环境的高清音视频数据集,该数据集比之前的非实验室环境数据集有更高的视频分辨率,比之前的实验室环境数据集包含有更多的人物 ID 和句子。本文同时也提出了一种基于稠密运动场的高清人脸合成框架,该框架包含有一个特定风格动画生成器和一个基于稠密运动场的视频生成器, 动画生成器可以生成具有特定说话风格的动画参数。视频生成器可以将动画参数进一步转化成高清说话人脸。同时本文的方法仍旧存在很多局限性,如头部的运动不够大等,未来这些局限也会被不断地改进。

2021-03-19 11:592096

评论 1 条评论

发布
用户头像
你好请问有论文和代码链接吗
2021-03-27 13:40
回复
没有更多了
发现更多内容

2023企业数智化财务创新峰会 · 成都站圆满举办!

用友BIP

智能会计 价值财务

阿里蚂蚁金服4面面经(已拿Offer)附答案!突如其来的意外之喜

Java你猿哥

Java 算法 ssm 并发 面经

宝武中南钢铁借助飞桨让钢筋超限监控有了“火眼金睛”

飞桨PaddlePaddle

百度飞桨 图像分割 PaddleSeg

AIGC背后的技术分析 | K均值聚类算法Python实现

TiAmo

Python AIGC K值算法

美团二面惜败,我的凉经复盘(附学习笔记+面试整理+进阶书籍)

Java你猿哥

MySQL redis Spring Boot 并发编程 JVm虚拟机

华为Atlas 200I DK A2开箱!

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 5 月 PK 榜

Midjourney|文心一格prompt教程[Text Prompt(上篇)]:品牌log、App、徽章、插画、头像场景生成,各种风格选择:科技风、运动风

汀丶人工智能

人工智能 AI绘画 MidJourney 文生图 prompt learning

eKuiper 源码解读:从一条 SQL 到流处理任务的旅程

Java你猿哥

Go golang sql ssm eKuiper

开源赋能 普惠未来|TencentOS Tiny诚邀您参与2023开放原子全球开源峰会

开放原子开源基金会

用低代码开发平台高效打造仓储管理数字生态

力软低代码开发平台

Spring中@NotEmpty、@NotBlank、@NotNull 区别和使用

Java你猿哥

Java spring Spring Boot string ssm

OpenFeign 如何做到 "隔空取物" ?

Java你猿哥

Java Spring Cloud ssm netflix openfeign

人工智能与大模型主题师资培训落地,飞桨持续赋能AI人才培养

飞桨PaddlePaddle

paddle 百度飞桨

什么是Auto-GPT?如何使用、部署Auto-GPT?

炜娓道来程序人生

人工智能 AI ChatGPT

智聚北京!相约全球人力资源数智化峰会

用友BIP

人力资源

骚操作:使用无头浏览器模拟用户操作进行截图~

王中阳Go

Go 高效工作 自动化 无头浏览器 自动截图

如何快速使用Redis可视化工具NineData?

数据库小组

数据库 Redis 可视化工具 Redis图形化工具 redis图形化界面 数据库可视化工具

二面蚂蚁金服(交叉面),已拿Offer,Java岗定级阿里P6

Java你猿哥

Java ssm 并发 java面试 面经

阿里云微服务引擎 MSE 全新升级,实用能力更普惠,最高降幅 75%

阿里巴巴云原生

阿里云 云原生 微服务引擎

实现园林梦想尽在GardenPlanner 激活~

真大的脸盆

Mac Mac 软件 园林设计

用友BIP新零售产品发布,与零售企业共创新未来

用友BIP

新零售 数字营销

企业级体验:未来体验管理的价值与趋势

博文视点Broadview

周家恩:GaussDB(for MySQL)云原生数据库技术演进和挑战

NineData

MySQL 数据库 GaussDB GaussDB(for MySQL) 华为自研数据库

Springboot 一行代码实现文件上传 20个平台!少写代码到极致

Java你猿哥

Java spring Spring Boot ssm

低代码赋能生物药企数字化

明道云

三本菜鸟美团二面被源码暴锤,46天狂学Spring,终入阿里

Java你猿哥

面试 Spring Boot sprnig spring aop spring ioc

OpenHarmony Docker移植实践

OpenHarmony开发者

OpenHarmony

开源赋能 普惠未来|百度寄语2023开放原子全球开源峰会

开放原子开源基金会

腾讯Java大牛整理推荐的(Spring AOP/IOC思维导图源码笔记)

Java spring aop ioc

基于稠密运动场的高清说话人脸视频生成 | 论文解读_AI&大模型_网易伏羲_InfoQ精选文章