基于稠密运动场的高清说话人脸视频生成 | 论文解读_AI&大模型_网易伏羲

【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情 



 写点什么

1.概述

输入一张任意的人脸图像和一段任意的语音片段，说话人脸视频合成技术能够合成与输入语音相匹配的音视频同步、表情自然的高清晰说话人脸视频。

目前的说话人脸视频合成技术仍存在很多挑战，其中合成视频的分辨率一直受限于 256x256 大小。有两个主要的原因：第一个原因是目前没有合适的数据集可以用来合成高清说话人脸视频，视频的分辨率一直受到限制。第二个原因是之前的方法使用人脸关键点（landmark）来引导人脸图像的合成，但是人脸关键点容易受到噪声的干扰，而且对于高分辨率图像来说，人脸关键点太稀疏了，提供的人脸表情信息相对较少。

针对以上问题，网易伏羲虚拟人组收集一个高清音视频数据集，由 1080P 或 720P 的说话人脸视频组成，比之前的数据集更加清晰，并包含有更多的人物 ID。其次，论文利用三维形变人脸（3DMM）中的人脸先验信息，生成表情更加丰富的稠密运动场，并使用稠密运动场作为输入引导人脸图像生成，提高了人脸视频合成的分辨率。该工作已被 CVPR2021 接收。

2.方案概述

本文的算法框架如图 1 所示，文章利用三维形变人脸模型将整个算法框架分为动画参数合成模块（图一中的紫色部分 audio-to-animation）和人脸视频合成模块（图一中的黄色部分 animation-to-video）两个部分。动画参数模块的主体为一个特定风格动画生成器（style-specific animation generator），该生成器的输入为语音和人脸的特征，其中人脸的特征为预训练的 VGGface 提取到的人脸的特征。输出为人脸动画参数，包括嘴唇动画参数、眉眼动画参数以及头部运动动画参数。

图1：文章的算法框架

人脸视频合成模块的主体包括近似稠密运动场（appro dense flow）的合成和基于稠密运动场的视频生成器（flow-guided video generator）两个模块，因为利用 3dmm 只能保证内脸的运动场是准确的，脸之外（包括头发、上半身和背景）的运动场是不知道的，文章近似的认为在人脸说话的过程中，头发是跟随着其最近的脸的边缘一起运动，上半身是跟随着脸的整体一起运动，从而通过插值得到最终的近似稠密运动场。具体的计算过程为：首先从输入的人脸图像中计算人脸形状参数，人脸形状参数和动画参数模块合成的表情参数一起输入到 3DMM 中，计算得到近似稠密运动场。

基于稠密运动场的视频生成器的主体为一个深度神经网络，该生成器的输入为输入人脸图像和近似稠密运动场，输出为合成的人脸视频帧。

3.实验结果

图2：论文的实验结果

图 2 展示了论文的实验结果，图 2 中最左侧为输入的驱动语音，依次向右分别为输入的人脸图像以及算法生成的视频序列。同时文章也做了相关的定性和定量实验，在定量实验比较中，文章使用 PSNR、SSIM 和 CPBD 作为定量评价指标，实验结果如表 1 所示。文章提出的方法在定量比较中比其他对比方法要好。同时文章也通过主观测试做了定性评价，实验结果如表 2 所示。结果表明在主观测试中，该论文提出的方法得到了更高的分数。

表1：论文中的定量比较结果

表2：论文中的定性比较结果

4.总结和展望

本文首先收集了一个大的非实验室环境的高清音视频数据集，该数据集比之前的非实验室环境数据集有更高的视频分辨率，比之前的实验室环境数据集包含有更多的人物 ID 和句子。本文同时也提出了一种基于稠密运动场的高清人脸合成框架，该框架包含有一个特定风格动画生成器和一个基于稠密运动场的视频生成器, 动画生成器可以生成具有特定说话风格的动画参数。视频生成器可以将动画参数进一步转化成高清说话人脸。同时本文的方法仍旧存在很多局限性，如头部的运动不够大等，未来这些局限也会被不断地改进。

公众号推荐：

跳进 AI 的奇妙世界，一起探索未来工作的新风貌！想要深入了解 AI 如何成为产业创新的新引擎？好奇哪些城市正成为 AI 人才的新磁场？《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造，为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者，还是对生成式 AI 充满好奇的新手，这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号，回复「开发者洞察」领取。

评论 1 条评论

发布

zero

你好请问有论文和代码链接吗

2021-03-27 13:40

 0 回复

没有更多了

创作场景

基于稠密运动场的高清说话人脸视频生成 | 论文解读

1.概述

2.方案概述

3.实验结果

4.总结和展望

公众号推荐：

评论 1 条评论

@Import ：Spring Bean模块装配的艺术

“芯”有灵“蜥” 融合·创新！龙蜥社区走进 Intel MeetUp 议程硬核剧透来了

开发微信公众号本地调试+-+cpolar内网穿透

Brotli-压缩算法的潮流 | 社区征文

基于PaddleOCR与OpenVINO™的结构化输出Pipeline

云端利器!香港云主机带你畅享强大的云计算能力!

MQTT 订阅标识符详解

尝试7分钟内上线一个网站，这个工具太赞了！

“多巴胺设计” 来袭，TDesign 主题中心上线

北京汽车：传统车厂向“用户服务”转型的新范本

转型过程“千变万化”，怎样的数智平台才能够帮助企业顺利转型？

2023中国老博会/2023西部养老辅具展会

软件测试/测试开发丨Linux常用命令之性能统计

Eplan是什么软件？学习Eplan软件的几个关键要点

点云标注的未来发展与技术革新

共筑信创生态！亚信科技AntDB数据库与用友、东方通、星辰天合达成兼容互认

Karmada：让跨集群弹性伸缩FederatedHPA突破新边界

CST电磁仿真软件要怎么学？

对线面试官 Redis | 十 Redis集群模式

融云「北极星」数据监控平台：数据可视通晓全局，精准分析定位问题

Spring 能解决所有循环依赖吗？

交付和发布的区别，你真的懂吗？

企业转型必修课，用友BIP成为企业数智化首选

软件测试/测试开发丨Linux进程与线程学习笔记

Github实时数据分析与可视化训练营火热开启！免费领取5000元云上资源

2023年中国（深圳）国际耐火材料产业展会

Java基础入门——Java语言介绍

智能分析云 | 穿透式数据分析赋能数智国资

创作场景

基于稠密运动场的高清说话人脸视频生成 | 论文解读

1.概述

2.方案概述

3.实验结果

4.总结和展望

公众号推荐：

评论 1 条评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载