写点什么

基于稠密运动场的高清说话人脸视频生成 | 论文解读

  • 2021-03-19
  • 本文字数:1375 字

    阅读完需:约 5 分钟

基于稠密运动场的高清说话人脸视频生成 | 论文解读

1.概述


输入一张任意的人脸图像和一段任意的语音片段,说话人脸视频合成技术能够合成与输入语音相匹配的音视频同步、表情自然的高清晰说话人脸视频。


目前的说话人脸视频合成技术仍存在很多挑战,其中合成视频的分辨率一直受限于 256x256 大小。有两个主要的原因:第一个原因是目前没有合适的数据集可以用来合成高清说话人脸视频,视频的分辨率一直受到限制。第二个原因是之前的方法使用人脸关键点(landmark)来引导人脸图像的合成,但是人脸关键点容易受到噪声的干扰,而且对于高分辨率图像来说,人脸关键点太稀疏了,提供的人脸表情信息相对较少。


针对以上问题,网易伏羲虚拟人组收集一个高清音视频数据集,由 1080P 或 720P 的说话人脸视频组成,比之前的数据集更加清晰,并包含有更多的人物 ID。其次,论文利用三维形变人脸(3DMM)中的人脸先验信息,生成表情更加丰富的稠密运动场,并使用稠密运动场作为输入引导人脸图像生成,提高了人脸视频合成的分辨率。该工作已被 CVPR2021 接收。


2.方案概述


本文的算法框架如图 1 所示,文章利用三维形变人脸模型将整个算法框架分为动画参数合成模块(图一中的紫色部分 audio-to-animation)和人脸视频合成模块(图一中的黄色部分 animation-to-video)两个部分。动画参数模块的主体为一个特定风格动画生成器(style-specific animation generator),该生成器的输入为语音和人脸的特征,其中人脸的特征为预训练的 VGGface 提取到的人脸的特征。输出为人脸动画参数,包括嘴唇动画参数、眉眼动画参数以及头部运动动画参数。


图1:文章的算法框架


人脸视频合成模块的主体包括近似稠密运动场(appro dense flow)的合成和基于稠密运动场的视频生成器(flow-guided video generator)两个模块,因为利用 3dmm 只能保证内脸的运动场是准确的,脸之外(包括头发、上半身和背景)的运动场是不知道的,文章近似的认为在人脸说话的过程中,头发是跟随着其最近的脸的边缘一起运动,上半身是跟随着脸的整体一起运动,从而通过插值得到最终的近似稠密运动场。具体的计算过程为:首先从输入的人脸图像中计算人脸形状参数,人脸形状参数和动画参数模块合成的表情参数一起输入到 3DMM 中,计算得到近似稠密运动场。


基于稠密运动场的视频生成器的主体为一个深度神经网络,该生成器的输入为输入人脸图像和近似稠密运动场,输出为合成的人脸视频帧。


3.实验结果


图2:论文的实验结果


图 2 展示了论文的实验结果,图 2 中最左侧为输入的驱动语音,依次向右分别为输入的人脸图像以及算法生成的视频序列。同时文章也做了相关的定性和定量实验,在定量实验比较中,文章使用 PSNR、SSIM 和 CPBD 作为定量评价指标,实验结果如表 1 所示。文章提出的方法在定量比较中比其他对比方法要好。同时文章也通过主观测试做了定性评价,实验结果如表 2 所示。结果表明在主观测试中,该论文提出的方法得到了更高的分数。


表1:论文中的定量比较结果


表2:论文中的定性比较结果


4.总结和展望


本文首先收集了一个大的非实验室环境的高清音视频数据集,该数据集比之前的非实验室环境数据集有更高的视频分辨率,比之前的实验室环境数据集包含有更多的人物 ID 和句子。本文同时也提出了一种基于稠密运动场的高清人脸合成框架,该框架包含有一个特定风格动画生成器和一个基于稠密运动场的视频生成器, 动画生成器可以生成具有特定说话风格的动画参数。视频生成器可以将动画参数进一步转化成高清说话人脸。同时本文的方法仍旧存在很多局限性,如头部的运动不够大等,未来这些局限也会被不断地改进。

2021-03-19 11:592306

评论 1 条评论

发布
用户头像
你好请问有论文和代码链接吗
2021-03-27 13:40
回复
没有更多了
发现更多内容

低代码工具的常见用例与受众市场

树上有只程序猿

低代码

瓴羊X阿里云上的Salesforce联合解决方案正式发布

ToB行业头条

Unity中国全面支持OpenHarmony游戏开发,多款游戏率先完成适配

最新动态

“箭在弦上”的边缘计算,更需要冷静和智慧

脑极体

服务器

8款好用的笔记软件,让你的读书笔记独一无二!

彭宏豪95

读书笔记 效率 软件推荐 在线白板 笔记软件

Barcode for Mac:快速生成各类条形码

Rose

mac软件下载 条形码设计 Barcode for Mac Barcode 下载

亚马逊云科技大语言模型的创新科技

陈老老老板

Mac 版截图工具链

Eric 老乌龟

macos 工具

投资机构Janus Capital Group为Rola-IP品牌融资700万美元

Geek_bf375d

ROLA-IP海外IP代理为第四届全球跨境电子商务大会注入活力

Geek_bf375d

Linux cat命令

芯动大师

剑指数据结构—实现动态数组

少年游侠客

数据结构 数组 ArrayList Java’

一物一码需求,标签制作功能轻松解决

草料二维码

二维码 二维码生成 标签制作 一物一码

Mac矢量图设计Sketch for Mac v99中文激活版 永久使用

Rose

sketch Mac Mac矢量图设计 Sketch 99新功能 Sketch 中文版下载

分布式AI在LLM时代的技术深度探索

不在线第一只蜗牛

人工智能 AI lee

荣誉 | 观测云登榜「2023 中国好 SaaS TOP 10 SaaS 企业 」

观测云

可观测性 SaaS

销售易取得500强客户背后的实践与进化

B Impact

海外HTTP代理哪家最好用?Rola-IP与StormProxies的全方位数据对比

Geek_bf375d

哪些行业发展需要用到代理IP?罗拉ROLA-IP告诉你什么是专业

Geek_bf375d

海外IP代理rola-ip表现突出,全球覆盖面广,技术支持优秀

Geek_bf375d

IP代理哪家好用? 必看经典文

Geek_bf375d

云电脑与5G网络的结合将会带来什么

青椒云云电脑

云电脑

【Data & AI Con Shanghai 2023】嘉宾专访|西电王皓:认清边界 大胆创新

白玉兰开源

人工智能 白玉兰开源

macOS 14 Sonoma 14.1.1正式版(最新苹果系统) pkg完整安装包

Rose

苹果系统 macOS 14 Sonoma Mac14系统

ps cc2019 Mac中文直装版v20.0.10 兼容M1

Rose

ps cc2019 Photoshop2019破解版 PS2019 Mac中文版下载

Python 机器学习入门:数据集、数据类型和统计学

小万哥

Python 程序员 软件 后端 开发

基于稠密运动场的高清说话人脸视频生成 | 论文解读_AI&大模型_网易伏羲_InfoQ精选文章