【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

工业级人手三维重建!爱奇艺这篇 ICCV 2021 论文刷新了两个榜单

  • 2021-08-09
  • 本文字数:3217 字

    阅读完需:约 11 分钟

工业级人手三维重建!爱奇艺这篇ICCV 2021论文刷新了两个榜单

2016 年,Facebook 正式发售 Oculus Rift 头戴式 VR 设备,大大革新了人们对于 VR 技术的认知,这一年也因此被称为 VR 元年。5 年过去,现在 VR 技术发展到哪了?从原生 VR 游戏《半条命:爱莉克斯》来看,在这类游戏场景下,人们与虚拟世界的交互上已经非常成熟。但庞大的头显设备,仍是阻碍 VR 应用普及的重要原因。以《半条命:爱莉克斯》为例,这部游戏的精华是在于手部交互,而实现捡东西、扔东西、扣动扳机等等复杂的虚拟交互,则需要一部 VR 头盔和一部 VR 手柄才能完成。

 

近日,计算机视觉领域国际顶会 ICCV 2021 收录了一篇题为“I2UV-HandNet: Image-to-UV Prediction Network for Accurate and High-fidelity 3D Hand Mesh Modeling”论文,论文由爱奇艺深度学习云算法团队联合慕尼黑工业大学学者完成,他们在论文中提出一套名为 I2UV-HandNet 高精度手部重建系统,通过“看”单目 RGB 人手图片,就能实现高精度三维重建。


论文地址:https://arxiv.org/abs/2102.03725

 

言外之意,如果将这项技术“适配”到带有摄像功能的眼镜或者头盔中,那么使用者即使不用手柄,也能实现与虚拟世界的高质量对话。

 

重建效果如何?该论文在已经在颇受认可的 HO3D 在线测评榜上,力压群雄,持续数月排名第一。在 Freihand 在线测评榜上,截至论文编写时仍排名第一。


图注:HO3D 榜单排行结果,红框处为爱奇艺


图注:论文编写时 Freihand 榜单排行结果,红框处为爱奇艺

 

目前,研究员们正在尝试将该技术应用到爱奇艺下一代 VR 设备中,从而减少对手柄依赖,打造出更轻、更快、更舒适的 VR 设备。同时手势重建、交互技术目前也同步在爱奇艺其他业务场景和硬件终端进行落地探索,相信不久后会相继和用户见面。

 

I2UV-HandNet:业界首创的手部三维重建技术

 

在人机交互和虚拟现实的应用中,高精度的人手三维重建技术发挥着重要作用。但由于手势多变以及严重的遮挡,现有的重建方法在准确性和精度方面仍差些火候。

 

一方面,目前学术界在进行手部三维重建评测,如在 Freihand 数据集上进行评测主要是突出算法的精度优势,不需要考虑算力、延迟等,所以可以采用计算复杂度非常高(如 transformer 等)的一些算法。

 

另一方面在工业界,特别是 VR 等移动端设备,在算力、功耗、电池的续航及发热等各方面有严格限制,在应用上必须采用计算复杂度偏低的算法。

 

而 VR 等设备的摄像头因为移动端硬件的功耗、续航限制必须降低清晰度而不是采用高清晰度的摄像头,采集到的图像清晰度相对偏低,这对于算法的识别就存在一定挑战性。

 

图注:I2UV-HandNet 框架图,由 AffineNet 和 SRNet 组成

 

爱奇艺这篇论文中提出的I2UV-HandNet,独创性地将 UV 映射表征引入到三维手势和形状估计中,其设计的 UV 重建模块 AffineNet 能够从单目图像中预测手部网络(hand mesh),从而完成由粗到精的人手 3D 模型重建。

 

这一设计意味着对于三维重建中所需的空间中的景深信息,不用再通过昂贵的硬件完成侦测,在普通 RGB 摄像头拍摄的图片中就可以完成景深信息获取。

 

I2UV-HandNet 另一个组成部分是 SRNet 网络,其作用是对已有人手三维模型进行更高精度的重建。SRNet 网络以研究团队独创的“将点的超分转化为图像超分的思想”为原则,实现在不增加过多计算量的情况下,进行上万点云的超分重建。

 

此外,由于缺乏高保真的手部数据来训练 SRNet,研究团队构建了一个名为 SuperHandScan 的扫描数据集训练 SRNet。由于 SRNet 的输入是基于 UV 的“粗糙”手部网格。因此 SRNet 的应用范围很广,换句话说,一个“训练有素”的 SRNet 可以对任何粗手部网格进行超分辨率重建。

 

据介绍,SRNet 和 AffineNet 组成的 I2UV-HandNet 系统,未做任何优化情况下,能够在 Nvidia v100 达到 46fps;而经过工程优化后版本能够在骁龙 865CPU+DSP 下达到实时。


表注:在 FreiHAND 上进行真实场景下多姿态的人手 3D 重建对比,↓表示越低越好,↑表示越高越好

 

为了验证 I2UV-HandNet 方法对姿态的鲁棒性,研究团队选用了包含大量姿态的真实人手数据集 FreiHAND 作为测试集,并通过 FreiHAND Competition 在线测评与相关 SOTA 工作进行对比,结果如上表所示,证明了该 UV 重建方法的有效性。

 

表注:在 HO3D 上进行真实场景下具有遮挡的人手 3D 重建实验对比,↓表示越低越好,↑表示越高越好

 

同时为了验证在各种遮挡场景下的重建性能,研究团队选取包含大量遮挡样本的 HO3D 数据集进行测评,结果如上表所示,各项指标也都达到了 SOTA。

表注:↓表示越低越好,↑表示越高越好

 

为了定量评价 SRNet,研究团队还在 HIC 数据集上进行了实验。如上所示,SRNet 的输出(表中的“OUTPUT”)得到了优于原始深度图的结果。

 

模型介绍:AffineNet+SRNet=I2UV-HandNet

 

图注:AffineNet 网络框架图,AffineNet 由编码网络和解码网络组成,在解码时通过 Affine Connection 和多 stage 完成由粗到精的 UV 学习

 

如上图所示,AffineNet 由编解码网络组成,编码骨干网络 ResNet-50,解码时采用由粗到精的层级结构,其中 Affine Connection 是指通过当前层级预测的 UV 用仿射变换(类似 STN)的方式实现编码特征向 UV 图的对齐,即:






图注:SRNet 每层的设置


SRNet 的网络结构类似于超分辨率卷积神经网络(SRCNN),但输入和输出是 UV 图而非 RGB 图像。

 

研究团队巧妙地通过 UV 图的方式将点的超分转换为图像的超分,将伪高精度 UV 图作为输入,高精度 UV 图作为标签,通过伪高精度 3D 模型生成的 UV 图到高精度 3D 模型生成的 UV 图的超分学习,完成 1538 个面到 6152 个面,778 个点到 3093 个点的超分学习,超分 Loss 设计如下:


在测试阶段只需要将 AffineNet 重建的 UV 图作为输入,便可得到经过超分重建后的高精度 UV 图,从而实现人手的高精度 3D 重建。

 

将 AffineNet 和 SRNet 结合成 I2UV-HandNet 系统便可完成 High-fidelity 的人手 3D 重建。为了快速验证将点的超分转化为图像的超分的可行性,研究团队将 SRCNN 网络结构用于 SRNet 中,并选取 SHS 数据集进行训练。

 

Batch size 设置为 512,输入 UV 图的大小为 256*256,初始学习率为 1e-3,优化器 Adam,并采用 cosine lr 下降方式,并在 scale、旋转等方面进行数据增广。

 

同时为了网络模型具有更好的泛化性,也随机对高精度 UV 图进行高斯平缓处理,并将结果作为网络的输入。在测试时,将 AffineNet 输出的 UV 图作为 SRNet 的输入实现 I2UV-HandNet 系统的 high-fidelity 3D 人手重建。

 

图注:在 HO-3D 数据集(左)和 FreiHAND 数据集(右)上的重建结果。从左到右依次为:输入、AffineNet 的重建结果、SRNet 输出的超分结果(high-fidelity)

 

上图显示 I2UV-HandNet 在各种姿态和遮挡条件下基于单目 RGB 图的人手的 High-fidelity 的 3D 重建结果。通过上图的 Coarse Mesh 和 High-fidelity meshes 对比可以看出,通过 UV 图超分输出的包含 3093 个点/6152 个面的 3D 模型(High-fidelity)明显要比 AffineNet 输出的包含 778 个点/1538 个面的 MANO 模型(Coarse Mesh)更加精细,具体表现在折痕细节和皮肤鼓胀等。

 

在论文中,研究团队还在 FreiHAND 测试集上进行了 Loss 分析、Affine Connection 存在性、UV 展开方式以及由粗到精的方式多项属性消融的实验分析,分析结果依次见表 4 到表 7。


图注:不同的 UV 展开形式



通过实验分析进一步证明本算法在各方面都具有较好的鲁棒性,尤其是对背景具有强抗干扰性,非常适合应用于实际产品中。


下一步:“适配”更加丰富的应用场景

 

手部重建比较与人体重建相似,当前学术界做人体重建的算法可以迁移到手部的应用。但相对于比较火热的人脸重建,手部和人体存在自遮挡更多,姿态复杂度更高等问题,因此研究难度大,业界可借鉴资料、行业内的应用都相对较少。

 

但手部、人体重建却是用自然的肢体语言实现人机交互的关键技术,相比一些可穿戴设备,更能带来体验和沉浸度。例如手柄无法模拟手指每一个关节的活动,手部重建则能实现更加精细的操控。这意味着游戏、数字化工厂、虚拟场景培训等更多场景。

 

接下来,爱奇艺技术团队将会致力于算法的计算效率提升,能够更好的满足 VR 设备应用场景对功耗及计算资源的严苛要求;同时也会继续研究当前学术界的一些难题,例如对于重叠/遮挡的手的重建,爱奇艺深度学习云算法小组也已经开始布局。

 

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-08-09 14:341917

评论

发布
暂无评论
发现更多内容

干掉Navicat?阿里Chat2DB来了!

王磊

Java 数据库

行业分析| 无人机电力巡检的应用

anyRTC开发者

人工智能 音视频 无人机 快对讲 视频监控

Seamless Mobility in Wi-Fi Networks: Exploring the Benefits of Fast Roaming

wallyslilly

IPQ6010 ipq6018 ipq5018 FASTROAMING

历史首次!阿里云与浙大斩获数据库顶会SIGMOD最佳论文,成果已在PolarDB中落地

阿里云瑶池数据库

阿里云 polarDB 瑶池数据库 SIGMOD

千万级规模微服务稳定性技术揭秘:隔离策略

HelloGeek

微服务 高并发 稳定性 隔离性

在 BI 工具 Tableau 中使用 databend

Databend

百度召开CVPR首个大模型研讨会,吸引超1000支队伍参与文心大模型国际比赛

新消费日报

沈阳等级保护测评机构有哪些?有几家?在哪里?

行云管家

等保 等级保护 等保测评 沈阳

基于smardaten无代码快速开发一个智慧城管系统

陈橘又青

无代码开发

费报只是小 case!电子影像系统,工作效率up无限

风来兮

管理 技术管理 电子档案 财务 数字化工具

Java又双叒叕“凉”了?

程序员小毕

Java spring 面试 springboot SpringCloud

语音厅源码实用功能屏幕的转换

山东布谷科技

软件开发 源码搭建 语音源码 语音厅平台搭建

Python Joblib库使用学习总结

EquatorCoco

Python

Java并行流指北

javalover123

并行 Java' 并行流

量子程序设计基础 | 量子程序与量子编程

TiAmo

量子计算 量子编程 6 月 优质更文活动

CSS中常见的场景实现

EquatorCoco

CSS 开发语言 css架构

表单设计领域天花板,表单引擎最全设计

codebee

Hive执行计划之只有map阶段SQL性能分析和解读

不在线第一只蜗牛

sql 开发语言 开发框架

堡垒机的作用以及价格简单说明-行云管家

行云管家

网络安全 堡垒机 IT运维

对线面试官-Redis(作为缓存的一致性问题)

派大星

Java 面试题

怎样确保舞台LED显示屏的安全

Dylan

安全性 环境 维护 LED显示屏 户内led显示屏

为什么很多互联网公司很少做单元测试?

博文视点Broadview

C语言实现单链表-增删改查

DS小龙哥

6 月 优质更文活动

精选8道ES高频面试题和答案,后悔没早点看。

王中阳Go

elasticsearch 面试题 go面试题 后端面试题 ES面试题

Go 语言中 database/sql 是如何设计的

江湖十年

数据库 后端 Go 语言 数据库操作

如何扩展及优化CI/CD流水线?

SEAL安全

CI/CD 优化 扩展

《生死狙击》研发商无端科技使用RDS倚天ARM架构数据库,实现增效降本

阿里云瑶池数据库

RDS 阿里云瑶池数据库

OpenCV开箱即用的功能

互联网工科生

OpenCV C++

基于 LRU-K 模型如何实现高效的元数据缓存?

焱融科技

#高性能 #文件存储 #分布式存储

DataLeap的全链路智能监控报警实践(二):概念介绍

字节跳动数据平台

专场来袭,深度解读阿里云视频云的全智能进化

阿里云视频云

云计算 阿里云 视频云

工业级人手三维重建!爱奇艺这篇ICCV 2021论文刷新了两个榜单_语言 & 开发_爱奇艺技术产品团队_InfoQ精选文章