硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

多人 3D 人体姿态估计问题新突破:美图 & 北航联合提出分布感知式单阶段模型

  • 2022-03-22
  • 本文字数:3691 字

    阅读完需:约 12 分钟

多人3D人体姿态估计问题新突破:美图&北航联合提出分布感知式单阶段模型

近日,计算机视觉顶会 CVPR 2022 公布了会议录取结果,美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)联合发表的论文被接收。该论文突破性地提出分布感知式单阶段模型,用于解决极具挑战性的多人 3D 人体姿态估计问题。该方法通过一次网络前向推理同时获取 3D 空间中人体位置信息以及相对应的关键点信息,从而简化了预测流程,提高了效率。此外,该方法有效地学习了人体关键点的真实分布,进而提升了基于回归框架的精度。

 

多人 3D 人体姿态估计是当前的一个热点研究课题,也具有广泛的应用潜力。在计算机视觉中,基于单张 RGB 图片的多人 3D 人体姿态估计问题通常通过自顶向下或是自底向上的两阶段方法来解决,然而两阶段的方法需忍受大量的冗余计算以及复杂的后处理,其低效率深受诟病。此外,已有方法缺少对人体姿态数据分布的认知,从而无法准确地求解从 2D 图片到 3D 位置这一病态问题,以上两点限制了已有方法在实际场景中的应用。

 

美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)在 CVPR 2022 发表的论文,提出一种分布感知式单阶段模型,并利用这一模型从单张 RGB 图片中估计多个人在 3D 相机空间中的人体姿态。该方法将 3D 人体姿态表示为 2.5D 人体中心点和 3D 关键点偏移量,以适配图片空间的深度估计,同时这一表示将人体位置信息和对应的关键点信息进行了统一,从而使得单阶段多人 3D 姿态估计成为可能。

 

此外,该方法在模型优化过程中对人体关键点的分布进行了学习,这为关键点位置的回归预测提供了重要的指导信息,进而提升了基于回归框架的精度。这一分布学习模块可以与姿态估计模块在训练过程中通过最大似然估计一起学习,在测试过程中该模块被移除,不会带来模型推理计算量的增加。为了降低人体关键点分布学习的难度,该方法创新性地提出了一种迭代更新的策略以逐渐逼近目标分布。

 

该模型以全卷积的方式来实现,可以进行端到端的训练和测试。通过这样一种方式,该算法可以有效且精准地解决多人 3D 人体姿态估计问题,在取得和两阶段方法接近的精度的同时,也大大提升了速度。

 

论文链接:https://arxiv.org/abs/2203.07697

 

背景

 

多人 3D 人体姿态估计是计算机视觉中的经典问题,它被广泛地应用于 AR/VR、游戏、运动分析、虚拟试衣等,近年来随着元宇宙概念的兴起,更是让这一技术备受关注。目前,通常采用两阶段方法来解决该问题:自顶向下方法,即先检测图片多个人体的位置,之后对检测到的每个人使用单人 3D 姿态估计模型来分别预测其姿态;自底向上方法,即先检测图片中所有人的 3D 关键点,之后通过相关性将这些关键点分配给对应的人体。

 

尽管两阶段方法取得了良好的精度,但是需要通过冗余的计算和复杂的后处理来顺序性地获取人体位置信息和关键点位置信息,这使得速率通常难以满足实际场景的部署需求,因此多人 3D 姿态估计算法流程亟需简化。另一方面,在缺少数据分布先验知识的情况下,从单张 RGB 图片中估计 3D 关键点位置,特别是深度信息,是一个病态问题。这使得传统的应用于 2D 场景的单阶段模型无法直接向 3D 场景进行扩展,因此学习并获取 3D 关键点的数据分布是进行高精度多人 3D 人体姿态估计的关键所在。

 

为了克服以上问题,该论文提出了一种分布感知式单阶段模型(Distribution-Aware Single-stage model, DAS)用于解决基于单张图片的多人 3D 人体姿态估计这一病态问题。DAS 模型将 3D 人体姿态表示为 2.5D 人体中心点和 3D 人体关键点偏移,这一表示有效地适配了基于 RGB 图片域的深度信息预测。同时,它也将人体位置信息和关键点位置信息进行了统一,从而使得基于单目图片的单阶段多人 3D 姿态估计方法成为可能。另外,DAS 模型在优化过程中对 3D 关键点的分布进行学习,这为 3D 关键点的回归提供了极具价值的指导性信息,从而有效地提升了预测精度。此外,为了缓解关键点分布估计的难度,DAS 模型采用了一种迭代更新策略以逐步逼近真实分布目标,通过这样一种方式,DAS 模型可以高效且精准地从单目 RGB 图片中一次性获取多个人的 3D 人体姿态估计结果。

 

单阶段多人 3D 姿态估计模型

 

在实现上,DAS 模型基于回归预测框架来构建,对于给定图片,DAS 模型通过一次前向预测输出图片中所包含人物的 3D 人体姿态。DAS 模型将人体中心点表示为中心点置信度图和中心点坐标图两部分,如图 1 (a) 和 (b) 所示,其中,DAS 模型使用中心点置信度图来定位 2D 图片坐标系中人体投影中心点的位置,而使用中心点坐标图来预测 3D 相机坐标系内人体中心点的绝对位置。DAS 模型将人体关键点建模为关键点偏移图,如图 1 (c) 所示。DAS 模型将中心点置信度图建模为二值图,图中每个像素点表示人体中心点是否在该位置出现,如果出现则为 1,否则为 0。DAS 模型将中心点坐标图以稠密图的方式进行建模,图中每个像素点编码了出现在该位置的人物中心在 x、y 和 z 方向的坐标。关键点偏移图和中心点坐标图建模方式类似,图中每个像素点编码了出现在该位置的人体关键点相对于人体中心点在 x、y、z 方向的偏移量。DAS 模型可以在网络前向过程中以并行的方式输出以上三种信息图,从而避免了冗余计算。此外,DAS 模型可以使用这三种信息图简单地重建出多个人的 3D 姿态,也避免了复杂的后处理过程,与两阶段方法相比,这样一种紧凑、简单的单阶段模型可以取得更优的效率。

 


图 1 用于多人 3D 人体姿态估计的分布感知式单阶段模型流程图

 

分布感知学习模型

 

对于回归预测框架的优化,已有工作多采用传统的 L1 或者 L2 损失函数,但研究发现这类监督训练实际上是在假设人体关键点的数据分布满足拉普拉斯分布或者高斯分布的前提下进行的模型优化[12]。然而在实际场景中,人体关键点的真实分布极为复杂,以上简单的假设与真实分布相距甚远。与现有方法不同,DAS 模型在优化过程中学习 3D 人体关键点分布的真实分布,指导关键点回归预测的过程。考虑到真实分布不可追踪的问题,DAS 模型利用标准化流(Normalizing Flow)来达到对于模型预测结果概率估计的目标,以生成适合模型输出的分布,如图 2 所示。该分布感知模块可以同关键点预测模块一起在训练过程中通过最大似然估计的方法进行学习,完成学习之后,该分布感知模块会在预测过程中进行移除,这样一种分布感知式算法可以在不增加额外计算量的同时提升回归预测模型的精度。此外,用于人体关键点预测的特征提取于人体中心点处,这一特征对于远离中心点的人体关键点来说表示能力较弱,和目标在空间上的不一致问题会引起预测的较大误差。为了缓和这一问题,该算法提出了迭代更新策略,该策略利用历史更新结果为出发点,并整合中间结果附近预测值以逐步逼近最终目标,如图 3 所示。

 

图 2 标准化流

    

图 3 迭代优化策略

                              

该算法模型通过全卷积网络(Fully Convolutional Networks, FCNs)实现,训练和测试过程都可以以端到端的方式进行,如图 4 所示。根据实验结果,如图 5 所示,单阶段算法和已有 state-of-the-art 两阶段方法相比,可以取得接近甚至更优的精度,同时可以大幅提升速度,证明了其在解决多人 3D 人体姿态估计这一问题上的优越性,详细实验结果可参考表 1 和表 2。根据单阶段算法的可视化结果,如图 6 所示,该算法能够适应不同的场景,例如姿势变化、人体截断以及杂乱背景等来产生精确的预测结果,这进一步说明了该算法的健壮性。


图 4 分布感知式单阶段多人 3D 人体姿态估计网络结构


图 5 与现有 state-of-the-art 两阶段算法对比结果


表 1 CMU Panoptic Studio 数据集结果比较         


表 2 MuPoTS-3D 数据集结果比较

 

图 6 可视化结果

 

总结

 

在本论文中,来自美图和北航的研究者们创新性地提出了一种分布感知式单阶段模型,用于解决极具挑战性的多人 3D 人体姿态估计问题。与已有的自顶向下和自底向上这种两阶段模型相比,该模型可以通过一次网络前向推理同时获取人体位置信息以及所对应的人体关键点位置信息,从而有效地简化预测流程,同时克服了已有方法在高计算成本和高模型复杂度方面的弊端。另外,该方法成功将标准化流引进到多人 3D 人体姿态估计任务中以在训练过程中学习人体关键点分布,并提出迭代回归策略以缓解分布学习难度来达到逐步逼近目标的目的。通过这样一种方式,该算法可以获取数据的真实分布以有效地提升模型的回归预测精度。


引用文献:


[1] JP Agnelli, M Cadeiras, Esteban G Tabak, Cristina Vilma Turner, and Eric Vanden-Eijnden. Clustering and classifica- tion through normalizing flows in feature space. Multiscale Modeling & Simulation, 2010.

[12] Jiefeng Li, Siyuan Bian, Ailing Zeng, Can Wang, Bo Pang, Wentao Liu, and Cewu Lu. Human pose regression with residual log-likelihood estimation. In ICCV, 2021.

[15] Jiahao Lin and Gim Hee Lee. Hdnet: Human depth estima- tion for multi-person camera-space localization. In ECCV, 2020.

[47] Jianan Zhen, Qi Fang, Jiaming Sun, Wentao Liu, Wei Jiang, Hujun Bao, and Xiaowei Zhou. Smap: Single-shot multi- person absolute 3d pose estimation. In ECCV, 2020.

[48] Xingyi Zhou, Dequan Wang, and Philipp Kra ̈henbu ̈hl. Ob- jects as points. arXiv preprint arXiv:1904.07850, 2019.

 

2022-03-22 11:075994

评论 1 条评论

发布
用户头像
cool
2022-03-23 16:06
回复
没有更多了
发现更多内容

科技赋能 博睿数据引领教育行业走入“服务可达”时代

博睿数据

在线教育 博睿数据 服务可达

SpringCloud-技术专题-Feign组件基本使用(1)

码界西柚

Configuration Hystrix spring-cloud Fegin Ribbon

软件 IT专业的高校大学生是否写文调查问卷

Bob

问卷调查 行业分析能力考核 高校大学生 写文

极光开发者周刊【No.0430】

极光GPTBots-极光推送

聪明人的训练(三十)

Changing Lin

4月日更

对于即将工作的IT大学生,该如何变强?

cv君

程序人生 IT 科技 问卷 有意义

博睿数据DataView标准化指标管理,助力企业快速制定SLO

博睿数据

数据中台 博睿数据 dataview

我与写作平台的初次接触

Aldeo

1 周年盛典 我和写作平台的故事

云原生除了K8S、微服务,还有...?

云计算

音频变速变调原理及soundtouch代码分析

floer rivor

音视频

【得物技术】网络优化——域名解析原理&实践

得物技术

网络 域名解析 域名 得物技术 实践

群英荟萃 | UINO优锘科技ThingJS平台亮相华为开发者大会

ThingJS数字孪生引擎

物联网 3D可视化 数字孪生

万字长文讲述我是怎样保送清华的|寒门学子的奋斗史(四)

程序猿石头

程序员 码农 逆袭 大学总结 读书总结

什么,你管这叫“线程安全”?

Java大蜗牛

Java 程序员 编程语言 后端 线程安全

带你温习一下webpack配置

IT皮皮蟹

npm nodejs webpack

参加人气创作者的一些感悟

石云升

28天写作 4月日更 1 周年盛典

​太厉害了,终于有人把Spring条件注解讲明白了,送你上岸!

飞飞JAva

spring

高校软件IT专业大学生课外培训调查问卷

穿过生命散发芬芳

行业分析能力考核

新人小白福利来啦!精简版java知识总结,阿里P8大牛看完都说绝了

牛哄哄的java大师

Java

5月日更,InfoQ 高定T-恤,达标来领~

InfoQ写作社区官方

5月日更 热门活动

SpringCloud-技术专题-Feign组件基本使用(2)

码界西柚

springmvc SpringCloud Hystrix Fegin

Serverless的定义

刘宇

已跪!Java全能笔记爆火,Java教程/Java包/Eclipse安装指南全有

牛哄哄的java大师

Java

又一个免费良心的下载站,答应我:别再下到流氓软件了。

彭宏豪95

ios 效率 工具 下载 4月日更

聆听极致 ——声网 Agora

cv君

算法 音视频 科技 声网 引航计划

本文标题不能描述本文内容

小天同学

读书 哲学 读后感 4月日更

2.8W字Java基础学习和书籍推荐,真正意义上的从0到1学Java,才不是培训机构那种大纲文

北游学Java

面向对象 线程 集合 java基础 IO流

弱密码会毁灭物联网(IoT)吗?

龙归科技

密码管理

引入:从云计算到Serverless

刘宇

面试:某云面试题目整理

程序员架构进阶

Java 面试 自我提升 28天写作 4月日更

IT 专业大学生被培训机构“渗透”情况调查

梦想橡皮擦

签约计划

多人3D人体姿态估计问题新突破:美图&北航联合提出分布感知式单阶段模型_语言 & 开发_美图影像研究院(MT Lab)_InfoQ精选文章