写点什么

多人 3D 人体姿态估计问题新突破:美图 & 北航联合提出分布感知式单阶段模型

  • 2022-03-22
  • 本文字数:3691 字

    阅读完需:约 12 分钟

多人3D人体姿态估计问题新突破:美图&北航联合提出分布感知式单阶段模型

近日,计算机视觉顶会 CVPR 2022 公布了会议录取结果,美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)联合发表的论文被接收。该论文突破性地提出分布感知式单阶段模型,用于解决极具挑战性的多人 3D 人体姿态估计问题。该方法通过一次网络前向推理同时获取 3D 空间中人体位置信息以及相对应的关键点信息,从而简化了预测流程,提高了效率。此外,该方法有效地学习了人体关键点的真实分布,进而提升了基于回归框架的精度。

 

多人 3D 人体姿态估计是当前的一个热点研究课题,也具有广泛的应用潜力。在计算机视觉中,基于单张 RGB 图片的多人 3D 人体姿态估计问题通常通过自顶向下或是自底向上的两阶段方法来解决,然而两阶段的方法需忍受大量的冗余计算以及复杂的后处理,其低效率深受诟病。此外,已有方法缺少对人体姿态数据分布的认知,从而无法准确地求解从 2D 图片到 3D 位置这一病态问题,以上两点限制了已有方法在实际场景中的应用。

 

美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)在 CVPR 2022 发表的论文,提出一种分布感知式单阶段模型,并利用这一模型从单张 RGB 图片中估计多个人在 3D 相机空间中的人体姿态。该方法将 3D 人体姿态表示为 2.5D 人体中心点和 3D 关键点偏移量,以适配图片空间的深度估计,同时这一表示将人体位置信息和对应的关键点信息进行了统一,从而使得单阶段多人 3D 姿态估计成为可能。

 

此外,该方法在模型优化过程中对人体关键点的分布进行了学习,这为关键点位置的回归预测提供了重要的指导信息,进而提升了基于回归框架的精度。这一分布学习模块可以与姿态估计模块在训练过程中通过最大似然估计一起学习,在测试过程中该模块被移除,不会带来模型推理计算量的增加。为了降低人体关键点分布学习的难度,该方法创新性地提出了一种迭代更新的策略以逐渐逼近目标分布。

 

该模型以全卷积的方式来实现,可以进行端到端的训练和测试。通过这样一种方式,该算法可以有效且精准地解决多人 3D 人体姿态估计问题,在取得和两阶段方法接近的精度的同时,也大大提升了速度。

 

论文链接:https://arxiv.org/abs/2203.07697

 

背景

 

多人 3D 人体姿态估计是计算机视觉中的经典问题,它被广泛地应用于 AR/VR、游戏、运动分析、虚拟试衣等,近年来随着元宇宙概念的兴起,更是让这一技术备受关注。目前,通常采用两阶段方法来解决该问题:自顶向下方法,即先检测图片多个人体的位置,之后对检测到的每个人使用单人 3D 姿态估计模型来分别预测其姿态;自底向上方法,即先检测图片中所有人的 3D 关键点,之后通过相关性将这些关键点分配给对应的人体。

 

尽管两阶段方法取得了良好的精度,但是需要通过冗余的计算和复杂的后处理来顺序性地获取人体位置信息和关键点位置信息,这使得速率通常难以满足实际场景的部署需求,因此多人 3D 姿态估计算法流程亟需简化。另一方面,在缺少数据分布先验知识的情况下,从单张 RGB 图片中估计 3D 关键点位置,特别是深度信息,是一个病态问题。这使得传统的应用于 2D 场景的单阶段模型无法直接向 3D 场景进行扩展,因此学习并获取 3D 关键点的数据分布是进行高精度多人 3D 人体姿态估计的关键所在。

 

为了克服以上问题,该论文提出了一种分布感知式单阶段模型(Distribution-Aware Single-stage model, DAS)用于解决基于单张图片的多人 3D 人体姿态估计这一病态问题。DAS 模型将 3D 人体姿态表示为 2.5D 人体中心点和 3D 人体关键点偏移,这一表示有效地适配了基于 RGB 图片域的深度信息预测。同时,它也将人体位置信息和关键点位置信息进行了统一,从而使得基于单目图片的单阶段多人 3D 姿态估计方法成为可能。另外,DAS 模型在优化过程中对 3D 关键点的分布进行学习,这为 3D 关键点的回归提供了极具价值的指导性信息,从而有效地提升了预测精度。此外,为了缓解关键点分布估计的难度,DAS 模型采用了一种迭代更新策略以逐步逼近真实分布目标,通过这样一种方式,DAS 模型可以高效且精准地从单目 RGB 图片中一次性获取多个人的 3D 人体姿态估计结果。

 

单阶段多人 3D 姿态估计模型

 

在实现上,DAS 模型基于回归预测框架来构建,对于给定图片,DAS 模型通过一次前向预测输出图片中所包含人物的 3D 人体姿态。DAS 模型将人体中心点表示为中心点置信度图和中心点坐标图两部分,如图 1 (a) 和 (b) 所示,其中,DAS 模型使用中心点置信度图来定位 2D 图片坐标系中人体投影中心点的位置,而使用中心点坐标图来预测 3D 相机坐标系内人体中心点的绝对位置。DAS 模型将人体关键点建模为关键点偏移图,如图 1 (c) 所示。DAS 模型将中心点置信度图建模为二值图,图中每个像素点表示人体中心点是否在该位置出现,如果出现则为 1,否则为 0。DAS 模型将中心点坐标图以稠密图的方式进行建模,图中每个像素点编码了出现在该位置的人物中心在 x、y 和 z 方向的坐标。关键点偏移图和中心点坐标图建模方式类似,图中每个像素点编码了出现在该位置的人体关键点相对于人体中心点在 x、y、z 方向的偏移量。DAS 模型可以在网络前向过程中以并行的方式输出以上三种信息图,从而避免了冗余计算。此外,DAS 模型可以使用这三种信息图简单地重建出多个人的 3D 姿态,也避免了复杂的后处理过程,与两阶段方法相比,这样一种紧凑、简单的单阶段模型可以取得更优的效率。

 


图 1 用于多人 3D 人体姿态估计的分布感知式单阶段模型流程图

 

分布感知学习模型

 

对于回归预测框架的优化,已有工作多采用传统的 L1 或者 L2 损失函数,但研究发现这类监督训练实际上是在假设人体关键点的数据分布满足拉普拉斯分布或者高斯分布的前提下进行的模型优化[12]。然而在实际场景中,人体关键点的真实分布极为复杂,以上简单的假设与真实分布相距甚远。与现有方法不同,DAS 模型在优化过程中学习 3D 人体关键点分布的真实分布,指导关键点回归预测的过程。考虑到真实分布不可追踪的问题,DAS 模型利用标准化流(Normalizing Flow)来达到对于模型预测结果概率估计的目标,以生成适合模型输出的分布,如图 2 所示。该分布感知模块可以同关键点预测模块一起在训练过程中通过最大似然估计的方法进行学习,完成学习之后,该分布感知模块会在预测过程中进行移除,这样一种分布感知式算法可以在不增加额外计算量的同时提升回归预测模型的精度。此外,用于人体关键点预测的特征提取于人体中心点处,这一特征对于远离中心点的人体关键点来说表示能力较弱,和目标在空间上的不一致问题会引起预测的较大误差。为了缓和这一问题,该算法提出了迭代更新策略,该策略利用历史更新结果为出发点,并整合中间结果附近预测值以逐步逼近最终目标,如图 3 所示。

 

图 2 标准化流

    

图 3 迭代优化策略

                              

该算法模型通过全卷积网络(Fully Convolutional Networks, FCNs)实现,训练和测试过程都可以以端到端的方式进行,如图 4 所示。根据实验结果,如图 5 所示,单阶段算法和已有 state-of-the-art 两阶段方法相比,可以取得接近甚至更优的精度,同时可以大幅提升速度,证明了其在解决多人 3D 人体姿态估计这一问题上的优越性,详细实验结果可参考表 1 和表 2。根据单阶段算法的可视化结果,如图 6 所示,该算法能够适应不同的场景,例如姿势变化、人体截断以及杂乱背景等来产生精确的预测结果,这进一步说明了该算法的健壮性。


图 4 分布感知式单阶段多人 3D 人体姿态估计网络结构


图 5 与现有 state-of-the-art 两阶段算法对比结果


表 1 CMU Panoptic Studio 数据集结果比较         


表 2 MuPoTS-3D 数据集结果比较

 

图 6 可视化结果

 

总结

 

在本论文中,来自美图和北航的研究者们创新性地提出了一种分布感知式单阶段模型,用于解决极具挑战性的多人 3D 人体姿态估计问题。与已有的自顶向下和自底向上这种两阶段模型相比,该模型可以通过一次网络前向推理同时获取人体位置信息以及所对应的人体关键点位置信息,从而有效地简化预测流程,同时克服了已有方法在高计算成本和高模型复杂度方面的弊端。另外,该方法成功将标准化流引进到多人 3D 人体姿态估计任务中以在训练过程中学习人体关键点分布,并提出迭代回归策略以缓解分布学习难度来达到逐步逼近目标的目的。通过这样一种方式,该算法可以获取数据的真实分布以有效地提升模型的回归预测精度。


引用文献:


[1] JP Agnelli, M Cadeiras, Esteban G Tabak, Cristina Vilma Turner, and Eric Vanden-Eijnden. Clustering and classifica- tion through normalizing flows in feature space. Multiscale Modeling & Simulation, 2010.

[12] Jiefeng Li, Siyuan Bian, Ailing Zeng, Can Wang, Bo Pang, Wentao Liu, and Cewu Lu. Human pose regression with residual log-likelihood estimation. In ICCV, 2021.

[15] Jiahao Lin and Gim Hee Lee. Hdnet: Human depth estima- tion for multi-person camera-space localization. In ECCV, 2020.

[47] Jianan Zhen, Qi Fang, Jiaming Sun, Wentao Liu, Wei Jiang, Hujun Bao, and Xiaowei Zhou. Smap: Single-shot multi- person absolute 3d pose estimation. In ECCV, 2020.

[48] Xingyi Zhou, Dequan Wang, and Philipp Kra ̈henbu ̈hl. Ob- jects as points. arXiv preprint arXiv:1904.07850, 2019.

 

2022-03-22 11:075392

评论 1 条评论

发布
用户头像
cool
2022-03-23 16:06
回复
没有更多了
发现更多内容

【Flutter 专题】10 图解底部状态栏小尝试

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 11月日更

【高并发】不得不说的线程池与ThreadPoolExecutor类浅析

冰河

Java 并发编程 多线程 高并发 异步编程

Python Qt GUI设计:窗口布局管理方法【强化】(基础篇—6)

不脱发的程序猿

Python qt GUI设计 窗口布局管理方法

模块三-外包学生管理系统架构

小何

「架构实战营」

🏆【Alibaba中间件技术系列】「RocketMQ技术专题」帮你梳理RocketMQ相关的消费问题以及原理分析总结

洛神灬殇

RocketMQ 消息队列 11月日更 重复消费

意外发现,原来你不知道自己每天都在用门面模式

Tom弹架构

Java 架构 设计模式

sonar 使用常见问题总结

liuzhen007

11月日更

🏆【Alibaba中间件技术系列】「RocketMQ技术专题」帮你梳理RocketMQ或Kafka的选择理由以及二者PK

洛神灬殇

kafka RocketMQ 消息队列 11月日更

Vue进阶(幺玖捌):js 判断 document.getElementByid(““) 获得的对象是否存在

No Silver Bullet

Vue 11月日更

Flutter怎么实现地图导航功能?

坚果

flutter 11月日更

shell原样输出字符串

WindFlying

无AI的五子棋Vue项目

空城机

JavaScript typescript 大前端 11月日更

数据库自增ID用完了会怎样

喵叔

11月日更

JDK还是Google,正则表达式引擎孰优孰劣?

后台技术汇

正则表达式 11月日更

Go语言,反射机制,反射三定律!

微客鸟窝

Go 语言 11月日更

博文推荐|传智教育 x Pulsar:互联网教育的未来

Apache Pulsar

架构 云原生 消息中间件 Apache Pulsar 消息系统 互联网教育

数据仓库之数据质量建设(深度好文)

五分钟学大数据

11月日更

【Promise 源码学习】第五篇 - 实现 Promise 对异步操作的支持

Brave

源码 Promise 11月日更

Android C++系列:JNI引用管理

轻口味

c++ android 11月日更

架构实战营模块5课后作业

胡颖

架构实战营

C++ 动态新闻推送 第37期

很水

c++

孔夫子旧书网数据采集,举一反三学爬虫,Python爬虫120例第21例

梦想橡皮擦

11月日更

dart系列之:dart类中的构造函数

程序那些事

flutter dart 程序那些事 11月日更

2021年最新获取url参数的方法,用正则就落后啦

CRMEB

Go语言,面试官问我go逃逸场景有哪些,我???

微客鸟窝

Go 语言 11月日更

Redis计算UV的4种方法

大数据技术指南

11月日更

听说你还在写双层for循环解两数之和?

老表

Python LeetCode 11月日更 两数之和 算法与数据结构

C++ 动态新闻推送 第33期

很水

浏览器存储之 localStorage 和 cookie

devpoint

Cookie LocalStorage sessionStorage 11月日更

一个程序员日常工作中对于Github的一些另类用法

汪子熙

JavaScript GitHub SAP 11月日更

模块三 架构文档

Asha

多人3D人体姿态估计问题新突破:美图&北航联合提出分布感知式单阶段模型_语言 & 开发_美图影像研究院(MT Lab)_InfoQ精选文章