写点什么

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享

  • 2020-09-10
  • 本文字数:2834 字

    阅读完需:约 9 分钟

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享

近日,计算机视觉三大国际顶级会议之一的 ECCV 2020 如约而至,COCO 作为 ECCV 2020 的重头戏,是人工智能领域最具影响力的图像(物体)识别挑战赛。本次大会,芯翌科技(XForwardAI)拿下了 COCO 视觉挑战赛—人体关键点检测赛道世界第一,在目标检测/实例分割赛道也取得了不错的成绩。



COCO (Common Objects in Context) 数据集是由微软研究院提出的大规模计算机视觉数据集,致力于对常见视觉任务(包括目标检测、实例分割、人体关键点检测、全景分割等)进行分析与评测。与之前的 PASCAL VOC、ImageNet 数据集不同的是,COCO 数据集场景更加复杂、任务更加丰富、更接近实际应用。


基于 COCO 数据集,Facebook 人工智能研究院、谷歌研究院、加州理工学院等联合在每年的 ICCV 或 ECCV 会议上组织举办 COCO 系列视觉挑战赛。历年的 COCO 挑战赛是人工智能领域最具影响力的图像(物体)识别挑战赛,也代表了继 ImageNet 后图像(物体)识别的较高水平,在学术界和工业界具有很高的认可度和知名度。国内外知名的人工智能企业和科研机构如谷歌、Facebook、微软、清华大学、北京大学、商汤科技、旷视科技等均组队参加过历届 COCO 系列比赛。


今年的 COCO 比赛由 ECCV 2020 会议的 COCO-LVIS Joint Workshop 举办,共包括目标检测/实例分割、人体关键点检测、全景分割等赛道。芯翌科技(XForwardAI)算法团队此次参加了前两个赛道。在人体关键点检测赛道,芯翌科技获得了冠军,此次成绩在 test-dev 测评集上 AP 指标为 80.8%,相比较去年冠军方案(AP 指标为 79.2%)有了重大提升;在最终的 test-challenge 测评集上 AP 指标为 77.4%,刷新了该赛道的历史最好成绩。在目标检测/实例分割赛道,芯翌科技也取得了排名前列的成绩。



在人体关键点检测赛道,芯翌科技名列前茅

突破

芯翌科技算法团队在此次夺冠中使用了多项原创性技术创新,包括 CodeBase 可靠性的改善,以及在监督方面让网络更加关注约束信息。



论文地址:


https://arxiv.org/abs/1911.07524


代码地址:


https://github.com/HuangJunJie2017/UDP-Pose

人体姿态估计中无偏的数据处理


如上图所示,人体姿态估计任务中的数据处理主要包含两个环节:数据在不同坐标轴之间的变换和关键点坐标的编码解码。基于此,人体姿态估计任务中数据处理流可以用以下公式进行建模:



而无偏的数据处理则需要满足数据流的输入与输出严格相同,即:



由于评测会对偏差直接作出惩罚,无偏的数据处理对于高精度的人体姿态估计极为重要。此外,潜藏在数据流中的偏差会对研究造成严重的干扰,无偏的数据流是可靠 codebase 必不可少的特征。


芯翌科技的研究人员通过对现有的 codebase 进行推理分析,发现现有 SOTA 工作的数据处理中普遍存在偏差,这些偏差存在于上述两个环节中并相互耦合。一方面直接影响了算法的性能表现,另外一方面为后续的研究埋下了难以察觉的隐患。基于严格的数学推理,研究人员提出用于人体姿态估计无偏的数据处理流作为解决方案,在大幅度提升现有工作的性能表现的同时,为后续研究提供可靠的基础。



论文地址:


https://arxiv.org/abs/2008.07139


在提出 UDP 构建可靠的 CodeBase 之后,芯翌科技的研究人员又对人体姿态估计的性能瓶颈进行了分析。近几年来网络结构的改进是研究的重点,涌现了 SimpleBaseline, MSPN, HRNet, RSN 等一系列具有代表性的工作。而监督方面则一直沿用着位于关键点处的高斯响应图作为监督,此监督设计直观,其有效性也已被广泛证明。然而这种看似完美的监督是否存在缺点呢?答案是肯定的。


研究人员指出人类在定位图像中的人体关键点时使用了两种信息,外观信息和约束信息。外观信息是定位关键点的基础,而约束信息则在定位困难关键点时具有重要的指导意义。约束信息主要包含人体关键点之间固有的相互约束关系以及人体和环境交互形成的约束关系。直观上看,约束信息相比外观信息而言更复杂多样,对于网络而言学习难度更大,这会使得在外观信息充分的情况下,存在约束条件被忽视的可能。研究人员基于此假设,引入信息丢弃的正则化手段,通过在训练过程中以一定的概率丢弃关键点的外观信息,以此避免训练过程过拟合外观信息而忽视约束信息。



各种信息丢弃方法


虽然随机丢弃外观信息可以避免训练过程过拟合外观信息,但是由于外观信息是视觉定位人体关键点的基础,外观信息的缺乏会使得训练前期收敛较慢,网络需要一个更长训练周期才能达到完全收敛。




在实验中,研究人员通过使用多种基线验证了上述假设的合理性以及所提出方法的有效性。有趣的是,在不同的 baseline 上所提出的方法表现惊人的一致,这个一方面反映了这种过拟合外观信息的问题是广泛存在的,修改网络,增加数据并不能解决这个问题。另外一个方面也验证信息丢弃可以有效遏制这个问题。



下图中研究人员可视化了一些网络预测的结果,和标注结果以及没有使用信息丢弃增广时得到的结果进行比较。在外观信息缺乏或者外观信息具有迷惑性的场景中,约束信息显得尤为重要,而使用信息丢弃增广训练得到的模型,在这些情况下对关键点的定位更准确、合理。



结果可视化,从左到右分别是:标注结果、使用信息丢弃增广后的结果和没有使用信息丢弃增广的结果



2020 COCO Keypoint Challenge XForwardAI Road Map


芯翌科技的研究人员以开源的 HRNet CodeBase 为基础,通过技术突破把 HRNet-W32-256x192 配置的得分提升到 76.8AP。由于改进不针对网络结构,后续的增大网络容量和输入分辨率,以及增加训练数据等一系列操作均可带来稳定的提升。


此外因为沿用 top-down 的方法(先检测人,然后对每个 instance 进行关键点定位),人体检测的效果对最后人体姿态估计指标的影响接近线性。在通用目标检测赛道上,芯翌科技最终得分接近 60AP(bbox/test-dev),人体检测结果可为人体关键点检测提供一定程度的优势。


最后研究人员融合了多个关键点检测模型的结果,在 test-dev 上达到 80.8AP,远超历年冠军。在 test-challenge 上得分为 77.4AP,刷新了该赛道上的历史最高成绩的同时夺得该赛道的冠军。

总结与展望

芯翌科技的研究人员针对人体姿态估计问题提出了无偏的数据处理方法以及信息丢弃的正则化方法,在 CodeBase 的可靠性以及算法的鲁棒性两个方面作出突破。凭借技术创新,芯翌科技在 COCO 挑战赛的人体姿态估计赛道上成功夺冠。在未来,芯翌科技将坚持把基础做牢并不断探索和突破人工智能算法的上限。


作者介绍:


黄骏杰,芯翌科技算法工程师,人体姿态估计专家,2020 CVPR 论文一作,2020 年 COCO Challenge 人体关键点检测赛道冠军。专注于人体姿态识别,人脸识别等领域的研究和应用。


黄冠,芯翌科技算法研发总监,算法团队负责人。拥有近十年的深度学习、计算机视觉、自然语言处理相关经验,是国内最早开展深度学习用于目标检测、分割、关键点的一批人。多次带领团队获得 NIST-FRVT、COCO 等国际知名人工智能比赛优异成绩,在人工智能顶级会议和期刊上发表多篇论文,带领算法团队支撑了多个大规模智慧城市和复杂工业场景的业务落地,拥有丰富的学术研究和工业界产业落地研发经验。


2020-09-10 08:002366

评论

发布
暂无评论
发现更多内容

压缩上传的图片并返回图片路径

源字节1号

软件开发

学习大数据编程有前途吗

小谷哥

新零售进阶|从“人-货-场”到“北极星指标”

Kyligence

新零售业态 对齐指标 管理目标

【LeetCode】层数最深叶子节点的和Java题解

Albert

LeetCode 8月月更

会场及展位变更通知 | GOPS全球运维大会地址更改,龙智展位更换至#106

龙智—DevSecOps解决方案

gops GOPS全球运维大会

前端程序员培训学习未来的薪资怎么样

小谷哥

干净代码(Clean Code)实践如何帮助您留住开发人才

龙智—DevSecOps解决方案

代码质量 代码安全

汉诺塔(递归+ 非递归版)

Five

算法题 8月月更

HashMap为什么线程不安全?

Java面试那些事儿

Java jdk java程序员 java面试 hash map

面试官问:如何优化高并发相关的业务,你能回答的上来吗?

CRMEB

浏览器、负载均衡 、进程内部层...那些你需要掌握的多级缓存

华为云开发者联盟

缓存 前端 浏览器

龟兔赛跑:如何使用TortoiseSVN客户端和P4EXP

龙智—DevSecOps解决方案

git svn Subversion

程序员常用的IDE工具,你了解哪些?

Speedoooo

小程序 ide 开发者工具 前端开发工具

一加是oppo旗下的品牌吗?

Geek_8a195c

转行大数据培训学习应该注意什么?

小谷哥

云原生(十九) | Kubernetes篇之Kubernetes(k8s)网络

Lansonli

云原生 k8s 8月月更

今天4点,开发者关心的SysOM 操作系统运维系列直播又来了!| 第 42 期

OpenAnolis小助手

操作系统 系统运维 sig 龙蜥大讲堂 SysOM

买家手册:企业在选择 SBOM 供应商时需要注意什么?

SEAL安全

DevSecOps 开源软件供应链 软件物料清单 SBOM 软件供应链安全

有零有食携手阿里云&瓴羊共建企业数字化解决方案

瓴羊企业智能服务

一文读懂Web3 结算协议 Zebec Protocol 的商业模式与发展前景

西柚子

数据构造那些事儿

转转技术团队

测试左移 测试数据构造 测试提效

ITIL4实用指南 | ITSM的未来属于敏捷

龙智—DevSecOps解决方案

ITSM ITSM解决方案

惊呆了!有了这份MySQL笔记手册,胜过看10本书

冉然学Java

MySQL 编程 程序员 分布式 构架

转转风控「违禁物品识别」 背后的那些事儿

转转技术团队

人工智能’

解放双手!根据代码自动生成时序图,这款IDEA插件真香

程序知音

Java 程序员 后端

什么是对象存储?3000字给你整明明白白!

wljslmz

OSS 对象存储 OBS 存储技术 8月月更

Seata-php 半年规划

SOFAStack

php 开源 分布式 框架 seata

StarRocks 成都见!企业如何打造极速统一的数据分析新范式,助力业务全方位升级

StarRocks

数据库

React Native框架与小程序混编的方案

Geek_99967b

小程序

数字人民币如何影响传统支付?支付厂商数字人民币应用案例征集

易观分析

金融 数字人民币 传统支付

前端编程培训学习好就业吗

小谷哥

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享_AI&大模型_黄骏杰_InfoQ精选文章