ECCV 2020 | COCO 视觉挑战赛揭榜，人体关键点检测赛道冠军技术干货分享_AI&大模型_黄骏杰

阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见，现购票可享受 9 折优惠｜AICon 了解详情 



 写点什么

ECCV 2020 | COCO 视觉挑战赛揭榜，人体关键点检测赛道冠军技术干货分享

近日，计算机视觉三大国际顶级会议之一的 ECCV 2020 如约而至，COCO 作为 ECCV 2020 的重头戏，是人工智能领域最具影响力的图像（物体）识别挑战赛。本次大会，芯翌科技（XForwardAI）拿下了 COCO 视觉挑战赛—人体关键点检测赛道世界第一，在目标检测/实例分割赛道也取得了不错的成绩。

COCO (Common Objects in Context) 数据集是由微软研究院提出的大规模计算机视觉数据集，致力于对常见视觉任务（包括目标检测、实例分割、人体关键点检测、全景分割等）进行分析与评测。与之前的 PASCAL VOC、ImageNet 数据集不同的是，COCO 数据集场景更加复杂、任务更加丰富、更接近实际应用。

基于 COCO 数据集，Facebook 人工智能研究院、谷歌研究院、加州理工学院等联合在每年的 ICCV 或 ECCV 会议上组织举办 COCO 系列视觉挑战赛。历年的 COCO 挑战赛是人工智能领域最具影响力的图像（物体）识别挑战赛，也代表了继 ImageNet 后图像（物体）识别的较高水平，在学术界和工业界具有很高的认可度和知名度。国内外知名的人工智能企业和科研机构如谷歌、Facebook、微软、清华大学、北京大学、商汤科技、旷视科技等均组队参加过历届 COCO 系列比赛。

今年的 COCO 比赛由 ECCV 2020 会议的 COCO-LVIS Joint Workshop 举办，共包括目标检测/实例分割、人体关键点检测、全景分割等赛道。芯翌科技（XForwardAI）算法团队此次参加了前两个赛道。在人体关键点检测赛道，芯翌科技获得了冠军，此次成绩在 test-dev 测评集上 AP 指标为 80.8%，相比较去年冠军方案（AP 指标为 79.2%）有了重大提升；在最终的 test-challenge 测评集上 AP 指标为 77.4%，刷新了该赛道的历史最好成绩。在目标检测/实例分割赛道，芯翌科技也取得了排名前列的成绩。

在人体关键点检测赛道，芯翌科技名列前茅

突破

芯翌科技算法团队在此次夺冠中使用了多项原创性技术创新，包括 CodeBase 可靠性的改善，以及在监督方面让网络更加关注约束信息。

论文地址：

https://arxiv.org/abs/1911.07524

代码地址：

https://github.com/HuangJunJie2017/UDP-Pose

人体姿态估计中无偏的数据处理

如上图所示，人体姿态估计任务中的数据处理主要包含两个环节：数据在不同坐标轴之间的变换和关键点坐标的编码解码。基于此，人体姿态估计任务中数据处理流可以用以下公式进行建模：

而无偏的数据处理则需要满足数据流的输入与输出严格相同，即：

由于评测会对偏差直接作出惩罚，无偏的数据处理对于高精度的人体姿态估计极为重要。此外，潜藏在数据流中的偏差会对研究造成严重的干扰，无偏的数据流是可靠 codebase 必不可少的特征。

芯翌科技的研究人员通过对现有的 codebase 进行推理分析，发现现有 SOTA 工作的数据处理中普遍存在偏差，这些偏差存在于上述两个环节中并相互耦合。一方面直接影响了算法的性能表现，另外一方面为后续的研究埋下了难以察觉的隐患。基于严格的数学推理，研究人员提出用于人体姿态估计无偏的数据处理流作为解决方案，在大幅度提升现有工作的性能表现的同时，为后续研究提供可靠的基础。

论文地址：

https://arxiv.org/abs/2008.07139

在提出 UDP 构建可靠的 CodeBase 之后，芯翌科技的研究人员又对人体姿态估计的性能瓶颈进行了分析。近几年来网络结构的改进是研究的重点，涌现了 SimpleBaseline, MSPN, HRNet, RSN 等一系列具有代表性的工作。而监督方面则一直沿用着位于关键点处的高斯响应图作为监督，此监督设计直观，其有效性也已被广泛证明。然而这种看似完美的监督是否存在缺点呢？答案是肯定的。

研究人员指出人类在定位图像中的人体关键点时使用了两种信息，外观信息和约束信息。外观信息是定位关键点的基础，而约束信息则在定位困难关键点时具有重要的指导意义。约束信息主要包含人体关键点之间固有的相互约束关系以及人体和环境交互形成的约束关系。直观上看，约束信息相比外观信息而言更复杂多样，对于网络而言学习难度更大，这会使得在外观信息充分的情况下，存在约束条件被忽视的可能。研究人员基于此假设，引入信息丢弃的正则化手段，通过在训练过程中以一定的概率丢弃关键点的外观信息，以此避免训练过程过拟合外观信息而忽视约束信息。

各种信息丢弃方法

虽然随机丢弃外观信息可以避免训练过程过拟合外观信息，但是由于外观信息是视觉定位人体关键点的基础，外观信息的缺乏会使得训练前期收敛较慢，网络需要一个更长训练周期才能达到完全收敛。

在实验中，研究人员通过使用多种基线验证了上述假设的合理性以及所提出方法的有效性。有趣的是，在不同的 baseline 上所提出的方法表现惊人的一致，这个一方面反映了这种过拟合外观信息的问题是广泛存在的，修改网络，增加数据并不能解决这个问题。另外一个方面也验证信息丢弃可以有效遏制这个问题。

下图中研究人员可视化了一些网络预测的结果，和标注结果以及没有使用信息丢弃增广时得到的结果进行比较。在外观信息缺乏或者外观信息具有迷惑性的场景中，约束信息显得尤为重要，而使用信息丢弃增广训练得到的模型，在这些情况下对关键点的定位更准确、合理。

结果可视化，从左到右分别是：标注结果、使用信息丢弃增广后的结果和没有使用信息丢弃增广的结果

2020 COCO Keypoint Challenge XForwardAI Road Map

芯翌科技的研究人员以开源的 HRNet CodeBase 为基础，通过技术突破把 HRNet-W32-256x192 配置的得分提升到 76.8AP。由于改进不针对网络结构，后续的增大网络容量和输入分辨率，以及增加训练数据等一系列操作均可带来稳定的提升。

此外因为沿用 top-down 的方法（先检测人，然后对每个 instance 进行关键点定位），人体检测的效果对最后人体姿态估计指标的影响接近线性。在通用目标检测赛道上，芯翌科技最终得分接近 60AP（bbox/test-dev），人体检测结果可为人体关键点检测提供一定程度的优势。

最后研究人员融合了多个关键点检测模型的结果，在 test-dev 上达到 80.8AP，远超历年冠军。在 test-challenge 上得分为 77.4AP，刷新了该赛道上的历史最高成绩的同时夺得该赛道的冠军。

总结与展望

芯翌科技的研究人员针对人体姿态估计问题提出了无偏的数据处理方法以及信息丢弃的正则化方法，在 CodeBase 的可靠性以及算法的鲁棒性两个方面作出突破。凭借技术创新，芯翌科技在 COCO 挑战赛的人体姿态估计赛道上成功夺冠。在未来，芯翌科技将坚持把基础做牢并不断探索和突破人工智能算法的上限。

作者介绍：

黄骏杰，芯翌科技算法工程师，人体姿态估计专家，2020 CVPR 论文一作，2020 年 COCO Challenge 人体关键点检测赛道冠军。专注于人体姿态识别，人脸识别等领域的研究和应用。

黄冠，芯翌科技算法研发总监，算法团队负责人。拥有近十年的深度学习、计算机视觉、自然语言处理相关经验，是国内最早开展深度学习用于目标检测、分割、关键点的一批人。多次带领团队获得 NIST-FRVT、COCO 等国际知名人工智能比赛优异成绩，在人工智能顶级会议和期刊上发表多篇论文，带领算法团队支撑了多个大规模智慧城市和复杂工业场景的业务落地，拥有丰富的学术研究和工业界产业落地研发经验。

公众号推荐：

2024 年 1 月，InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》，揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步，预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」，回复「大模型报告」免费获取电子版研究报告。

发布

暂无评论

创作场景

ECCV 2020 | COCO 视觉挑战赛揭榜，人体关键点检测赛道冠军技术干货分享

突破

人体姿态估计中无偏的数据处理

总结与展望

公众号推荐：

评论

书单 | 云端架构怎么设计才好？这几本书告诉你！

创建索引源码学习

Antd多文件上传后台接收为null问题

Docker原理——启动时的icc标志的原理

面向流批一体的 Flink Runtime 新进展

2022-03微软漏洞通告

JavaScript 基础（三）：数组和对象

大数据培训：Spark性能调优与参数配置

WMS仓储管理系统解决方案

阿里巴巴基于应用和变更的交付模式｜阿里巴巴DevOps实践指南

java培训：22道springboot高频面试题

反射解析与使用

开源，从一个轮子说起｜趣说开源

Go语言使用gorm对MySQL进行性能测试

银行卡信息精准识别-智能快速绑卡

【高并发】不得不说的线程池与ThreadPoolExecutor类浅析

Flink CDC 项目 GitHub star 破 2000，新增 Maintainer 成员

为什么要学习togaf的不完全分析

阿里巴巴监管控一体化运维｜阿里巴巴DevOps实践指南

低代码和无代码的注意事项

Spring Cloud Ribbon 中的 7 种负载均衡策略

《重学Java设计模式》作者开始录视频了！

程序员大学四年有对象和没对象的区别，对你工作有什么影响

从0到1万字贴心讲解单体架构到分布式架构的演变(第一篇)

两行代码助你搞定SAST（静态应用程序安全测试）

电影图书电视剧

Java面向对象知识点拆分（二）

web前端培训：react的多环境灵活配置

如何解决海量数据更新场景下的Mysql死锁问题

汽车之家基于 Flink 的实时计算平台 3.0 建设实践

2021年第4季度记账理财应用监测，头部集聚加强，领跑者转型发展

创作场景

ECCV 2020 | COCO 视觉挑战赛揭榜，人体关键点检测赛道冠军技术干货分享

突破

人体姿态估计中无偏的数据处理

总结与展望

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载