数据采集、数据融合、平台能力构建、AI算法支持等方面最新技术实践分享>> 了解详情
写点什么

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享

  • 2020-09-10
  • 本文字数:2834 字

    阅读完需:约 9 分钟

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享

近日,计算机视觉三大国际顶级会议之一的 ECCV 2020 如约而至,COCO 作为 ECCV 2020 的重头戏,是人工智能领域最具影响力的图像(物体)识别挑战赛。本次大会,芯翌科技(XForwardAI)拿下了 COCO 视觉挑战赛—人体关键点检测赛道世界第一,在目标检测/实例分割赛道也取得了不错的成绩。



COCO (Common Objects in Context) 数据集是由微软研究院提出的大规模计算机视觉数据集,致力于对常见视觉任务(包括目标检测、实例分割、人体关键点检测、全景分割等)进行分析与评测。与之前的 PASCAL VOC、ImageNet 数据集不同的是,COCO 数据集场景更加复杂、任务更加丰富、更接近实际应用。


基于 COCO 数据集,Facebook 人工智能研究院、谷歌研究院、加州理工学院等联合在每年的 ICCV 或 ECCV 会议上组织举办 COCO 系列视觉挑战赛。历年的 COCO 挑战赛是人工智能领域最具影响力的图像(物体)识别挑战赛,也代表了继 ImageNet 后图像(物体)识别的较高水平,在学术界和工业界具有很高的认可度和知名度。国内外知名的人工智能企业和科研机构如谷歌、Facebook、微软、清华大学、北京大学、商汤科技、旷视科技等均组队参加过历届 COCO 系列比赛。


今年的 COCO 比赛由 ECCV 2020 会议的 COCO-LVIS Joint Workshop 举办,共包括目标检测/实例分割、人体关键点检测、全景分割等赛道。芯翌科技(XForwardAI)算法团队此次参加了前两个赛道。在人体关键点检测赛道,芯翌科技获得了冠军,此次成绩在 test-dev 测评集上 AP 指标为 80.8%,相比较去年冠军方案(AP 指标为 79.2%)有了重大提升;在最终的 test-challenge 测评集上 AP 指标为 77.4%,刷新了该赛道的历史最好成绩。在目标检测/实例分割赛道,芯翌科技也取得了排名前列的成绩。



在人体关键点检测赛道,芯翌科技名列前茅


突破

芯翌科技算法团队在此次夺冠中使用了多项原创性技术创新,包括 CodeBase 可靠性的改善,以及在监督方面让网络更加关注约束信息。



论文地址:


https://arxiv.org/abs/1911.07524


代码地址:


https://github.com/HuangJunJie2017/UDP-Pose


人体姿态估计中无偏的数据处理


如上图所示,人体姿态估计任务中的数据处理主要包含两个环节:数据在不同坐标轴之间的变换和关键点坐标的编码解码。基于此,人体姿态估计任务中数据处理流可以用以下公式进行建模:



而无偏的数据处理则需要满足数据流的输入与输出严格相同,即:



由于评测会对偏差直接作出惩罚,无偏的数据处理对于高精度的人体姿态估计极为重要。此外,潜藏在数据流中的偏差会对研究造成严重的干扰,无偏的数据流是可靠 codebase 必不可少的特征。


芯翌科技的研究人员通过对现有的 codebase 进行推理分析,发现现有 SOTA 工作的数据处理中普遍存在偏差,这些偏差存在于上述两个环节中并相互耦合。一方面直接影响了算法的性能表现,另外一方面为后续的研究埋下了难以察觉的隐患。基于严格的数学推理,研究人员提出用于人体姿态估计无偏的数据处理流作为解决方案,在大幅度提升现有工作的性能表现的同时,为后续研究提供可靠的基础。



论文地址:


https://arxiv.org/abs/2008.07139


在提出 UDP 构建可靠的 CodeBase 之后,芯翌科技的研究人员又对人体姿态估计的性能瓶颈进行了分析。近几年来网络结构的改进是研究的重点,涌现了 SimpleBaseline, MSPN, HRNet, RSN 等一系列具有代表性的工作。而监督方面则一直沿用着位于关键点处的高斯响应图作为监督,此监督设计直观,其有效性也已被广泛证明。然而这种看似完美的监督是否存在缺点呢?答案是肯定的。


研究人员指出人类在定位图像中的人体关键点时使用了两种信息,外观信息和约束信息。外观信息是定位关键点的基础,而约束信息则在定位困难关键点时具有重要的指导意义。约束信息主要包含人体关键点之间固有的相互约束关系以及人体和环境交互形成的约束关系。直观上看,约束信息相比外观信息而言更复杂多样,对于网络而言学习难度更大,这会使得在外观信息充分的情况下,存在约束条件被忽视的可能。研究人员基于此假设,引入信息丢弃的正则化手段,通过在训练过程中以一定的概率丢弃关键点的外观信息,以此避免训练过程过拟合外观信息而忽视约束信息。



各种信息丢弃方法


虽然随机丢弃外观信息可以避免训练过程过拟合外观信息,但是由于外观信息是视觉定位人体关键点的基础,外观信息的缺乏会使得训练前期收敛较慢,网络需要一个更长训练周期才能达到完全收敛。




在实验中,研究人员通过使用多种基线验证了上述假设的合理性以及所提出方法的有效性。有趣的是,在不同的 baseline 上所提出的方法表现惊人的一致,这个一方面反映了这种过拟合外观信息的问题是广泛存在的,修改网络,增加数据并不能解决这个问题。另外一个方面也验证信息丢弃可以有效遏制这个问题。



下图中研究人员可视化了一些网络预测的结果,和标注结果以及没有使用信息丢弃增广时得到的结果进行比较。在外观信息缺乏或者外观信息具有迷惑性的场景中,约束信息显得尤为重要,而使用信息丢弃增广训练得到的模型,在这些情况下对关键点的定位更准确、合理。



结果可视化,从左到右分别是:标注结果、使用信息丢弃增广后的结果和没有使用信息丢弃增广的结果



2020 COCO Keypoint Challenge XForwardAI Road Map


芯翌科技的研究人员以开源的 HRNet CodeBase 为基础,通过技术突破把 HRNet-W32-256x192 配置的得分提升到 76.8AP。由于改进不针对网络结构,后续的增大网络容量和输入分辨率,以及增加训练数据等一系列操作均可带来稳定的提升。


此外因为沿用 top-down 的方法(先检测人,然后对每个 instance 进行关键点定位),人体检测的效果对最后人体姿态估计指标的影响接近线性。在通用目标检测赛道上,芯翌科技最终得分接近 60AP(bbox/test-dev),人体检测结果可为人体关键点检测提供一定程度的优势。


最后研究人员融合了多个关键点检测模型的结果,在 test-dev 上达到 80.8AP,远超历年冠军。在 test-challenge 上得分为 77.4AP,刷新了该赛道上的历史最高成绩的同时夺得该赛道的冠军。


总结与展望

芯翌科技的研究人员针对人体姿态估计问题提出了无偏的数据处理方法以及信息丢弃的正则化方法,在 CodeBase 的可靠性以及算法的鲁棒性两个方面作出突破。凭借技术创新,芯翌科技在 COCO 挑战赛的人体姿态估计赛道上成功夺冠。在未来,芯翌科技将坚持把基础做牢并不断探索和突破人工智能算法的上限。


作者介绍:


黄骏杰,芯翌科技算法工程师,人体姿态估计专家,2020 CVPR 论文一作,2020 年 COCO Challenge 人体关键点检测赛道冠军。专注于人体姿态识别,人脸识别等领域的研究和应用。


黄冠,芯翌科技算法研发总监,算法团队负责人。拥有近十年的深度学习、计算机视觉、自然语言处理相关经验,是国内最早开展深度学习用于目标检测、分割、关键点的一批人。多次带领团队获得 NIST-FRVT、COCO 等国际知名人工智能比赛优异成绩,在人工智能顶级会议和期刊上发表多篇论文,带领算法团队支撑了多个大规模智慧城市和复杂工业场景的业务落地,拥有丰富的学术研究和工业界产业落地研发经验。


2020-09-10 08:001616

评论

发布
暂无评论
发现更多内容

架构师训练营第五周课后作业

万有引力

毕业三年,如何达到月薪30K?我想跟你聊聊!!

冰河

程序员 程序人生 架构师 升职加薪 提升自我

架构师训练营第 10 周课后练习

菜青虫

极客大学架构师训练营

Mybatis【11】-- Mybatis Mapper动态代理怎么写?

秦怀杂货店

mybatis mybatis源码

作业-第10周

arcyao

Mybatis【9】-- Mybatis占位符#{}和拼接符${}有什么区别?

秦怀杂货店

mybatis 预编译

Mybatis【10】-- Mybatis属性名和查询字段名不同怎么做?

秦怀杂货店

mybatis

设计模式【1.2】-- 枚举式单例有那么好用么?

秦怀杂货店

设计模式

10张图带你入门分布式链路追踪系统原理

爱笑的架构师

七日更

第五周总结

胡益

北漂码农的我,把在大城市过成了屯子一样舒服,哈哈哈哈哈!

小傅哥

小傅哥 技术人 打工人 七日更 落户

Mybatis【7】-- Mybatis如何知道增删改是否成功执行?

秦怀杂货店

Java mybatis

WLAN网络规划和优化的必备知识点

Android开发全套学习!不同层级的Android开发者的不同行为,学习路线+知识点梳理

欢喜学安卓

android 程序员 面试 移动开发

shark defi鲨鱼智能合约系统软件APP开发

系统开发

工具词典:PARA方法论

lidaobing

PKM Tiago Forte PARA 28天写作

架构师训练营第十周作业二

韩儿

安卓开发快速学习!一个小例子彻底搞懂Android的MVP模式到底是什么?面试必问

欢喜学安卓

android 程序员 面试 移动开发

Lambda【1】-- List相关Lambda表达式使用(上篇)

秦怀杂货店

Java Lambda

设计模式【2】-- 简单工厂模式了解一下?

秦怀杂货店

设计模式 工厂模式 工厂方法模式

Github标星5.3K,网易云的朋友给我这份339页的Android面经,附赠课程+题库

欢喜学安卓

android 程序员 面试 移动开发

花火交易所软件开发|花火交易所系统APP开发

系统开发

设计模式【1.3】-- 为什么饿汉式单例是线程安全的?

秦怀杂货店

单例模式

Mybatis【8】-- Mybatis返回List或者Map以及模糊查询怎么搞?

秦怀杂货店

Java mybatis

设计模式【1】-- 单例模式到底几种写法?

秦怀杂货店

设计模式

设计模式【1.1】-- 你想如何破坏单例模式?

秦怀杂货店

设计模式 单例 23种设计模式

架构师训练营:通达同城快递架构设计文档

9527

架构师训练营第 10 周学习总结

菜青虫

极客大学架构师训练营

JVM笔记【1】-- 运行时数据区

秦怀杂货店

JVM JVM笔记

生产环境全链路压测建设历程 21:某快递 A 股上市公司的生产压测案例之彩蛋2前言

数列科技杨德华

全链路压测 七日更

架构师训练营第十周作业一

韩儿

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享_AI_黄骏杰_InfoQ精选文章