写点什么

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享

  • 2020-09-10
  • 本文字数:2834 字

    阅读完需:约 9 分钟

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享

近日,计算机视觉三大国际顶级会议之一的 ECCV 2020 如约而至,COCO 作为 ECCV 2020 的重头戏,是人工智能领域最具影响力的图像(物体)识别挑战赛。本次大会,芯翌科技(XForwardAI)拿下了 COCO 视觉挑战赛—人体关键点检测赛道世界第一,在目标检测/实例分割赛道也取得了不错的成绩。



COCO (Common Objects in Context) 数据集是由微软研究院提出的大规模计算机视觉数据集,致力于对常见视觉任务(包括目标检测、实例分割、人体关键点检测、全景分割等)进行分析与评测。与之前的 PASCAL VOC、ImageNet 数据集不同的是,COCO 数据集场景更加复杂、任务更加丰富、更接近实际应用。


基于 COCO 数据集,Facebook 人工智能研究院、谷歌研究院、加州理工学院等联合在每年的 ICCV 或 ECCV 会议上组织举办 COCO 系列视觉挑战赛。历年的 COCO 挑战赛是人工智能领域最具影响力的图像(物体)识别挑战赛,也代表了继 ImageNet 后图像(物体)识别的较高水平,在学术界和工业界具有很高的认可度和知名度。国内外知名的人工智能企业和科研机构如谷歌、Facebook、微软、清华大学、北京大学、商汤科技、旷视科技等均组队参加过历届 COCO 系列比赛。


今年的 COCO 比赛由 ECCV 2020 会议的 COCO-LVIS Joint Workshop 举办,共包括目标检测/实例分割、人体关键点检测、全景分割等赛道。芯翌科技(XForwardAI)算法团队此次参加了前两个赛道。在人体关键点检测赛道,芯翌科技获得了冠军,此次成绩在 test-dev 测评集上 AP 指标为 80.8%,相比较去年冠军方案(AP 指标为 79.2%)有了重大提升;在最终的 test-challenge 测评集上 AP 指标为 77.4%,刷新了该赛道的历史最好成绩。在目标检测/实例分割赛道,芯翌科技也取得了排名前列的成绩。



在人体关键点检测赛道,芯翌科技名列前茅

突破

芯翌科技算法团队在此次夺冠中使用了多项原创性技术创新,包括 CodeBase 可靠性的改善,以及在监督方面让网络更加关注约束信息。



论文地址:


https://arxiv.org/abs/1911.07524


代码地址:


https://github.com/HuangJunJie2017/UDP-Pose

人体姿态估计中无偏的数据处理


如上图所示,人体姿态估计任务中的数据处理主要包含两个环节:数据在不同坐标轴之间的变换和关键点坐标的编码解码。基于此,人体姿态估计任务中数据处理流可以用以下公式进行建模:



而无偏的数据处理则需要满足数据流的输入与输出严格相同,即:



由于评测会对偏差直接作出惩罚,无偏的数据处理对于高精度的人体姿态估计极为重要。此外,潜藏在数据流中的偏差会对研究造成严重的干扰,无偏的数据流是可靠 codebase 必不可少的特征。


芯翌科技的研究人员通过对现有的 codebase 进行推理分析,发现现有 SOTA 工作的数据处理中普遍存在偏差,这些偏差存在于上述两个环节中并相互耦合。一方面直接影响了算法的性能表现,另外一方面为后续的研究埋下了难以察觉的隐患。基于严格的数学推理,研究人员提出用于人体姿态估计无偏的数据处理流作为解决方案,在大幅度提升现有工作的性能表现的同时,为后续研究提供可靠的基础。



论文地址:


https://arxiv.org/abs/2008.07139


在提出 UDP 构建可靠的 CodeBase 之后,芯翌科技的研究人员又对人体姿态估计的性能瓶颈进行了分析。近几年来网络结构的改进是研究的重点,涌现了 SimpleBaseline, MSPN, HRNet, RSN 等一系列具有代表性的工作。而监督方面则一直沿用着位于关键点处的高斯响应图作为监督,此监督设计直观,其有效性也已被广泛证明。然而这种看似完美的监督是否存在缺点呢?答案是肯定的。


研究人员指出人类在定位图像中的人体关键点时使用了两种信息,外观信息和约束信息。外观信息是定位关键点的基础,而约束信息则在定位困难关键点时具有重要的指导意义。约束信息主要包含人体关键点之间固有的相互约束关系以及人体和环境交互形成的约束关系。直观上看,约束信息相比外观信息而言更复杂多样,对于网络而言学习难度更大,这会使得在外观信息充分的情况下,存在约束条件被忽视的可能。研究人员基于此假设,引入信息丢弃的正则化手段,通过在训练过程中以一定的概率丢弃关键点的外观信息,以此避免训练过程过拟合外观信息而忽视约束信息。



各种信息丢弃方法


虽然随机丢弃外观信息可以避免训练过程过拟合外观信息,但是由于外观信息是视觉定位人体关键点的基础,外观信息的缺乏会使得训练前期收敛较慢,网络需要一个更长训练周期才能达到完全收敛。




在实验中,研究人员通过使用多种基线验证了上述假设的合理性以及所提出方法的有效性。有趣的是,在不同的 baseline 上所提出的方法表现惊人的一致,这个一方面反映了这种过拟合外观信息的问题是广泛存在的,修改网络,增加数据并不能解决这个问题。另外一个方面也验证信息丢弃可以有效遏制这个问题。



下图中研究人员可视化了一些网络预测的结果,和标注结果以及没有使用信息丢弃增广时得到的结果进行比较。在外观信息缺乏或者外观信息具有迷惑性的场景中,约束信息显得尤为重要,而使用信息丢弃增广训练得到的模型,在这些情况下对关键点的定位更准确、合理。



结果可视化,从左到右分别是:标注结果、使用信息丢弃增广后的结果和没有使用信息丢弃增广的结果



2020 COCO Keypoint Challenge XForwardAI Road Map


芯翌科技的研究人员以开源的 HRNet CodeBase 为基础,通过技术突破把 HRNet-W32-256x192 配置的得分提升到 76.8AP。由于改进不针对网络结构,后续的增大网络容量和输入分辨率,以及增加训练数据等一系列操作均可带来稳定的提升。


此外因为沿用 top-down 的方法(先检测人,然后对每个 instance 进行关键点定位),人体检测的效果对最后人体姿态估计指标的影响接近线性。在通用目标检测赛道上,芯翌科技最终得分接近 60AP(bbox/test-dev),人体检测结果可为人体关键点检测提供一定程度的优势。


最后研究人员融合了多个关键点检测模型的结果,在 test-dev 上达到 80.8AP,远超历年冠军。在 test-challenge 上得分为 77.4AP,刷新了该赛道上的历史最高成绩的同时夺得该赛道的冠军。

总结与展望

芯翌科技的研究人员针对人体姿态估计问题提出了无偏的数据处理方法以及信息丢弃的正则化方法,在 CodeBase 的可靠性以及算法的鲁棒性两个方面作出突破。凭借技术创新,芯翌科技在 COCO 挑战赛的人体姿态估计赛道上成功夺冠。在未来,芯翌科技将坚持把基础做牢并不断探索和突破人工智能算法的上限。


作者介绍:


黄骏杰,芯翌科技算法工程师,人体姿态估计专家,2020 CVPR 论文一作,2020 年 COCO Challenge 人体关键点检测赛道冠军。专注于人体姿态识别,人脸识别等领域的研究和应用。


黄冠,芯翌科技算法研发总监,算法团队负责人。拥有近十年的深度学习、计算机视觉、自然语言处理相关经验,是国内最早开展深度学习用于目标检测、分割、关键点的一批人。多次带领团队获得 NIST-FRVT、COCO 等国际知名人工智能比赛优异成绩,在人工智能顶级会议和期刊上发表多篇论文,带领算法团队支撑了多个大规模智慧城市和复杂工业场景的业务落地,拥有丰富的学术研究和工业界产业落地研发经验。


2020-09-10 08:002816

评论

发布
暂无评论
发现更多内容

出版社题库管理系统的技术架构

北京木奇移动技术有限公司

软件外包公司 出版社 题库管理系统

博睿数据受邀出席“AI助力湾区数智金融会议”,分享主题演讲

博睿数据

基于 PHP/Java 的淘宝 API 调用实践:从商品详情页 JSON 数据解析到结构化重构

代码忍者

淘宝API接口

TLM算法仿真5G毫米波手机天线和整机

思茂信息

5G 仿真 CST Studio Suite

质量管理中的IQC、PQC、FQC、OQC

积木链小链

质量管理 数字化 智能制造

“全球金牌敏捷课程” · 5月10-11日CSM认证课程

ShineScrum

敏捷 敏捷教练 项目经理 CSM认证 CSM认证培训

Featured.com收购HARO

财见

“敏捷产品管理精进课程” 6月14-15日 · A-CSPO认证【提前报名特惠】

ShineScrum

敏捷 PO 敏捷教练 产品负责人 CSPO认证

【FAQ】HarmonyOS SDK 闭源开放能力 —Health Service Kit

HarmonyOS SDK

harmoyos

利用Apipost轻松实现用户充值系统的API自动化测试

数据追梦人

Spark on K8s 在vivo大数据平台的混部实战

vivo互联网技术

大数据 spark 容器化

能否将扩散模型思想应用于 LLMs 领域?大型语言扩散模型(LLDM)详解

Baihai IDP

程序员 AI LLMs LLDM LLaDA

出版社题库管理系统的功能

北京木奇移动技术有限公司

软件外包公司 出版社 题库管理系统

深入研究:1688商品跨境属性API接口详解

tbapi

1688API 1688跨境代采 1688商品属性接口 1688跨境属性接口

热门活动速递 | AI 原生应用开发实战营·深圳站

阿里巴巴云原生

阿里云 云原生

在BeeWorks中,网盘和即时通讯如何互相集成?

BeeWorks

即时通讯 IM 企业级应用

利用大模型实现地理领域文档中英文自动化翻译

亚马逊云科技 (Amazon Web Services)

用友BIP 智能产品三连发,推动制造企业稳质量、降成本、提效率、增收入!

用友BIP

一键部署 Dify + MCP Server,高效开发 AI 智能体应用

阿里巴巴云原生

AI重构商品计划管理:时尚品牌决胜未来的四大核心能力

第七在线

出版社题库管理系统的技术难点

北京木奇移动技术有限公司

软件外包公司 出版社 题库系统开发

AI与智能客服:如何让AI为企业提供更高效、更人性化的客户服务?

天津汇柏科技有限公司

人工智能 智能客服 AI 人工智能

K8S 部署 Deepseek 要 3 天?别逗了!Ollama+GPU Operator 1 小时搞定

北京好雨科技有限公司

k8s rainbond 企业号 4 月 PK 榜 gpu 算力 DeepSeek R1 模型

ArkUI-X 5.0.4 Release:跨平台开发的全新体验

坚果

鸿蒙 HarmonyOS 坚果派

电商多平台聚合搜索API开发全攻略:淘宝/1688/某东一站式打通!

代码忍者

API接口工具

巴塞罗那对阵塞尔塔:一场事关竞逐西甲联赛冠军与冲击欧战资格的较量

新消费日报

出版社题库管理系统的开发

北京木奇移动技术有限公司

软件外包公司 出版社 题库管理系统

汇源与用友战略签约,共启果汁行业数智发展新纪元!

用友BIP

乐言科技:云原生加速电商行业赋能,云消息队列助力降本 37%

阿里巴巴云原生

阿里云 云原生

内部聊天软件,BeeWorks-安全的企业内部通讯软件

BeeWorks

即时通讯 IM 私有化部署 局域网视频软件

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享_AI&大模型_黄骏杰_InfoQ精选文章