【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享

  • 2020-09-10
  • 本文字数:2834 字

    阅读完需:约 9 分钟

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享

近日,计算机视觉三大国际顶级会议之一的 ECCV 2020 如约而至,COCO 作为 ECCV 2020 的重头戏,是人工智能领域最具影响力的图像(物体)识别挑战赛。本次大会,芯翌科技(XForwardAI)拿下了 COCO 视觉挑战赛—人体关键点检测赛道世界第一,在目标检测/实例分割赛道也取得了不错的成绩。



COCO (Common Objects in Context) 数据集是由微软研究院提出的大规模计算机视觉数据集,致力于对常见视觉任务(包括目标检测、实例分割、人体关键点检测、全景分割等)进行分析与评测。与之前的 PASCAL VOC、ImageNet 数据集不同的是,COCO 数据集场景更加复杂、任务更加丰富、更接近实际应用。


基于 COCO 数据集,Facebook 人工智能研究院、谷歌研究院、加州理工学院等联合在每年的 ICCV 或 ECCV 会议上组织举办 COCO 系列视觉挑战赛。历年的 COCO 挑战赛是人工智能领域最具影响力的图像(物体)识别挑战赛,也代表了继 ImageNet 后图像(物体)识别的较高水平,在学术界和工业界具有很高的认可度和知名度。国内外知名的人工智能企业和科研机构如谷歌、Facebook、微软、清华大学、北京大学、商汤科技、旷视科技等均组队参加过历届 COCO 系列比赛。


今年的 COCO 比赛由 ECCV 2020 会议的 COCO-LVIS Joint Workshop 举办,共包括目标检测/实例分割、人体关键点检测、全景分割等赛道。芯翌科技(XForwardAI)算法团队此次参加了前两个赛道。在人体关键点检测赛道,芯翌科技获得了冠军,此次成绩在 test-dev 测评集上 AP 指标为 80.8%,相比较去年冠军方案(AP 指标为 79.2%)有了重大提升;在最终的 test-challenge 测评集上 AP 指标为 77.4%,刷新了该赛道的历史最好成绩。在目标检测/实例分割赛道,芯翌科技也取得了排名前列的成绩。



在人体关键点检测赛道,芯翌科技名列前茅

突破

芯翌科技算法团队在此次夺冠中使用了多项原创性技术创新,包括 CodeBase 可靠性的改善,以及在监督方面让网络更加关注约束信息。



论文地址:


https://arxiv.org/abs/1911.07524


代码地址:


https://github.com/HuangJunJie2017/UDP-Pose

人体姿态估计中无偏的数据处理


如上图所示,人体姿态估计任务中的数据处理主要包含两个环节:数据在不同坐标轴之间的变换和关键点坐标的编码解码。基于此,人体姿态估计任务中数据处理流可以用以下公式进行建模:



而无偏的数据处理则需要满足数据流的输入与输出严格相同,即:



由于评测会对偏差直接作出惩罚,无偏的数据处理对于高精度的人体姿态估计极为重要。此外,潜藏在数据流中的偏差会对研究造成严重的干扰,无偏的数据流是可靠 codebase 必不可少的特征。


芯翌科技的研究人员通过对现有的 codebase 进行推理分析,发现现有 SOTA 工作的数据处理中普遍存在偏差,这些偏差存在于上述两个环节中并相互耦合。一方面直接影响了算法的性能表现,另外一方面为后续的研究埋下了难以察觉的隐患。基于严格的数学推理,研究人员提出用于人体姿态估计无偏的数据处理流作为解决方案,在大幅度提升现有工作的性能表现的同时,为后续研究提供可靠的基础。



论文地址:


https://arxiv.org/abs/2008.07139


在提出 UDP 构建可靠的 CodeBase 之后,芯翌科技的研究人员又对人体姿态估计的性能瓶颈进行了分析。近几年来网络结构的改进是研究的重点,涌现了 SimpleBaseline, MSPN, HRNet, RSN 等一系列具有代表性的工作。而监督方面则一直沿用着位于关键点处的高斯响应图作为监督,此监督设计直观,其有效性也已被广泛证明。然而这种看似完美的监督是否存在缺点呢?答案是肯定的。


研究人员指出人类在定位图像中的人体关键点时使用了两种信息,外观信息和约束信息。外观信息是定位关键点的基础,而约束信息则在定位困难关键点时具有重要的指导意义。约束信息主要包含人体关键点之间固有的相互约束关系以及人体和环境交互形成的约束关系。直观上看,约束信息相比外观信息而言更复杂多样,对于网络而言学习难度更大,这会使得在外观信息充分的情况下,存在约束条件被忽视的可能。研究人员基于此假设,引入信息丢弃的正则化手段,通过在训练过程中以一定的概率丢弃关键点的外观信息,以此避免训练过程过拟合外观信息而忽视约束信息。



各种信息丢弃方法


虽然随机丢弃外观信息可以避免训练过程过拟合外观信息,但是由于外观信息是视觉定位人体关键点的基础,外观信息的缺乏会使得训练前期收敛较慢,网络需要一个更长训练周期才能达到完全收敛。




在实验中,研究人员通过使用多种基线验证了上述假设的合理性以及所提出方法的有效性。有趣的是,在不同的 baseline 上所提出的方法表现惊人的一致,这个一方面反映了这种过拟合外观信息的问题是广泛存在的,修改网络,增加数据并不能解决这个问题。另外一个方面也验证信息丢弃可以有效遏制这个问题。



下图中研究人员可视化了一些网络预测的结果,和标注结果以及没有使用信息丢弃增广时得到的结果进行比较。在外观信息缺乏或者外观信息具有迷惑性的场景中,约束信息显得尤为重要,而使用信息丢弃增广训练得到的模型,在这些情况下对关键点的定位更准确、合理。



结果可视化,从左到右分别是:标注结果、使用信息丢弃增广后的结果和没有使用信息丢弃增广的结果



2020 COCO Keypoint Challenge XForwardAI Road Map


芯翌科技的研究人员以开源的 HRNet CodeBase 为基础,通过技术突破把 HRNet-W32-256x192 配置的得分提升到 76.8AP。由于改进不针对网络结构,后续的增大网络容量和输入分辨率,以及增加训练数据等一系列操作均可带来稳定的提升。


此外因为沿用 top-down 的方法(先检测人,然后对每个 instance 进行关键点定位),人体检测的效果对最后人体姿态估计指标的影响接近线性。在通用目标检测赛道上,芯翌科技最终得分接近 60AP(bbox/test-dev),人体检测结果可为人体关键点检测提供一定程度的优势。


最后研究人员融合了多个关键点检测模型的结果,在 test-dev 上达到 80.8AP,远超历年冠军。在 test-challenge 上得分为 77.4AP,刷新了该赛道上的历史最高成绩的同时夺得该赛道的冠军。

总结与展望

芯翌科技的研究人员针对人体姿态估计问题提出了无偏的数据处理方法以及信息丢弃的正则化方法,在 CodeBase 的可靠性以及算法的鲁棒性两个方面作出突破。凭借技术创新,芯翌科技在 COCO 挑战赛的人体姿态估计赛道上成功夺冠。在未来,芯翌科技将坚持把基础做牢并不断探索和突破人工智能算法的上限。


作者介绍:


黄骏杰,芯翌科技算法工程师,人体姿态估计专家,2020 CVPR 论文一作,2020 年 COCO Challenge 人体关键点检测赛道冠军。专注于人体姿态识别,人脸识别等领域的研究和应用。


黄冠,芯翌科技算法研发总监,算法团队负责人。拥有近十年的深度学习、计算机视觉、自然语言处理相关经验,是国内最早开展深度学习用于目标检测、分割、关键点的一批人。多次带领团队获得 NIST-FRVT、COCO 等国际知名人工智能比赛优异成绩,在人工智能顶级会议和期刊上发表多篇论文,带领算法团队支撑了多个大规模智慧城市和复杂工业场景的业务落地,拥有丰富的学术研究和工业界产业落地研发经验。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-09-10 08:001895

评论

发布
暂无评论
发现更多内容

openGauss都做了哪些算子优化工作?

openGauss

云原生时代全链路观测体系构建

嘉为蓝鲸

REST API 设计规范:最佳实践和示例

Apifox

程序员 协议 API 接口开发 REST API

别再吐槽公厕了!杭州智慧公厕解决方案带来惊喜

光明源智慧厕所

智慧城市

慌了?ChatGPT吃我的饭,还要掀我碗

引迈信息

AI 低代码 ChatGPT JNPF

盘点 8 款好用的 API 接口文档管理工具

Liam

程序员 接口文档 API 接口规范 接口编写

一文读懂域名注册

火山引擎边缘云

证书 域名 域名服务器

一文读懂Annotation

老周聊架构

三周年连更

openGauss社区用户委员会工作会议顺利召开

openGauss

大数据学习培训机构该怎么去选择

小谷哥

DevOps系列之 —— 持续规划与设计(三)敏捷项目管理的方法【Kanban 与 Scrum】

若尘

DevOps #DevOps 三周年连更

全球首个完全开源的指令跟随大模型;T5到GPT-4最全盘点

OneFlow

openGauss 5.0.0版本正式发布!

openGauss

前端开发培训机构怎么样

小谷哥

云和恩墨大讲堂 x 长江鲲鹏 x openGauss Meetup(武汉站)圆满落幕!

openGauss

软件测试/测试开发丨基于 JMeter 完成 Dubbo 接口的测试

测试人

dubbo 软件测试 Jmeter 自动化测试 测试开发

加速文件传输协议如何工作

镭速

MobTech ShareSDK|如何从分享到回流

MobTech袤博科技

HuggingGPT 强势来袭,LLM+ 专家模型,迈向更通用的AI

Zilliz

Zilliz Towhee ChatGPT LLM huggingface

达观助手AI写作下载安装教程及特色功能详解,速速收藏体验!

NLP资深玩家

不会吧?该不会还有企业没实现员工赋能吧!绝对是你没选低代码的问题!

加入高科技仿生人

知识管理 低代码 系统开发 员工赋能

华中科技大学网络空间安全学院正式加入openGauss社区

openGauss

ChatGPT大面积封号+停止注册?最火概念要凉?

这我可不懂

低代码 源代码 ChatGPT

江苏智慧公厕:让厕所成为城市新名片

光明源智慧厕所

智慧园区

vue3 +ts 如何安装封装axios

肥晨

Vue3 三周年连更

除了价格降70%,关于对象存储预留空间你还需要了解这些

云布道师

云存储

devops|中小公司不要做研发效能度量

laofo

DevOps 研发效能 效能度量 DevOps工具链 研发效能度量

便捷高效,Notion AI比ChatGPT更加香!

南城FE

人工智能 AI 前端 ChatGPT

openGauss社区三月运作报告

openGauss

Node.js实现JWT应用到服务器

格斗家不爱在外太空沉思

node.js 三周年连更

车企外卷:一个关于智能手机的“围城故事”

脑极体

手机 车企

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享_AI&大模型_黄骏杰_InfoQ精选文章