最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

计算机视觉“奥斯卡”CVPR 2020 公布收录论文,百度入选 22 篇

  • 2020-03-19
  • 本文字数:5702 字

    阅读完需:约 19 分钟

计算机视觉“奥斯卡”CVPR 2020公布收录论文,百度入选22篇

近日,计算机视觉领域“奥斯卡”CVPR 2020 官方公布论文收录结果,伴随投稿数量激增,接收率开始经历了一个持续下降的过程。今年,在 6656 篇有效投稿中,共有 1470 篇论文被接收,接收率为 22%左右,相较去年 25%的入选率,同比下降 3%。在论文接收率下降的同时,中国科技企业被录取论文数量却不降反增,百度作为 AI 代表企业今年中选 22 篇,比去年的 17 篇增加了 5 篇。


近年来,CVPR 蓬勃发展的重要原因,很大一部分是源自于中国科技公司的贡献。本次会议中,百度入选论文 22 篇,全面涵盖视觉领域下的人脸检测 &识别、视频理解 &分析、图像超分辨、及自动驾驶中的车辆检测、场景实例级分割等众多热门子领域,也向国际领域展示了中国视觉技术水平的深厚积累。


如下为百度入选 CVPR 2020 的部分论文展示

人脸检测 &识别

HAMBox: Delving into Online High-quality Anchors for Detecting Outer Faces



近期,关于人脸检测器利用锚点构建一个结合分类和坐标框回归的多任务学习问题,有效的锚点设计和锚点匹配策略使得人脸检测器能够在大姿态和尺度变化下精准定位人脸。本次论文中,百度提出了一种在线高质量锚点挖掘策略 HAMBox, 它可以使得异常人脸(outer faces)被补偿高质量的锚点。HAMBox 方法可以成为一种基于锚点的单步骤人脸检测器的通用优化方案。该方案在 WIDER FACE、FDDB、AFW 和 PASCAL Face 多个数据集上的实验表明了其优越性,同时在 2019 年 WIDER Face and Pedestrian Challenge 上,以 mAP 57.13%获得冠军,享誉国际。


FaceScape: a Large-scale High Quality 3D Face Dataset and Detailed Riggable 3D Face Prediction



该论文发布大尺度高精度人脸三维模型数据库 FaceScape,并首次提出从单幅图像预测高精度、可操控人脸三维模型的方法。FaceScape 数据库包含约 18000 个高精度三维面部模型,每个模型包含基底模型和 4K 分辨率的置换图及纹理贴图,能够表征出面部极细微的三维结构和纹理。与现有公开的三维人脸数据库相比,FaceScape 在模型数量和质量上均处于世界最高水准。在 FaceScape 数据库的基础之上,本文还探索了一项具有挑战性的新课题:以单幅人脸图像为输入,预测高精度、表情可操控的三维人脸模型。该方法的预测结果能够通过表情操控生成精细的面部模型序列,所生成的模型在新表情下仍然包含逼真的细节三维结构。据悉,FaceScape 数据库和代码将于近期免费发布,供非商业用途的学术研究使用。


Hierarchical Pyramid Diverse Attention Network for Face Recognition



目前主流的人脸识别方法很少考虑不同层的多尺度局部特征。为此,本文提出了一个分层的金字塔多样化注意力模型。当面部全局外观发生巨大变化时,局部区域将起重要作用。最近的一些工作应用注意力模块来自动定位局部区域。如果不考虑多样性,所学的注意力通常会在一些相似的局部块周围产生冗余的响应,而忽略了其他潜在的有判别力的局部块。此外,由于姿态或表情变化,局部块可能以不同的尺度出现。为了缓解这些挑战,百度团队提出了一种金字塔多样化注意模块,以自动和自适应地学习多尺度的多样化局部表示。更具体地说,开发了金字塔注意力模块以捕获多尺度特征;同时为了鼓励模型专注于不同的局部块,开发了多元化的学习方法。其次,为了融合来自低层的局部细节或小尺度面部特征图,可以使用分层双线性池化来代替串联或添加。

目标检测 &跟踪

Associate-3Ddet: Perceptual-to-Conceptual association for 3D Point Cloud Object Detection



目标检测技术是机器人和自动驾驶领域中最重要的模式识别任务之一。本文提出了一种领域自适应的方法来增强稀疏点云特征的鲁棒性。更具体地说,是将来自真实场景的特征(感知域特征)和从包含丰富细节信息的完整虚拟点云特征(概念域特征)进行了关联。这种域适应特征关联的方法实际上是模拟在人脑进行物体感知时的联想关联功能。这种三维目标检测算法在训练过程中增强了特征提取能力,在推理阶段不需要引入任何额外的组件,使得该框架易于集成到各种三维目标检测算法中。


Neural Message Passing and Attentive Spatiotemporal Transformer for Point Cloud Based 3D Video Object Detection



基于单帧点云的 3D 目标检测器通常无法应对目标遮挡、远距离和非均匀采样等情况,而点云视频(由多个点云帧组成)通常包含丰富的时空信息,可以改善上述情况下的检测效果,因此本文提出一个端到端的在线 3D 点云视频目标检测器。


论文中的 Pillar Message Passing Network(PMPNet),可将点云俯视图下的非空栅格编码为图节点,并在节点间进行信息传递以动态改善节点感受野,PMPNet 可以有效结合图空间的非欧特性和 CNN 的欧式特性;在时空特征聚合模块中,还提出空间和时间注意力机制来强化原始的 Conv-GRU 层,空间注意力机制对 new memory 进行前景增强和背景抑制,时间注意力机制用以对齐相邻帧中的动态前景目标。该 3D 点云视频目标检测器在 nuScenes 大型基准集上达到了领先效果。


A Unified Object Motion and Association Model for Efficient Online Multi-object Tracking



利用单目标跟踪器(SOT)作为运动预测模型执行在线多目标跟踪(MOT)是当前的流行方法 ,但是这类方法通常需要额外设计一个复杂的相似度估计模型来解决相似目标干扰和密集遮挡等问题。本文利用多任务学习策略,将运动预测和相似度估计到一个模型中。值得注意的是,该模型还设计了一个三元组网络,可同时进行 SOT 训练、目标 ID 分类和排序,网络输出的具有判别力的特征使得模型可以更准确地定位、识别目标和进行多目标数据关联;此外,论文中提出了一个任务专属注意力模块用于强调特征的不同上下文区域,进一步强化特征以适用于 SOT 和相似度估计任务。该方法最终得到一个低存储(30M)和高效率(5FPS)的在线 MOT 模型,并在 MOT2016 和 MOT2017 标准测试集上取得了领先效果。

视频理解 &分析

ActBERT: Learning Global-Local Video-Text Representations



受到 BERT 在自我监督训练中的启发,百度团队对视频和文字进行类似的联合建模, 并基于叙述性视频进行视频和文本对应关系进行研究。其中对齐的文本是通过现成的自动语音识别功能提供的,这些叙述性视频是进行视频文本关系研究的丰富数据来源。


ActBERT 加强了视频文字特征,可以发掘到细粒度的物体以及全局动作意图。百度团队在许多视频和语言任务上验证了 ActBERT 的泛化能力,比如文本视频片段检索、视频字幕生成、视频问题解答、动作分段和动作片段定位等,ActBERT 明显优于最新的一些视频文字处理算法,进一步证明了它在视频文本特征学习中的优越性。


Memory Aggregation Networks for Efficient Interactive Video Object Segmentation





该论文目的是设计一个快速的交互式视频分割系统,用户可以基于视频某一帧在目标物上给出简单的线,分割系统会把整个视频中该目标物分割出来。此前,针对交互式视频分割的方法通常使用两个独立的神经网络,分别进行交互帧分割、将分割结果传导至其他帧。本文将交互与传导融合在一个框架内,并使用像素 embedding 的方法,视频中每一帧只需要提取一次像素 embedding,更有效率。另外,该方式使用了创新性的记忆存储机制,将之前交互的内容作用到每一帧并存储下来,在新的一轮交互中,读取记忆中对应帧的特征图,并及时更新记忆。该方式大幅提升分割结果的鲁棒性,在 DAVIS 数据集上取得了领先的成绩。


Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation



尽管最近在完全监督的领域上,动作分割技术方面取得了进步,但是其性能仍有不足。一个主要的挑战是时空变化的问题(例如不同的人可能以各种方式进行相同的动作)。因此,该论文中利用未标记的视频来解决此问题,方法是将动作分割任务重新设计为跨域(domain)问题,而且该跨域问题主要针对时空变化引起的域差异。


为了减少差异,论文提出了“自我监督的时域自适应(SSTDA)”,其中包含两个自我监督的辅助任务(binary 和 sequential 的域预测),以联合对齐嵌入不同规模时域动态的跨域特征空间,从而获得比其他域适应(DA)方法更好的效果。在三个具有挑战性的公开数据集(GTEA、50Salads 和 Breakfast)上,SSTDA 远远领先于当前的最新方法,并且只需要 65%的标签训练数据即可获得与当前最新方法可比的性能,这也表明该方法可以有效利用未标签目标视频来适应各种变化。

图像超分辨

Channel Attention based Iterative Residual Learning for Depth Map Super-Resolution



随着深度信息的应用范围越来越大,深度图像超分辨问题引起了广泛研究者的关注。深度图像超分辨率是指由低分辨率深度图像为基础,获取高质量的高分辨率深度图像。本文提出的是一种深度图像超分辨率方法,同时对低分辨率深度图像的产生方式进行分析,并提出两种模拟低分辨率深度图像生成的方式:伴随噪声的非线性插值降采样产生方式及间隔降采样产生方式。


针对不同类型的低分辨率深度图像,本文使用迭代的残差学习框架以低分辨率深度图像为输入,以 coarse-to-fine 的方式逐步恢复高分辨率深度图像的高频信息;同时,使用通道增强的策略加强包含高频信息较多的通道在整个学习框架中的作用;另外,还使用多阶段融合的策略有效复用在 coarse-to-fine 过程中获得的有效信息;最后,通过 TGV 约束和输入损失函数进一步优化获得的高分辨率深度图像。此次提出的方法可以有效处理深度图像超分辨率问题,与目前已知的方法相比,效果显著,优势明显。

车辆识别

3D Part Guided Image Editing for Fine-grained Object Understanding



在自动驾驶场景中,准确地感知“特殊”状态的车辆对行驶安全至关重要(例如:车门打开可能有乘客下车,尾灯闪烁意味着即将变道)。针对此难题,本文提出了一个全新的数据合成(增强)方法,即通过对齐的部件级三维模型对二维图像中的车辆进行编辑,自动生成大量“特殊”状态(例如:开启的车门、后备箱、引擎盖,闪烁的前照灯、尾灯)的车辆图像与语义标注结果。针对生成的训练数据,本文设计了一个双路骨干网络使得模型可以泛化到真实的测试数据,与传统的模型渲染方法相比,本方法平衡了域差异的问题并且更加轻量便捷。


为了验证方法的有效性,本文构建了 CUS (Cars in  Uncommon States) 数据集,标注了约 1400 张真实街景下车辆处于特殊状态的图像。实验结果表明:本文提出的方法可以有效地对“特殊”状态的车辆进行检测、整车的实例级分割、部件的语义分割以及状态描述,对自动驾驶的安全决策有着重要的意义。

神经网络架构搜索

GP-NAS: Gaussian Process based Neural Architecture Search



通过对深度神经网络进行模型结构自动搜索, NAS(Neural Architecture Search)在各类计算机视觉的任务中都超越了人工设计模型结构的性能。本论文旨在解决 NAS 中的三个重要问题:(1)如何衡量模型结构与其性能之间的相关性?(2)如何评估不同模型结构之间的相关性?(3)如何用少量样本学习这些相关性?为此,本论文首先从贝叶斯视角来对这些相关性进行建模。


首先,通过引入一种新颖的基于高斯过程的 NAS(GP-NAS)方法,并通过定制化的核函数和均值函数对相关性进行建模。并且,均值函数和核函数都是可以在线学习的,以实现针对不同搜索空间中的复杂相关性的自适应建模。此外,通过结合基于互信息的采样方法,可以通过最少的采样次数就能估计/学习出 GP-NAS 的均值函数和核函数。在学习得到均值函数和核函数之后,GP-NAS 就可以预测出不同场景,不同平台下任意模型结构的性能,并且从理论上得到这些性能的置信度。在 CIFAR10 和 ImageNet 上的大量实验证明了我们算法的有效性,并且取得了 SOTA 的实验结果。


BFBox: Searching Face-appropriate Backbone and Feature Pyramid Network for Robust Face Detector


本文提出的 BFBox 是基于神经网络架构搜索的方法,同时搜索适合人脸检测的特征提取器和特征金字塔。动机是我们发现了一个有趣的现象:针对图像分类任务设计的流行的特征提取器已经在通用目标检测任务上验证了其重要的兼容性,然而在人脸检测任务上却没有取得预期的效果。同时不同的特征提取器与特征金字塔的结合也不是完全正相关的。首先,本文对于比较好的特征提取器进行分析,提出了适合人脸的搜索空间;其次,提出了特征金字塔注意力模块(FPN-attention Module)去加强特征提取器和特征金字塔之间的联系;最后, 采取 SNAS 的方法同时搜出适和人脸的特征提取器和特征金字塔结构。多个数据集上的实验表明了 BFBox 方法的优越性。

结构设计

Gated Channel Transformation for Visual Recognition



本文针对深度卷积神经网络提出了一种常规的、易应用的变换单元,即 Gated Channel Transformation (GCT) 模块。GCT 结合了归一化方法和注意力机制,并使用轻量级的、易于分析的变量来隐式地学习网络通道间的相互关系。这些通道量级的变量可以直接影响神经元间的竞争或者合作行为,且能方便地与卷积网络本身的权重参数一同参与训练。通过引入归一化方法,GCT 模块要远比 SE-Nets 的 SE 模块轻量,这使得将 GCT 部署在每个卷积层上而不让网络变得过于臃肿成为了可能。本文在多个大型数据集上针对数种基础视觉任务进行了充分的实验,即 ImageNet 数据集上的图片分类,COCO 上的目标检测与实例分割,还有 Kinetics 上的视频分类。在这些视觉任务上,引入 GCT 模块均能带来明显的性能提升。这些大量的实验充分证明了 GCT 模块的有效性。

表征学习

Label-Isolated Memory for Long-Tailed Visual Recognition


实际场景中的数据通常遵循“长尾”分布。大量类别都是数据较少,而有少数类别数据充足。为了解决类不平衡问题,本文引入了类别隔离记忆结构(LIM)用于长尾视觉识别。首先,LIM 增强了卷积神经网络快速学习尾部类别特征的能力。通过存储每个类的最显著的类别特征,独立更新存储单元,LIM 进一步降低了分类器学偏的可能。其次,本文为多尺度空间特征编码引入了一种新颖的区域自注意力机制。为了提高尾类识别通用性,合并更多区别性强的特征是有好处的。本文提出以多个尺度对局部特征图进行编码,同时背景信息也被融合进来。配备 LIM 和区域自注意力机制,该方法在 5 个数据集上都取得了最好的性能。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-03-19 07:001195

评论

发布
暂无评论
发现更多内容

学完Java培训后有哪些就业机会呢

小谷哥

计算机网络——时延、时延带宽积

StackOverflow

计算机网络 编程‘ 9月月更

人工智能、机器学习和深度学习,到底有什么区别?

Finovy Cloud

人工智能 云计算 影视渲染

量子计算与PKS信创体系首次融合,实现算力跨越

启科量子开发者官方号

云速ERP(WeLink认证版)上线,加速中小微企业数字化经营创新

科技云未来

Trending热榜关闭前,我把Github今年最火Java面试题汇总扒下来了

Java全栈架构师

Java 程序员 面试 程序人生 八股文

揭秘 · 机器人酒店

澳鹏Appen

人工智能 nlp 语音识别 数据标注 语音标注

通过Jenkins构建CI/CD实现全链路灰度

阿里巴巴中间件

阿里云 云原生 jenkins 全链路灰度

极狐GitLab CI 月来袭!2小时 get CI 流水线设计秘籍

极狐GitLab

DevOps gitlab 运维 CI/CD 持续交付

启科量子出席首届量子计算产业峰

启科量子开发者官方号

java培训哪里比较好?

小谷哥

2022年应届毕业生就业率惨淡怎么办?不要错过多金的数据科学行业

雨果

数据分析师 数据科学 数据工程师

Java培训值不值得?

小谷哥

数学基础查可以参加Java培训

小谷哥

程序员成长那些事儿

图灵社区

程序员 进阶 代码 计算机

粤港澳大湾区第一届量子科技与产业应用研讨会在穗成功举办

启科量子开发者官方号

Linux云主机安全入侵排查步骤

京东科技开发者

Linux 安全 云主机 排查方法 云主机安全

英特尔oneAPI工具大幅提升腾讯云数据库MySQL的性能

科技之家

SpringBoot源码 | prepareEnvironment方法解析

六月的雨在InfoQ

源码 springboot 源码刨析 SpringBoot实战 9月月更

一起玩转!SOFA 飞船 Layotto 星球登陆计划

SOFAStack

golang 微服务 云原生 新手指南 开源软件

下(应用篇)| 量子计算与开源软件

启科量子开发者官方号

【荣耀开发者服务平台—百亿曝光扶持等你来】智慧服务快应用卡片接入指南(下)

荣耀开发者服务平台

前端 手机 新手指南 安卓 honor

JAVA StreamAPI

流火

Stream API java 8 的新特性

【译】像CSS一样在Flutter里应用滤镜效果

iofod jude

一文讲透B端和C端产品经理的区别

产品海豚湾

产品经理 SaaS 职业发展 B端产品 9月月更

SLO新解,一种行之有效的故障处理方法

华明

监控系统 SLO 稳定性保障

云备份服务CBR

创意时空

启科量子离子阱全系列教学模拟机多版本满足客户需求

启科量子开发者官方号

上(市场篇)| 量子计算与开源软件

启科量子开发者官方号

程序员成长那些事儿

图灵教育

程序员 进阶 代码 计算机

「趣学前端」关于iframe跨域通信

叶一一

前端 iframe 跨域 9月月更

计算机视觉“奥斯卡”CVPR 2020公布收录论文,百度入选22篇_AI&大模型_百度_InfoQ精选文章