东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

AAAI 2020 论文解读:商汤科技提出新弱监督目标检测框架

  • 2020-02-15
  • 本文字数:2066 字

    阅读完需:约 7 分钟

AAAI 2020论文解读:商汤科技提出新弱监督目标检测框架

近期,商汤科技视频大数据团队发表论文《Object Instance Mining for Weakly Supervised Object Detection》,该论文被 AAAI 2020 录用。在论文中,该团队提出了一种端到端的物体实例挖掘弱监督目标检测框架,引入了基于空间图及外观图的信息传播机制,在网络迭代学习过程中,尝试挖掘每张图像中全部的物体实例。除此之外,还引入了物体实例权重调整损失函数 (reweighted loss),使网络可以同时学习到更完整的物体实例,从而让弱监督目标检测方法得到更加准确的检测框。


目标检测是计算机视觉领域长期关注的问题,在自动驾驶、图像理解、视频监控等领域都有着广泛的应用。然而基于深度学习技术的目标检测器在网络训练中需要大量精确标注的物体边界框,这些耗时耗力的标注工作阻碍了该技术在实际产品中的快速和广泛应用,同时大量的人工标注也大大提高了产品成本。为了解决这个局限性,仅使用图片级别标注(既标注仅包含图片中物体的类别)的弱监督目标检测技术在近几年受到了广泛的关注和研究,具有重要的意义。


现有的弱监督目标检测方法大多数是基于多实例学习框架的,对于每个物体类别,基于多实例学习框架的方法倾向于学习图像中该类中特征最明显的物体,并对于每张图片选取得分最大的一个物体框进行训练,其他被忽略的物体实例容易使学习网络陷入局部最优,进而影响弱监督目标检测的性能。


本论文提出了一种端到端的物体实例挖掘(Object Instance Mining, OIM)弱监督目标检测框架。该框架引入了基于空间图(Spatial Graph)及外观图(Appearance Graph)的信息传播机制,在网络迭代学习过程中,尝试挖掘每张图像中全部的物体实例。这样使得在基于多实例学习方法的网络学习过程中,特征不够显著的物体实例可以被检测到并加入训练,进而提升特征的表达能力和鲁棒性。除此之外,商汤科技视频大数据团队还引入了物体实例权重调整损失函数(reweighted loss),使网络可以同时学习到更完整的物体实例,从而让弱监督目标检测方法得到更加准确的检测框。基于物体实例挖掘(OIM)弱监督目标检测框架结构如下图所示:



物体实例挖掘(OIM)弱监督目标检测框架。


该框架主要由多实例检测(Multiple Instance Detection)及目标实例挖掘(Object Instance Mining)两个部分构成。在网络训练迭代过程中,论文先使用多实例检测预测每个候选区域的类别,之后基于检测的输出及候选区域的特征,通过建立空间图及外观图尽可能挖掘图像中的全部物体实例,并将它们加入训练。其中物体实例挖掘过程如下图所示:



物体实例挖掘过程示例。


在网络训练迭代过程中,在一幅图中,首先学习/检测到最具辨识力的物体实例,基于此实例通过位置关系,既其他候选框与此实例的重叠关系,建立空间图(Spatial Graph),如图(a)。之后基于此实例,通过计算它与其他候选框之间的外观相似度,挖掘图片中可能属于同一类别的物体实例,建立外观图(Appearance Graph),针对每一个新挖掘到实例同样建立空间图,如图(b),©。以此步骤进行迭代训练,直到挖掘出图像中全部可能的物体实例加入训练如图(d)。


除此之外,由于在网络迭代学习过程中,尤其是对于非刚性物体实例,基于 CNN 的分类器学习到的最具辨识力的是物体实例的某个局部而不是整个物体的整体,,因此本论文设计了物体实例权重调整损失函数(reweighted loss), 以学习到更准确的物体检测框。团队提出对于不同的候选框应分配不同的权重,对于分类器置信度得分高的候选框分配较低的权重,反之对最高分候选框周围的候选框分配较高的权重,从而学习更完整的物体实例检测框。


团队在 PASCAL VOC 2007 训练集上进行了弱监督物体实例挖掘的过程的可视化,如下图所示(从左到右),随着网络的迭代学习,更多更准确的物体实例可以被检测出来并加入训练中。




团队使用 PASCAL VOC 2007 及 VOC 2012 数据进行了测试,比较了物体实例挖掘(OIM)方法与其他相关弱监督检测方法效果。结果表明,弱监督物体实例挖掘方法在定位精确率以及检测准确率均达到或超过目前最先进的方法。



OIM 与其他目前最先进的方法在 PASCAL VOC 2007 测试集上检测精确度的比较(AP) (%)



OIM 与其他目前最先进的方法在 PASCAL VOC 2007 训练验证集上定位精确度的比较(CorLoc) (%)



OIM 与其他目前最先进的方法在 PASCAL VOC 2012 验证集/测试集上检测精确度的比较(AP) (%)



OIM 与其他目前最先进的方法在 PASCAL VOC 2012 训练验证集上定位精确度的比较(CorLoc) (%)


论文作者:Chenhao Lin, Siwen Wang, Dongqi Xu, Yu Lu, Wayne Zhang


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-02-15 12:045322

评论

发布
暂无评论
发现更多内容

一文快速读懂消息推送的到达率、转化率和卸载率

MobTech袤博科技

jar包冲突组建设计书

京东科技开发者

从零开始学Spring Boot系列-SpringApplication

EquatorCoco

Java Spring Boot 后端

QAnything-1.3.0,支持纯python笔记本运行,支持混合检索

有道技术团队

开创加密资产新纪元:深度解析ERC-314协议

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

高并发环境下的实现与优化策略

gogo

架构 数据库、

Sql优化之回表

京东科技开发者

一次接口的性能优化之旅

京东科技开发者

如何选择高防服务器?稳定性与安全性兼备

一只扑棱蛾子

高防服务器

内部人士揭秘:千万不要关闭手机一键登录验证

MobTech袤博科技

10分钟说清楚,秒验一键认证除了快,还有哪些优点?

MobTech袤博科技

通过方法引用获取属性名的底层逻辑是什么?

江南一点雨

Java Lambda mybatis

小米一面:电商系统开发遇到了哪些问题?

王磊

Java 面试真题

MobTech积极参与鸿蒙生态建设,HarmonyOS NEXT鸿蒙星河版产品即将发布

MobTech袤博科技

都2024年了,你还不知道一键登录怎么选吗?

MobTech袤博科技

抖音、小红书都在用的秒验一键登录验证方式,到底好在哪?

MobTech袤博科技

反套路打工:王子公主职场图鉴

脑极体

云计算

20余年运维实践经验总结!一本书掌握数字化运维方法

嘉为蓝鲸

运维 数字化转型 运维管理 IT 运维

2024年本机一键验证登录最强指南已出,请查收!

MobTech袤博科技

软件测试学习笔记丨自动化测试策略

测试人

软件测试 自动化测试 测试开发

3分钟教你最大化利用APP消息推送(Push)在运营中的优势

MobTech袤博科技

海外云手机:跨境电商引流的利器

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 跨境云手机

数仓调优实战:GUC参数调优

快乐非自愿限量之名

数仓 数仓架构

流量见顶了以后,APP为何仍然要使用推送通知?

MobTech袤博科技

10年产品经理教你快速提升消息推送的点击率

MobTech袤博科技

上传应用程序到苹果应用商店的工具和要求

雪奈椰子

秒验:让APP验证和登录远不只是便捷

MobTech袤博科技

K8s技术全景:架构、应用与优化

不在线第一只蜗牛

架构 Kubernetes 容器

阿里巴巴API接口助力,快速搜索“智能手表”新品,精准获取商品ID

技术冰糖葫芦

API Explorer api 货币化 API 文档

10年大厂运营大咖告诉你,如何有效应对消息推送厂商配额

MobTech袤博科技

秒验资深玩家熬夜整理的15个常见问题,拿走不谢!

MobTech袤博科技

AAAI 2020论文解读:商汤科技提出新弱监督目标检测框架_AI&大模型_Chenhao Lin等_InfoQ精选文章