写点什么

澎思科技刷新视频行人再识别(Video-based ReID)三大数据集世界纪录

2019 年 8 月 23 日

澎思科技刷新视频行人再识别(Video-based ReID)三大数据集世界纪录

继在三大主流单帧图片行人再识别数据集(Market1501,DukeMTMC-reID,CUHK03)刷新世界纪录后,近日,澎思科技(Pensees)在基于视频的行人再识别数据集(PRID-2011,iLIDS-VID,MARS)中再次取得突破性进展,并在三大数据集上实现算法关键指标首位命中率(Rank-1 Accuracy)大幅度提升,准确率创历史新高。



实现关键指标提升,新算法刷新三大数据集世界纪录


PRID-2011、iLIDS-VID 和 MARS 均为基于视频的行人再识别数据集。PRID-2011 数据集中的视频对通过两个固定的监控摄像头进行采集,摄像头 A 包含 385 个行人,摄像头 B 包含 749 个行人。这些行人中,只有 200 个行人同时出现在两个摄像头中。iLIDS-VID 是在 PRID-2011 之后公布的数据集,与 PRID-2011 相比,数据更加整齐,也更有挑战性。iLIDS-VID 数据集是通过机场到达大厅的 CCTV 监控视频采集得到的,包含 300 个行人在两个摄像头下的 600 段视频。视频中存在严重的着装相似,光照和视角变化,复杂背景和遮挡现象,因此识别难度大。MARS 数据集是目前基于视频 ReID 最大的数据集,是单帧图片行人再识别数据集 Market1501 的扩充版,图像数量由 32,668 幅扩展到了 1,191,003 幅。


与单帧图片的行人再识别数据集一样,首位命中率(Rank-1 Accuracy)和平均精度均值(Mean Average Precision,mAP)是衡量视频行人再识别 ReID 算法水平的核心指标。澎思科技此次一举实现在三大数据库上,仅利用原始数据就实现 Rank-1 Accuracy 关键指标大幅度提升。目前,澎思科技算法在最大的视频数据集 MARS 上的首位命中率指标已经达到 88.8%,领先香港中文大学、中科大、北京大学等国内外知名机构。在 iLIDS-VID 和 PRID-2011 等数据集上首位命中率也分别达到了 88.0%和 95.5%。



澎思科技行人再识别 ReID 算法在 MARS 数据集的部分测试结果


新算法立足于现实场景


澎思科技此次成果的取得源于澎思新加坡研究院对算法的自研创新和融合探索,是立足于澎思现有业务和商业模式,结合公司的发展方向针对性开展垂直领域技术研发和创新。主要包括以下几个方面:


  1. 受遮挡、姿态变化、视角变化等因素的影响,视频序列中行人的特征是不连续的。用全局特征来度量每一帧图片的权重往往会损失掉许多重要的信息。采用分割重组策略将特定局部特征重组成多个视频序列进行学习,进而极大减少局部特征损失对最终特征的影响。

  2. 其次,提出了全新的双向图注意力机制模块。将图卷积神经网络和 SENet 完美结合,在整个序列上进行通道域的模式选择学习。同时通过双向网络进行空间域的注意力区域学习。由于图卷积网络的特性,每一帧图片的注意力特征都是与其他帧相互学习结合的结果,从而极大提高特征的代表性。

  3. 最终,利用帧间相似度进行序列融合。与大多数利用循环神经网络进行融合算法相比,最大的优势是不需要训练额外的模型参数,仅仅通过数学计算的方式就可以达到融合的目的。这样,数据的类内相似度得到了极大的提高。在结合三元损失函数进行训练后,类间相似度得到了降低,进而提高重识别效果。

  4.  


基于视频的行人再识别与单帧图片的行人再识别任务目的是相同的,即在视角不重叠的多摄像机网络下进行行人的匹配。尽管基于单帧图片的行人再识别算法已经取得了不错的进步,但由于单帧图片只包含有限的行人信息,网络提取的特征不具备足够的代表性,检测结果往往受图片质量的影响较大。 


与此相比,视频序列的优势便凸显出来。一个短视频序列往往包含行人多运动状态下的更多特征,并且利用时序信息,可以将背景、遮挡等干扰因素的影响降到最低,提升识别的准确度。


基于视频的行人再识别(ReID)技术更贴近智慧城市建设的诸多应用场景,能有效解决行人信息有限、特征不足及其他干扰因素等问题,相比单帧图片的行人再识别具备更长远的落地应用空间。接下来,澎思科技将进一步加大在视频行人再识别算法上的研究,并逐步将算法应用到平安城市、智慧社区、智慧园区、智慧零售、智慧交通等实战应用场景中。


2019 年 8 月 23 日 12:184016

评论

发布
暂无评论
发现更多内容

华章科技好书5折优惠,满99再减10元

华章IT

Python AI 数字化转型 Java 25 周年 计算机科学丛书

Kubernetes 网络通讯模型解析

ninetyhe

数据中台建设方法论

数据社

大数据 数据中台

架构师训练营 week10 homework

Nick

解决 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED

邵俊达

Linux SSH

只加两行代码,为什么用了整整两天时间?

程序员生活志

编程 bug

35岁腾讯员工被裁员感叹:北京一套房,存款700多万,失业好焦虑

程序员生活志

程序员生活

django-admin和manage.py用法

BigYoung

Python django django-admin manage.py

报警不响,黄金万两的“稳定性成熟度”干货

滴滴普惠出行

Flink 支持的重启策略有哪些

古月木易

flink

架构师训练营 week10 summary

Nick

Dubbo微服务框架请求流程

GalaxyCreater

架构

微服务和DDD总结

周冬辉

微服务 DDD

微服务

石刻掌纹

anyRTC 4.0 以心铸造,以梦相承

anyRTC开发者

anyRTC 4.0 官网升级

一周信创舆情观察(8.3~8.9)

统小信uos

关于微服务架构的思考和认知

任小龙

week10 学习总结

任小龙

架构师训练营第十周作业

一剑

数据库的那些事

数据社

数据库 大数据

Flink 支持的重启策略有哪些

奈学教育

flink

Django如何编写自定义manage.py 命令

BigYoung

Python django manage.py

一文了解greenplum

数据社

数据库 greenplum MPP

CDH部署指南

数据社

大数据 CDH

什么是死锁?如何解决死锁?

奈学教育

什么是死锁?如何解决死锁?

古月木易

死锁

聊聊数据库

数据社

数据库 大数据

凉了!张三同学没答好「进程间通信」,被面试官挂了....

小林coding

操作系统 计算机基础 进程

Jira 和 Confluence 企业最佳部署方式

Atlassian

项目管理 敏捷开发 Atlassian Jira

微服务架构的思考

Season

第十周作业

方堃

澎思科技刷新视频行人再识别(Video-based ReID)三大数据集世界纪录-InfoQ