阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

滴滴 AI Labs 包揽 WIDER FACE 评测五项世界第一

  • 2019-09-17
  • 本文字数:1292 字

    阅读完需:约 4 分钟

滴滴 AI Labs 包揽 WIDER FACE 评测五项世界第一

近日,世界最权威的人脸检测公开评测集 WIDER FACE 公布最新评测结果,滴滴 AI Labs 团队联合北京邮电大学 PRIS 团队提出的人脸检测 DFS 算法,在 WIDER FACE 的 Easy、Medium 和 Hard 三个评测子集的六项评估结果中, 超过了国内外众多科技公司和高校院所,取得了五项第一、一项第二的好成绩,充分彰显了滴滴在人脸检测领域的创新能力。


WIDER FACE 是目前业界公开的数据规模最大、检测难度最高的人脸检测数据集之一,由香港中文大学于 2016 年建立,共包含 32,203 张图像和 393,703 个人脸标注。其中 40% 的数据为训练集 (Training),10% 的数据为验证集 (Validation),50% 的数据为测试集 (Testing)。每个集合中的数据根据人脸检测的难易程度分为 Easy、Medium、Hard。


由于汇集了人脸尺寸大小变化、拍照角度引起的人脸姿态变化、不同程度的人脸遮挡、表情变化、光照强弱差异以及化妆等多种影响因素,该数据集在全球人脸检测领域极具挑战性,每次评测均会吸引多家国内外科技巨头及高校院所(包含卡耐基梅隆大学、加州大学圣地亚哥分校、北航、浙大、京东、腾讯优图、百度、华为云、IBM 沃森研究院等)在这个数据集上验证了自己的算法效果。


最新评测结果显示,DFS 算法在 WIDER FACE 人脸检测平台中,在官方验证集和测试集的六项评估结果中取得五项第一、一项第二。


其中在 Easy、Medium 和 Hard 三个测试子集中,DFS 算法性能分别达到 96.3% AP,95.4% AP,90.7% AP。



图 1:验证集性能曲线图(图片来源)



图 2: 测试集性能曲线图(图片来源)


DFS 算法以卷积神经网络中的特征融合为切入点,为了防止高层特征图上的语义信息覆盖低层特征图上的细节信息,提出了特征融合金字塔(Feature Fusion Pyramid)结构,其以空间和通道注意力机制的方式融合高低层特征,在不失细节信息的同时将语义信息作为上下文线索(contextual cues)增强低层特征。


另外,DFS 算法提出了一种辅助训练单阶段检测器的语义分割分支(Semantic Segmentation branch),促使检测网络以一种自监督的方式实现注意力机制以及学到更好的特征。具体地说,DFS 算法独特的语义分割分支分层地利用更强的语义分割监督信息监督训练网络,使得用于预测人脸的各级特征图专注于各自最适宜检测到的不同尺寸的人脸。



图 3: DFS 算法网络框架图


目前人脸检测和识别技术已经在滴滴平台广泛使用,用于司机人不符检测、行程中车内录像时的乘客隐私保护等场景,并已形成成熟的技术解决方案,帮助外部合作伙伴进一步提高效率。


实际上,滴滴已经多次在图像视频领域相关竞赛或评测中获得世界级第一。在去年 7 月的 CVPR 2018 WAD 自动驾驶挑战赛中,揽获了二、三、四名的好成绩;而在去年 9 月 ECCV 2018 COCO & Mapillary 挑战赛中,滴滴技术团队首次参赛即获得 Mapillary 街景检测单项世界第一。


此次人脸检测技术再破世界纪录,也充分体现了滴滴在计算机视觉领域强大技术实力,滴滴将持续进行更多探索,不断优化出行交通感知理解、智能交互等技术,用先进的 AI 技术提升用户体验、助力行业转型升级,进而构建智能出行新生态。


本文转载自公众号滴滴技术(ID:didi_tech)。


原文链接:


https://mp.weixin.qq.com/s/shV1caOr9KnaG3Ct-GwE6Q


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-09-17 15:01784
用户头像

发布了 52 篇内容, 共 17.1 次阅读, 收获喜欢 165 次。

关注

评论

发布
暂无评论
发现更多内容

Sprint Boot学习路线2

小万哥

Java spring Spring Cloud Spring Boot 后端

Requests+Etree+BeautifulSoup+Pandas+Path+Pyinstaller应用 | 获取页面指定区域数据存入html、excel文档

Python pandas pyinstaller requests BeautifulSoup

小程序开发技术解析:事件系统设计

Onegun

小程序 事件 小程序开发

平台工程动态 MonthlyNews 2023-7

杨振涛

云原生 研发效能 平台工程 开发者体验 内部开发者平台

PoseiSwap:通过 RWA 的全新叙事,反哺 Nautilus Chain 生态

鳄鱼视界

【Linux工具】yum和gdb详细使用教程。

百度搜索:蓝易云

云计算 Linux 运维 yum 云服务器

MySQL5.7和MySQL8.0的区别是什么?

百度搜索:蓝易云

云计算 Linux 运维 MySQL 5.7 MySQL 8.0

小白也能基于OpenAI搭建自己的英语学习工具

派大星

openai

北岩律师事务所:50000余家客户的选择,全国首家专注大消费领域的精品律所

联营汇聚

惊喜!1行Python代码,瞬间测你工作量,分享一个统计代码行数的神器

程序员晚枫

Python GitHub 开源项目 工作量

ChatPaper全流程加速科研:论文阅读+润色+优缺点分析与改进建议+审稿回复

汀丶人工智能

人工智能 自然语言处理 nlp chatpaper

在Go中使用Arm的SIMD指令

geange

Go 汇编 neon arm64

加速数字化转型:龙智专家分享DevSecOps和ITSM工具性能优化策略——2023 DevOps国际峰会现场访谈

龙智—DevSecOps解决方案

DevSecOps devops国际峰会

中文多模态医学大模型智能分析X光片,实现影像诊断,完成医生问诊多轮对话

汀丶人工智能

人工智能 自然语言处理 计算机视觉 多模态大模型

云原生大数据平台CloudEon V1.1.0版本发布!

CloudEon开源

大数据 云原生 容器化

在 Amazon DocumentDB 里处理 Decimal128类型数据的解决方案

亚马逊云科技 (Amazon Web Services)

C++异步编程开源项目Workflow三岁啦 \^0^/

1412

开源项目 异步编程 异步任务编程 workflow C++

不用再写FlinkSQL了,使用开源XL-LightHouse轻松实现海量数据实时统计

feng

大数据 流式计算 流式大数据统计 流式统计 企业数据化运营

时序数据库 TDengine 被帆软纳入数据源,可视化方案多样化

爱倒腾的程序员

数据库

人工智能如何应对 DevOps 监控和可观测性挑战

SEAL安全

人工智能 DevOps 运维

金蝶管易云 X Hologres:新一代全渠道电商ERP最佳实践

阿里云大数据AI技术

ERP

静态分析全解析:助力高质量软件开发,降低成本风险

龙智—DevSecOps解决方案

静态分析 静态代码分析 静态代码分析工具

​加速大规模团队创新,开发安全、可靠、合规的汽车软件

龙智—DevSecOps解决方案

ACT汽车电子与软件技术周 汽车电子与软件技术周

远程控制软件安全吗?一文看懂ToDesk、RayLink、TeamViewer、Splashtop相关安全机制

颜淡慕潇

安全 远程控制 远程桌面工具 ToDesk

javascript数组基础

timerring

JavaScript

柴洪峰院士:大模型赋能金融科技思考与展望

NLP资深玩家

人工智能 金融科技 大模型 WAIC

低代码平台什么意思

优秀

低代码平台

大会议程正式公布 华为开发者大会看点前瞻

Geek_2d6073

配置 Sublime Text4为 C++ 编辑器的方法

二哈侠

PoseiSwap:通过 RWA 的全新叙事,反哺 Nautilus Chain 生态

威廉META

ShareSDK 国外平台登陆返回参数

MobTech袤博科技

前端 App

滴滴 AI Labs 包揽 WIDER FACE 评测五项世界第一_AI&大模型_滴滴技术_InfoQ精选文章