【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

百度识图黑科技 -Lens 技术打造视觉能力增强利器

  • 2019-11-28
  • 本文字数:2730 字

    阅读完需:约 9 分钟

百度识图黑科技-Lens技术打造视觉能力增强利器

你知道吗?人类有 70%的信息获取来自于视觉。但目前存在两个问题: ①人眼本身只能看到物理世界,无法看到其背后复杂的信息世界; ②人类的记忆力有限,视野有限,于是会出现看了就忘、视野窄等各种问题。


科幻片里常见这样一种“人肉外挂”:通过一系列的技术改造,主人公(比如史塔克)眼前出现的一切物体都会被自动识别,什么名称、用途、用法用量,全都可以秒速反馈回来,并被即时载入到记忆中,过目不忘。


如今,百度识图在百度 App 和简单搜索 App 上推出的最新版,通过应用 Lens 技术把这种科幻场景往现实生活中拉得更近了一点!


一、百度识图可以做什么?

作为目前全球识别能力最广的 AI 视觉产品,百度识图已支持超过 30+场景的认知。


例如:扫商品找同款比价格,扫植物学辨认技巧看养护知识,扫人脸测面相运势,扫菜品/食材看热量知功效做法、扫明星看八卦追行程、扫汽车了解型号价格、扫红酒查酒庄年份、扫题目搜答案看解析。



此外还有 AR 翻译、文字、图书、海报、药品、货币、电影等多品类的认知能力。

二、Lens 技术是什么?

Lens 技术是一种基于移动端实时感知和云端视觉搜索的类人眼视觉 AI 能力,能够实现所见即所得的信息浏览体验。


应用 Lens 技术后,打开百度识图,无需拍照,毫秒内自动扫描并锁定镜头内检测到的全部物体,即刻反馈“它是什么”,“它背后的相关信息”,让你随时随地拥有“移动的百科全书”。

三、本次升级有什么重要意义?

1. 从行为层面,它将深度强化人眼视觉理解能力,改变人类认知事物的习惯并为未来的智能眼镜奠定坚实基础。你可以借助百度识图真正实现边走边看,不间断浏览,同时,依托于百度识图背后的超级百度大脑,将确保为每个实物提供精准、深度的信息介绍,让你边看边学。

2. 从技术层面,它首次实现了类人眼的对实时视频流数据的感知和认知能力。百度识图具备了目前全球最快最稳定的跨平台实时视觉 AI 能力,可以嵌入到 Android/iOS 系统部署,依靠百度移动端深度学习预测框架 paddle-mobile,在移动端和智能硬件中运行,并保持业内遥遥领先的性能和效果指标。

四、百度识图的 Lens 技术攻克了哪些难题?

为了达到类人眼的视力,人工智能必须充分调动起复杂且涉及众多环节的能力。在这一过程中,百度识图的 Lens 技术遇到并解决了 4 个核心问题。

1、快速连续稳定地发现新物体

人眼对视觉信号反应时间 170ms~400ms,新进入视野的物体能够被快速的看见,当视角发生变化时新视野的物体在被发现的同时,也能够建立与旧视野内物体的对应关系。具体到技术上,分为两个问题:单帧图像的物体检测的性能和连续帧图像物体检测的稳定性。


① 单帧物体检测的性能包含准确率、召回率和检测速度。过深的 CNN,相应地耗时也都较长。而且终端 GPU 相比服务器 GPU 的性能还要拉开十倍以上的差距,耗时更长。


因此,我们选择构建轻量级的 MobileNet 网络结构实现移动端物体检测,并且构建覆盖通用场景的百万级别通用物体检测图片数据集。针对基础模型进行压缩,进一步提升预测速度,最终可支持在手机端实现单帧多目标检测耗时 60 ms 以内,主要物体检测准确率和召回率均在 95%以上。


② 连续帧图像物体检测的稳定性是我们面临的一个新挑战,它关注解决的问题是如何量化衡量在连续帧上不断的进行物体检测时,物体是否被检测到的状态变化。



在图像上物体的微小平移、尺度、姿态变换,都导致 CNN 输出变化剧烈


百度提出了一种移动终端基于视觉跟踪的连续帧多目标检测方法专利,在实时连续帧数据上,用跟踪完成短时的物体状态保持,并在视野物体发生变化时,在检测模型中融合跟踪算法的输出,给出最终的稳定的连续帧物体检测结果。最终帧错误率从 16.7%降低到 2%。

2、连续实时跟踪物体

为了让反馈信息像放置在真实世界中的一样稳定,百度采用了 SLAM(Simultaneous Localization and Mapping)技术。在未知环境中,通过对环境的观测确定自身的运动轨迹,同时构建出环境三维地图。



针对文字跟踪的场景,还涵盖了 Texture Mapping 技术,将文字的翻译结果,无缝地融合到源语言文字位置处,达到原生视觉效果。

3、视觉信号多层认知,先粗看再细看

人眼会对视野内的物体先产生初步理解,例如左前方有辆汽车。当眼睛注意力集中到汽车时,再由具体认知环节分辨是宝马 320 还是奔驰 C200。


粗粒度语义理解模型的训练,整理构建涵盖办公、家庭生活、商场、超市、户外园区和街道等主要场景的 300+标签分类标签体系,包含百万级物体局部图的数据集。


细粒度物体认知是由一整套复杂的云端系统构成,包含万级别大规模细粒度分类模型,以及基于 ANN 最近邻向量检索构建的百度新一代视觉检索技术,支持相似图、同款商品、名人脸等检索。

4、无缝连接以上三个环节

人眼在接收到视觉信号后,由大脑完美地调度,发现、跟踪和多层认知三个环节实现无缝衔接。在技术实现上,却需要考虑非常多的因素,包括用户注意力判断、注意力集中时的选帧算法、跟踪和检测算法的调度切换策略。


通过精细的组合调度算法,我们将百度识图的耗电量控制在 2%/10min 以内,满足了移动端部署对能耗的要求。


最终,物体的发现感知、连续跟踪、粗粒度语义理解,以及根据用户行为和视觉场景动态组合和调度以上模型的 multi-task planning 算法,整体构成感知计算模块 Walle SDK,可以支持在 iOS、Android 以及服务器等多种平台部署。

五、未来还有哪些新期待?

  1. 在用户行为及信息理解层面,未来的百度识图,将会融合:多模态的交互方式、多形态的信息呈现方式以及多纵深角度的信息识别结果,带来更聪明的视觉理解体验。那个时候,借助智能设备,我们只需要动动眼睛,说一句话,我们所需要的信息就会以 AR 的方式叠加到我们面前。

  2. 在技术应用层面,百度识图将会成为跨平台应用、并持续丰富物体高级感知能力的维度,促进全人类的人眼视觉能力强化。目前百度识图能力由纯 C++实现的跨平台运行库,核心库大小 300KB,几乎可以嵌入任何支持深度学习模型运行的终端平台,例如智能硬件、一些智能摄像头、无人驾驶汽车等等。

六、怎样体验百度识图黑科技?

说了这么多,你是不是也想赶紧体验一下呢?升级到最新版百度识图,就可以体验黑科技啦,iPhone 用户可以在百度 App(11.2 版本) 和简单搜索 App(3.1 版本) 的“自动拍” 入口体验,安卓用户需要耐心等待一下哦,百度 App 安卓端将在 1 月份发布的 11.3 版本上线黑科技,简单搜索的安卓版后续也会很快上线!后续还会推广到其他场景。


下面以百度 App 为例,带你一起体验!



未来,我们会将百度识图的 Lens 技术开放给开发者,帮助大家以极小的开发成本即可让自己的摄像头具备类人眼能力。


而今天,你可以打开百度 App 和简单搜索 App,使用百度识图,重新认识你身边的视界。


本文转载自百度 App 技术公众号。


原文链接:https://mp.weixin.qq.com/s/qoHGymdOauCYw6ijx-u9uA


2019-11-28 08:005434

评论

发布
暂无评论
发现更多内容

离线部署系列文章之一:TiDBv5.3.0集群部署&源码部署 Haproxy v2.5.0

TiDB 社区干货传送门

实践案例 版本升级 管理与运维 安装 & 部署 扩/缩容

什么!阿里最新版Spring Cloud Alibaba项目文档,竟将重要组件弃用

收到请回复

Java spring 阿里巴巴 面试 spring-cloud

希捷亮相OCP China Day 2022,与生态伙伴共话绿色存储之道

Geek_2d6073

利用现有数据库管理系统创建一个安全的分布式数据库集群

亚马逊云科技 (Amazon Web Services)

大数据 分布式 Tech 专栏

离谱!这份笔记及实战手册帮助你四天快速上手SpringSecurity

了不起的程序猿

Java springsecurity java程序员 框架

对话ACE第五期:到底什么才是真正的HTAP?

OceanBase 数据库

采访22年第一批秋招上岸的同学后,我整理了这份Java面试手册

Java面试那些事儿

Java 编程 程序员 架构 面试

Go-Excelize API源码阅读(十四)——GetSheetFormatPr

Regan Yue

开源 源码刨析 Go 语言 8月日更 8月月更

当内卷风波及代码领域,看Alluxio将会采取怎样的块分配策略

Alluxio

腾讯 存储 Alluxio block 8月月更

PingCAP Clinic 服务:贯穿云上云下的 TiDB 集群诊断服务

TiDB 社区干货传送门

魅族高校新生充电计划进行中,直播课让科目一新生直呼厚道

Geek_2d6073

某站下载量过W的近4000页“Java面试合集”号称大厂面试零门槛

收到请回复

Java 程序员 面试 金九银十

故障处理 | DM 搭建 MySQL 8.0 同步链路报错:code=26005

TiDB 社区干货传送门

安装 & 部署 TiDB 源码解读

手把手教你实现 TiFlash 向量化函数丨十分钟成为 TiFlash Contributor

TiDB 社区干货传送门

如何让 TiDB 集群管理“更省心”?TiUniManager(原 TiEM)使用教程来了

TiDB 社区干货传送门

优雅,永不过时!SpringBoot中这样编写Controller层代码,那叫一个完美

Java永远的神

Java 程序员 面试 程序人生 springboot

如何在 TiDB Cloud 上使用 Databricks 进行数据分析 | TiDB Cloud 使用指南

TiDB 社区干货传送门

TiDB 和 Java 的简单 CRUD 应用程序

TiDB 社区干货传送门

TiDB 和 Golang 的简单 CRUD 应用程序

TiDB 社区干货传送门

五天玩转EMAS Serverless

云端explorer

云计算 Serverless emas

基础到高级涵盖11个技术,Alibaba最新出品711页Java面试神册真香

收到请回复

Java 大数据 架构 编程语言 语言 & 开发

如何在企业数字化团队内部实现数据分析建模成果的结构化整合沉淀

ModelWhale

工作流 数字化转型 数字化 案例分享 提高效率

多并发下线程创建、释放的阻塞问题

TiDB 社区干货传送门

离线部署系列文章之二:TiDB集群升级(5.3.0->5.4.2)&缩扩容 TiDB Server、PD、TiKV、TiFlash

TiDB 社区干货传送门

版本升级 集群管理 管理与运维 安装 & 部署

TiFlash Proxy 模块介绍

TiDB 社区干货传送门

HarmonyOS Connect FAQ第四期

HarmonyOS开发者

HarmonyOS

传统堡垒机数据可以迁移到云堡垒机上吗?方式有哪些?

行云管家

云计算 网络安全 堡垒机

20万字的《Kafka运维实战宝典》PDF现在免费下载了

石臻臻的杂货铺

大数据 kafka

大数据训练营毕业总结

Geek_Q

云堡垒机主要针对运维过程中的什么进行管理和审计?

行云管家

运维 堡垒机 IT运维 云堡垒机

一对一直播软件——如何实现音视频传播?

开源直播系统源码

软件开发 直播系统源码 一对一语音聊天软件 语音直播系统

百度识图黑科技-Lens技术打造视觉能力增强利器_文化 & 方法_百度App技术_InfoQ精选文章