限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

百度识图黑科技 -Lens 技术打造视觉能力增强利器

  • 2019-11-28
  • 本文字数:2730 字

    阅读完需:约 9 分钟

百度识图黑科技-Lens技术打造视觉能力增强利器

你知道吗?人类有 70%的信息获取来自于视觉。但目前存在两个问题: ①人眼本身只能看到物理世界,无法看到其背后复杂的信息世界; ②人类的记忆力有限,视野有限,于是会出现看了就忘、视野窄等各种问题。


科幻片里常见这样一种“人肉外挂”:通过一系列的技术改造,主人公(比如史塔克)眼前出现的一切物体都会被自动识别,什么名称、用途、用法用量,全都可以秒速反馈回来,并被即时载入到记忆中,过目不忘。


如今,百度识图在百度 App 和简单搜索 App 上推出的最新版,通过应用 Lens 技术把这种科幻场景往现实生活中拉得更近了一点!


一、百度识图可以做什么?

作为目前全球识别能力最广的 AI 视觉产品,百度识图已支持超过 30+场景的认知。


例如:扫商品找同款比价格,扫植物学辨认技巧看养护知识,扫人脸测面相运势,扫菜品/食材看热量知功效做法、扫明星看八卦追行程、扫汽车了解型号价格、扫红酒查酒庄年份、扫题目搜答案看解析。



此外还有 AR 翻译、文字、图书、海报、药品、货币、电影等多品类的认知能力。

二、Lens 技术是什么?

Lens 技术是一种基于移动端实时感知和云端视觉搜索的类人眼视觉 AI 能力,能够实现所见即所得的信息浏览体验。


应用 Lens 技术后,打开百度识图,无需拍照,毫秒内自动扫描并锁定镜头内检测到的全部物体,即刻反馈“它是什么”,“它背后的相关信息”,让你随时随地拥有“移动的百科全书”。

三、本次升级有什么重要意义?

1. 从行为层面,它将深度强化人眼视觉理解能力,改变人类认知事物的习惯并为未来的智能眼镜奠定坚实基础。你可以借助百度识图真正实现边走边看,不间断浏览,同时,依托于百度识图背后的超级百度大脑,将确保为每个实物提供精准、深度的信息介绍,让你边看边学。

2. 从技术层面,它首次实现了类人眼的对实时视频流数据的感知和认知能力。百度识图具备了目前全球最快最稳定的跨平台实时视觉 AI 能力,可以嵌入到 Android/iOS 系统部署,依靠百度移动端深度学习预测框架 paddle-mobile,在移动端和智能硬件中运行,并保持业内遥遥领先的性能和效果指标。

四、百度识图的 Lens 技术攻克了哪些难题?

为了达到类人眼的视力,人工智能必须充分调动起复杂且涉及众多环节的能力。在这一过程中,百度识图的 Lens 技术遇到并解决了 4 个核心问题。

1、快速连续稳定地发现新物体

人眼对视觉信号反应时间 170ms~400ms,新进入视野的物体能够被快速的看见,当视角发生变化时新视野的物体在被发现的同时,也能够建立与旧视野内物体的对应关系。具体到技术上,分为两个问题:单帧图像的物体检测的性能和连续帧图像物体检测的稳定性。


① 单帧物体检测的性能包含准确率、召回率和检测速度。过深的 CNN,相应地耗时也都较长。而且终端 GPU 相比服务器 GPU 的性能还要拉开十倍以上的差距,耗时更长。


因此,我们选择构建轻量级的 MobileNet 网络结构实现移动端物体检测,并且构建覆盖通用场景的百万级别通用物体检测图片数据集。针对基础模型进行压缩,进一步提升预测速度,最终可支持在手机端实现单帧多目标检测耗时 60 ms 以内,主要物体检测准确率和召回率均在 95%以上。


② 连续帧图像物体检测的稳定性是我们面临的一个新挑战,它关注解决的问题是如何量化衡量在连续帧上不断的进行物体检测时,物体是否被检测到的状态变化。



在图像上物体的微小平移、尺度、姿态变换,都导致 CNN 输出变化剧烈


百度提出了一种移动终端基于视觉跟踪的连续帧多目标检测方法专利,在实时连续帧数据上,用跟踪完成短时的物体状态保持,并在视野物体发生变化时,在检测模型中融合跟踪算法的输出,给出最终的稳定的连续帧物体检测结果。最终帧错误率从 16.7%降低到 2%。

2、连续实时跟踪物体

为了让反馈信息像放置在真实世界中的一样稳定,百度采用了 SLAM(Simultaneous Localization and Mapping)技术。在未知环境中,通过对环境的观测确定自身的运动轨迹,同时构建出环境三维地图。



针对文字跟踪的场景,还涵盖了 Texture Mapping 技术,将文字的翻译结果,无缝地融合到源语言文字位置处,达到原生视觉效果。

3、视觉信号多层认知,先粗看再细看

人眼会对视野内的物体先产生初步理解,例如左前方有辆汽车。当眼睛注意力集中到汽车时,再由具体认知环节分辨是宝马 320 还是奔驰 C200。


粗粒度语义理解模型的训练,整理构建涵盖办公、家庭生活、商场、超市、户外园区和街道等主要场景的 300+标签分类标签体系,包含百万级物体局部图的数据集。


细粒度物体认知是由一整套复杂的云端系统构成,包含万级别大规模细粒度分类模型,以及基于 ANN 最近邻向量检索构建的百度新一代视觉检索技术,支持相似图、同款商品、名人脸等检索。

4、无缝连接以上三个环节

人眼在接收到视觉信号后,由大脑完美地调度,发现、跟踪和多层认知三个环节实现无缝衔接。在技术实现上,却需要考虑非常多的因素,包括用户注意力判断、注意力集中时的选帧算法、跟踪和检测算法的调度切换策略。


通过精细的组合调度算法,我们将百度识图的耗电量控制在 2%/10min 以内,满足了移动端部署对能耗的要求。


最终,物体的发现感知、连续跟踪、粗粒度语义理解,以及根据用户行为和视觉场景动态组合和调度以上模型的 multi-task planning 算法,整体构成感知计算模块 Walle SDK,可以支持在 iOS、Android 以及服务器等多种平台部署。

五、未来还有哪些新期待?

  1. 在用户行为及信息理解层面,未来的百度识图,将会融合:多模态的交互方式、多形态的信息呈现方式以及多纵深角度的信息识别结果,带来更聪明的视觉理解体验。那个时候,借助智能设备,我们只需要动动眼睛,说一句话,我们所需要的信息就会以 AR 的方式叠加到我们面前。

  2. 在技术应用层面,百度识图将会成为跨平台应用、并持续丰富物体高级感知能力的维度,促进全人类的人眼视觉能力强化。目前百度识图能力由纯 C++实现的跨平台运行库,核心库大小 300KB,几乎可以嵌入任何支持深度学习模型运行的终端平台,例如智能硬件、一些智能摄像头、无人驾驶汽车等等。

六、怎样体验百度识图黑科技?

说了这么多,你是不是也想赶紧体验一下呢?升级到最新版百度识图,就可以体验黑科技啦,iPhone 用户可以在百度 App(11.2 版本) 和简单搜索 App(3.1 版本) 的“自动拍” 入口体验,安卓用户需要耐心等待一下哦,百度 App 安卓端将在 1 月份发布的 11.3 版本上线黑科技,简单搜索的安卓版后续也会很快上线!后续还会推广到其他场景。


下面以百度 App 为例,带你一起体验!



未来,我们会将百度识图的 Lens 技术开放给开发者,帮助大家以极小的开发成本即可让自己的摄像头具备类人眼能力。


而今天,你可以打开百度 App 和简单搜索 App,使用百度识图,重新认识你身边的视界。


本文转载自百度 App 技术公众号。


原文链接:https://mp.weixin.qq.com/s/qoHGymdOauCYw6ijx-u9uA


2019-11-28 08:006367

评论

发布
暂无评论
发现更多内容

云计算架构师-带你安装MySQL数据库并去除安全隐患

学神来啦

MySQL 数据库 Linux 运维 MariaDB

2021Java面试心得:docker运行springboot项目

Java 程序员 面试 后端

个性化联邦学习算法框架发布,赋能AI药物研发

华为云开发者联盟

联邦学习 药物研发 算法框架

IM与办公平台的关系设计

superman

产品经理 架构师 IM 移动办公平台 自建移动办公

从0到1亿用户的架构设计

俞凡

架构

🏆「推荐收藏」【Git实战专题】代码提交错误怎么办?教你如何回退版本!

码界西柚

git git flow git reset git revert

Linux ssh命令详解,连ssh命令都不了解就别说自己会用Linux了

北游学Java

Java Linux SSH

马拉松还是骇客松 Hackathon?

escray

学习 极客时间 朱赟的技术管理课 7月日更

Python开发篇——如何在Flask下编写JWT登录

吴脑的键客

Python flask JWT

2021年中国DevOps现状调查报告发布!

华为云开发者联盟

DevOps 敏捷 安全 华为云DevCloud 信通院

在线诺基亚短信图片生成器工具

入门小站

工具

HarmonyOS开发者日杭州站举办,多维赋能开发者实现高效开发

科技汇

2021Java面试心得:kafka工具

Java 程序员 面试 后端

Building deep retrieval models

毛显新

自然语言处理 深度学习 tensorflow 推荐系统 keras

校友卡微信小程序开发总结

CC同学

Confluence 7 如何修改启动内存

HoneyMoose

Python OpenCV 图像处理之 图像运算和图像位运算知识补充

梦想橡皮擦

7月日更

2021年最新大厂Android面试笔试题目,威力加强版

欢喜学安卓

2021腾讯Android面试题精选,复习指南

欢喜学安卓

android 程序员 面试 移动开发

带你看清梦饷集团如何成为上海在线新经济四小龙

华为云开发者联盟

MySQL 数据库 mongodb 电商 华为云数据库

7月日更,FAIL!FAIL?

Nydia

云小课 | 一分钟了解AppCube中的应用

华为云开发者联盟

低代码 云小课 应用 AppCube 应用魔方

Linux之free命令

入门小站

Linux

【翻译】数据包的旅程 - OSI模型

luojiahu

计算机网络 OSI模型

golang--字典树

en

数据结构与算法 字典树

奥运神颜运动员

6979阿强

iOS开发底层面试攻略

面试 移动开发 ios开发

🏆【Java 技术之旅】带你深入理解和认识SPI运作机制

码界西柚

Java 抽象 spi 7月日更

结对编程,到底是双剑合璧还是脚趾抠地?

华为云开发者联盟

编程 软件 敏捷 敏捷开发 结对编程

吴亦凡都美竹事件:男人全员恶人?

6979阿强

FIL云算力挖矿平台系统开发案例

Geek_23f0c3

云算力挖矿系统开发详解 云算力模式系统开发源码 filecoin矿机哪家好? fil挖矿

百度识图黑科技-Lens技术打造视觉能力增强利器_文化 & 方法_百度App技术_InfoQ精选文章