NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

百度识图黑科技 -Lens 技术打造视觉能力增强利器

  • 2019-11-28
  • 本文字数:2730 字

    阅读完需:约 9 分钟

百度识图黑科技-Lens技术打造视觉能力增强利器

你知道吗?人类有 70%的信息获取来自于视觉。但目前存在两个问题: ①人眼本身只能看到物理世界,无法看到其背后复杂的信息世界; ②人类的记忆力有限,视野有限,于是会出现看了就忘、视野窄等各种问题。


科幻片里常见这样一种“人肉外挂”:通过一系列的技术改造,主人公(比如史塔克)眼前出现的一切物体都会被自动识别,什么名称、用途、用法用量,全都可以秒速反馈回来,并被即时载入到记忆中,过目不忘。


如今,百度识图在百度 App 和简单搜索 App 上推出的最新版,通过应用 Lens 技术把这种科幻场景往现实生活中拉得更近了一点!


一、百度识图可以做什么?

作为目前全球识别能力最广的 AI 视觉产品,百度识图已支持超过 30+场景的认知。


例如:扫商品找同款比价格,扫植物学辨认技巧看养护知识,扫人脸测面相运势,扫菜品/食材看热量知功效做法、扫明星看八卦追行程、扫汽车了解型号价格、扫红酒查酒庄年份、扫题目搜答案看解析。



此外还有 AR 翻译、文字、图书、海报、药品、货币、电影等多品类的认知能力。

二、Lens 技术是什么?

Lens 技术是一种基于移动端实时感知和云端视觉搜索的类人眼视觉 AI 能力,能够实现所见即所得的信息浏览体验。


应用 Lens 技术后,打开百度识图,无需拍照,毫秒内自动扫描并锁定镜头内检测到的全部物体,即刻反馈“它是什么”,“它背后的相关信息”,让你随时随地拥有“移动的百科全书”。

三、本次升级有什么重要意义?

1. 从行为层面,它将深度强化人眼视觉理解能力,改变人类认知事物的习惯并为未来的智能眼镜奠定坚实基础。你可以借助百度识图真正实现边走边看,不间断浏览,同时,依托于百度识图背后的超级百度大脑,将确保为每个实物提供精准、深度的信息介绍,让你边看边学。

2. 从技术层面,它首次实现了类人眼的对实时视频流数据的感知和认知能力。百度识图具备了目前全球最快最稳定的跨平台实时视觉 AI 能力,可以嵌入到 Android/iOS 系统部署,依靠百度移动端深度学习预测框架 paddle-mobile,在移动端和智能硬件中运行,并保持业内遥遥领先的性能和效果指标。

四、百度识图的 Lens 技术攻克了哪些难题?

为了达到类人眼的视力,人工智能必须充分调动起复杂且涉及众多环节的能力。在这一过程中,百度识图的 Lens 技术遇到并解决了 4 个核心问题。

1、快速连续稳定地发现新物体

人眼对视觉信号反应时间 170ms~400ms,新进入视野的物体能够被快速的看见,当视角发生变化时新视野的物体在被发现的同时,也能够建立与旧视野内物体的对应关系。具体到技术上,分为两个问题:单帧图像的物体检测的性能和连续帧图像物体检测的稳定性。


① 单帧物体检测的性能包含准确率、召回率和检测速度。过深的 CNN,相应地耗时也都较长。而且终端 GPU 相比服务器 GPU 的性能还要拉开十倍以上的差距,耗时更长。


因此,我们选择构建轻量级的 MobileNet 网络结构实现移动端物体检测,并且构建覆盖通用场景的百万级别通用物体检测图片数据集。针对基础模型进行压缩,进一步提升预测速度,最终可支持在手机端实现单帧多目标检测耗时 60 ms 以内,主要物体检测准确率和召回率均在 95%以上。


② 连续帧图像物体检测的稳定性是我们面临的一个新挑战,它关注解决的问题是如何量化衡量在连续帧上不断的进行物体检测时,物体是否被检测到的状态变化。



在图像上物体的微小平移、尺度、姿态变换,都导致 CNN 输出变化剧烈


百度提出了一种移动终端基于视觉跟踪的连续帧多目标检测方法专利,在实时连续帧数据上,用跟踪完成短时的物体状态保持,并在视野物体发生变化时,在检测模型中融合跟踪算法的输出,给出最终的稳定的连续帧物体检测结果。最终帧错误率从 16.7%降低到 2%。

2、连续实时跟踪物体

为了让反馈信息像放置在真实世界中的一样稳定,百度采用了 SLAM(Simultaneous Localization and Mapping)技术。在未知环境中,通过对环境的观测确定自身的运动轨迹,同时构建出环境三维地图。



针对文字跟踪的场景,还涵盖了 Texture Mapping 技术,将文字的翻译结果,无缝地融合到源语言文字位置处,达到原生视觉效果。

3、视觉信号多层认知,先粗看再细看

人眼会对视野内的物体先产生初步理解,例如左前方有辆汽车。当眼睛注意力集中到汽车时,再由具体认知环节分辨是宝马 320 还是奔驰 C200。


粗粒度语义理解模型的训练,整理构建涵盖办公、家庭生活、商场、超市、户外园区和街道等主要场景的 300+标签分类标签体系,包含百万级物体局部图的数据集。


细粒度物体认知是由一整套复杂的云端系统构成,包含万级别大规模细粒度分类模型,以及基于 ANN 最近邻向量检索构建的百度新一代视觉检索技术,支持相似图、同款商品、名人脸等检索。

4、无缝连接以上三个环节

人眼在接收到视觉信号后,由大脑完美地调度,发现、跟踪和多层认知三个环节实现无缝衔接。在技术实现上,却需要考虑非常多的因素,包括用户注意力判断、注意力集中时的选帧算法、跟踪和检测算法的调度切换策略。


通过精细的组合调度算法,我们将百度识图的耗电量控制在 2%/10min 以内,满足了移动端部署对能耗的要求。


最终,物体的发现感知、连续跟踪、粗粒度语义理解,以及根据用户行为和视觉场景动态组合和调度以上模型的 multi-task planning 算法,整体构成感知计算模块 Walle SDK,可以支持在 iOS、Android 以及服务器等多种平台部署。

五、未来还有哪些新期待?

  1. 在用户行为及信息理解层面,未来的百度识图,将会融合:多模态的交互方式、多形态的信息呈现方式以及多纵深角度的信息识别结果,带来更聪明的视觉理解体验。那个时候,借助智能设备,我们只需要动动眼睛,说一句话,我们所需要的信息就会以 AR 的方式叠加到我们面前。

  2. 在技术应用层面,百度识图将会成为跨平台应用、并持续丰富物体高级感知能力的维度,促进全人类的人眼视觉能力强化。目前百度识图能力由纯 C++实现的跨平台运行库,核心库大小 300KB,几乎可以嵌入任何支持深度学习模型运行的终端平台,例如智能硬件、一些智能摄像头、无人驾驶汽车等等。

六、怎样体验百度识图黑科技?

说了这么多,你是不是也想赶紧体验一下呢?升级到最新版百度识图,就可以体验黑科技啦,iPhone 用户可以在百度 App(11.2 版本) 和简单搜索 App(3.1 版本) 的“自动拍” 入口体验,安卓用户需要耐心等待一下哦,百度 App 安卓端将在 1 月份发布的 11.3 版本上线黑科技,简单搜索的安卓版后续也会很快上线!后续还会推广到其他场景。


下面以百度 App 为例,带你一起体验!



未来,我们会将百度识图的 Lens 技术开放给开发者,帮助大家以极小的开发成本即可让自己的摄像头具备类人眼能力。


而今天,你可以打开百度 App 和简单搜索 App,使用百度识图,重新认识你身边的视界。


本文转载自百度 App 技术公众号。


原文链接:https://mp.weixin.qq.com/s/qoHGymdOauCYw6ijx-u9uA


2019-11-28 08:005439

评论

发布
暂无评论
发现更多内容

C语言字符串与内存库函数的介绍与模拟实现

未见花闻

6月月更

数据库每日一题---第20天:按日期分组销售产品

知心宝贝

数据库 程序员 前端 后端 6月月更

年中大促 | 集成无忧,超值套餐 6 折起

融云 RongCloud

一张图解码 OpenCloudOS 社区开放日

腾源会

Fegin的解析

卢卡多多

OpenFegin 6月月更

如何做好研发效能度量及指标选取

思码逸研发效能

研发效能

关河因果将机器学习融合逻辑规则,突破黑盒壁垒

6979阿强

数据分析 大数据分析 关河因果 关河智图 因果分析

使用GetX构建更优雅的Flutter页面结构

岛上码农

flutter ios 前端 安卓开发 6月月更

[译]关于 Python 中的数字你可能不知道的 3 件事

宇宙之一粟

Python 6月月更

5分钟快速上线Web应用和API(Vercel)

Liam

前端 前端开发 开发 Postman API

51万奖池邀你参战!第二届阿里云ECS CloudBuild开发者大赛来袭

阿里云弹性计算

阿里云 分布式缓存 开发者大赛 加密计算 大数据加速

数字经济加速落地,能为中小企业带来什么?

脑极体

数据科学家是不是特有前途的职业?

袁袁袁袁满

如何在物联网低代码平台中使用数据字典功能?

AIRIOT

物联网 低代码平台

华为云如何实现实时音视频全球低时延网络架构【上】

坚果

6月月更

预约直播|机器学习PAI:AI加速计划

阿里云大数据AI技术

AI 模型开发训练

华为云招募工业智能领域合作伙伴,强力扶持+商业变现

华为云开发者联盟

云计算 华为云 工业数据智能

如何低成本快速搭建企业知识库?

小炮

企业级软件开发新模式:低代码

力软低代码开发平台

活动预约|阿里云如何搭建云服务 SRE 与可观测体系

阿里巴巴云原生

阿里云 云原生 可观测 峰会

学习 | 写论文看这一篇就够了~

写程序的小王叔叔

学习笔记 论文阅读 论文写作 6月月更

一文简述:钓鱼攻击知多少

穿过生命散发芬芳

6月月更 钓鱼攻击

再读凤凰架构-分布式架构更清晰

BeyondLife

分布式 凤凰架构

网页制作存在的一些难点

源字节1号

详解openGauss多线程架构启动过程

华为云开发者联盟

数据库 后端

博睿数据出席阿里云可观测技术峰会,数字体验管理驱动可持续发展

博睿数据

可观测性 智能运维 博睿数据 数字体验管理

DAP事实表加工汇总功能应用说明

agileai

数据分析 数据集成 数仓建设 基础事实表 汇总事实表

如何给研发团队分钱?

菜根老谭

研发体系 绩效管理 激励体系

物联网开源开发平台 Shifu 开放内测!第一版技术文档发布

亚马逊云科技 (Amazon Web Services)

物联网 Tech 专栏

支持在 Kubernetes 运行,添加多种连接器,SeaTunnel 2.1.2 版本正式发布!

Apache SeaTunnel

Apache 大数据 开源 workflow

万字攻略,详解腾讯面试(T1-T9)核心技术点,面试题整理

C++后台开发

后台开发 面试题 Linux服务器开发 C++后台开发 腾讯面试

百度识图黑科技-Lens技术打造视觉能力增强利器_文化 & 方法_百度App技术_InfoQ精选文章