写点什么

百度识图黑科技 -Lens 技术打造视觉能力增强利器

  • 2019-11-28
  • 本文字数:2730 字

    阅读完需:约 9 分钟

百度识图黑科技-Lens技术打造视觉能力增强利器

你知道吗?人类有 70%的信息获取来自于视觉。但目前存在两个问题: ①人眼本身只能看到物理世界,无法看到其背后复杂的信息世界; ②人类的记忆力有限,视野有限,于是会出现看了就忘、视野窄等各种问题。


科幻片里常见这样一种“人肉外挂”:通过一系列的技术改造,主人公(比如史塔克)眼前出现的一切物体都会被自动识别,什么名称、用途、用法用量,全都可以秒速反馈回来,并被即时载入到记忆中,过目不忘。


如今,百度识图在百度 App 和简单搜索 App 上推出的最新版,通过应用 Lens 技术把这种科幻场景往现实生活中拉得更近了一点!


一、百度识图可以做什么?

作为目前全球识别能力最广的 AI 视觉产品,百度识图已支持超过 30+场景的认知。


例如:扫商品找同款比价格,扫植物学辨认技巧看养护知识,扫人脸测面相运势,扫菜品/食材看热量知功效做法、扫明星看八卦追行程、扫汽车了解型号价格、扫红酒查酒庄年份、扫题目搜答案看解析。



此外还有 AR 翻译、文字、图书、海报、药品、货币、电影等多品类的认知能力。

二、Lens 技术是什么?

Lens 技术是一种基于移动端实时感知和云端视觉搜索的类人眼视觉 AI 能力,能够实现所见即所得的信息浏览体验。


应用 Lens 技术后,打开百度识图,无需拍照,毫秒内自动扫描并锁定镜头内检测到的全部物体,即刻反馈“它是什么”,“它背后的相关信息”,让你随时随地拥有“移动的百科全书”。

三、本次升级有什么重要意义?

1. 从行为层面,它将深度强化人眼视觉理解能力,改变人类认知事物的习惯并为未来的智能眼镜奠定坚实基础。你可以借助百度识图真正实现边走边看,不间断浏览,同时,依托于百度识图背后的超级百度大脑,将确保为每个实物提供精准、深度的信息介绍,让你边看边学。

2. 从技术层面,它首次实现了类人眼的对实时视频流数据的感知和认知能力。百度识图具备了目前全球最快最稳定的跨平台实时视觉 AI 能力,可以嵌入到 Android/iOS 系统部署,依靠百度移动端深度学习预测框架 paddle-mobile,在移动端和智能硬件中运行,并保持业内遥遥领先的性能和效果指标。

四、百度识图的 Lens 技术攻克了哪些难题?

为了达到类人眼的视力,人工智能必须充分调动起复杂且涉及众多环节的能力。在这一过程中,百度识图的 Lens 技术遇到并解决了 4 个核心问题。

1、快速连续稳定地发现新物体

人眼对视觉信号反应时间 170ms~400ms,新进入视野的物体能够被快速的看见,当视角发生变化时新视野的物体在被发现的同时,也能够建立与旧视野内物体的对应关系。具体到技术上,分为两个问题:单帧图像的物体检测的性能和连续帧图像物体检测的稳定性。


① 单帧物体检测的性能包含准确率、召回率和检测速度。过深的 CNN,相应地耗时也都较长。而且终端 GPU 相比服务器 GPU 的性能还要拉开十倍以上的差距,耗时更长。


因此,我们选择构建轻量级的 MobileNet 网络结构实现移动端物体检测,并且构建覆盖通用场景的百万级别通用物体检测图片数据集。针对基础模型进行压缩,进一步提升预测速度,最终可支持在手机端实现单帧多目标检测耗时 60 ms 以内,主要物体检测准确率和召回率均在 95%以上。


② 连续帧图像物体检测的稳定性是我们面临的一个新挑战,它关注解决的问题是如何量化衡量在连续帧上不断的进行物体检测时,物体是否被检测到的状态变化。



在图像上物体的微小平移、尺度、姿态变换,都导致 CNN 输出变化剧烈


百度提出了一种移动终端基于视觉跟踪的连续帧多目标检测方法专利,在实时连续帧数据上,用跟踪完成短时的物体状态保持,并在视野物体发生变化时,在检测模型中融合跟踪算法的输出,给出最终的稳定的连续帧物体检测结果。最终帧错误率从 16.7%降低到 2%。

2、连续实时跟踪物体

为了让反馈信息像放置在真实世界中的一样稳定,百度采用了 SLAM(Simultaneous Localization and Mapping)技术。在未知环境中,通过对环境的观测确定自身的运动轨迹,同时构建出环境三维地图。



针对文字跟踪的场景,还涵盖了 Texture Mapping 技术,将文字的翻译结果,无缝地融合到源语言文字位置处,达到原生视觉效果。

3、视觉信号多层认知,先粗看再细看

人眼会对视野内的物体先产生初步理解,例如左前方有辆汽车。当眼睛注意力集中到汽车时,再由具体认知环节分辨是宝马 320 还是奔驰 C200。


粗粒度语义理解模型的训练,整理构建涵盖办公、家庭生活、商场、超市、户外园区和街道等主要场景的 300+标签分类标签体系,包含百万级物体局部图的数据集。


细粒度物体认知是由一整套复杂的云端系统构成,包含万级别大规模细粒度分类模型,以及基于 ANN 最近邻向量检索构建的百度新一代视觉检索技术,支持相似图、同款商品、名人脸等检索。

4、无缝连接以上三个环节

人眼在接收到视觉信号后,由大脑完美地调度,发现、跟踪和多层认知三个环节实现无缝衔接。在技术实现上,却需要考虑非常多的因素,包括用户注意力判断、注意力集中时的选帧算法、跟踪和检测算法的调度切换策略。


通过精细的组合调度算法,我们将百度识图的耗电量控制在 2%/10min 以内,满足了移动端部署对能耗的要求。


最终,物体的发现感知、连续跟踪、粗粒度语义理解,以及根据用户行为和视觉场景动态组合和调度以上模型的 multi-task planning 算法,整体构成感知计算模块 Walle SDK,可以支持在 iOS、Android 以及服务器等多种平台部署。

五、未来还有哪些新期待?

  1. 在用户行为及信息理解层面,未来的百度识图,将会融合:多模态的交互方式、多形态的信息呈现方式以及多纵深角度的信息识别结果,带来更聪明的视觉理解体验。那个时候,借助智能设备,我们只需要动动眼睛,说一句话,我们所需要的信息就会以 AR 的方式叠加到我们面前。

  2. 在技术应用层面,百度识图将会成为跨平台应用、并持续丰富物体高级感知能力的维度,促进全人类的人眼视觉能力强化。目前百度识图能力由纯 C++实现的跨平台运行库,核心库大小 300KB,几乎可以嵌入任何支持深度学习模型运行的终端平台,例如智能硬件、一些智能摄像头、无人驾驶汽车等等。

六、怎样体验百度识图黑科技?

说了这么多,你是不是也想赶紧体验一下呢?升级到最新版百度识图,就可以体验黑科技啦,iPhone 用户可以在百度 App(11.2 版本) 和简单搜索 App(3.1 版本) 的“自动拍” 入口体验,安卓用户需要耐心等待一下哦,百度 App 安卓端将在 1 月份发布的 11.3 版本上线黑科技,简单搜索的安卓版后续也会很快上线!后续还会推广到其他场景。


下面以百度 App 为例,带你一起体验!



未来,我们会将百度识图的 Lens 技术开放给开发者,帮助大家以极小的开发成本即可让自己的摄像头具备类人眼能力。


而今天,你可以打开百度 App 和简单搜索 App,使用百度识图,重新认识你身边的视界。


本文转载自百度 App 技术公众号。


原文链接:https://mp.weixin.qq.com/s/qoHGymdOauCYw6ijx-u9uA


2019-11-28 08:006336

评论

发布
暂无评论
发现更多内容

袋鼠云春季生长大会最新议程来啦!4月20日我们云上见

袋鼠云数栈

大数据 数字化转型

华为云等保安全服务,助力企业多快好省过等保

秃头也爱科技

超级App与新零售:零售品牌如何利用小程序技术掌握未来商业机会?

FinFish

新零售 超级app 小程序技术 小程序容器技术

Paimon 专题上线|从 0 到 1 入门新一代流式数据湖存储

Apache Flink

大数据 flink 实时计算

架构训练营模块九作业

gigifrog

架构训练营

极客高赞:网络安全为什么缺人?缺什么样的人?

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

华为云数据灾备,让企业上云更安心

科技怪授

华为云助力龙岗区人才培养生态建设,2023年龙岗产业创新人才双选会圆满落幕

科技说

未来技术方向——“乐高式”可组装式开发能力

鲸品堂

技术 科技 组装式创新 企业号 4 月 PK 榜

华为云网站安全解决方案加固企业网站安全防护

科技怪授

华为云网站安全解决方案,助力游戏行业平台安全

科技怪授

更好地解决企业网络安全防护难题,华为云值得信赖

科技怪授

华为云助力龙岗产业创新人才培养:2023大学生就业创业嘉年华活动圆满落幕

科技说

听说谛听闹退休?感知网络接班啦!

白洞计划

感知网络

升级企业数智化底座,以技术重构企业发展力

用友BIP

技术大会 用友iuap 用友BIP 用友技术大会

Postman 如何传递 Date 类型参数

Liam

Java 程序员 后端 Postman

如何在 Go 中验证一个字符串是否是 URL?

宇宙之一粟

正则表达式 字符串 url Go 语言 三周年连更

京东技术专家首推:Spring微服务架构设计,GitHub星标128K

程序知音

Java 微服务 springboot SpringCloud java架构

基于Laravel的模块化开发框架,让Web应用程序开发更快更简单

ModStart

HTTP 与 RPC 接口区别

Apifox

网络协议 RPC HTTP RPC调用

别再只会使用简单的ping命令了,Linux中这些高级ping命令可以提高工作效率!

wljslmz

三周年连更

2023 Java面试题短期突击攻略,已帮助400+位程序员成功拿到offer

小小怪下士

Java 程序员 面试 后端

五一临近,赋能乡村振兴,低代码也有话讲!

加入高科技仿生人

低代码 数字化 乡村振兴 乡村旅游

谈一谈 SAP 企业管理软件里那些真假 Fiori 应用

汪子熙

SAP Fiori 企业管理软件 思爱普 三周年连更

华为云助力龙岗产业创新人才双选会,为深圳市打造数字经济人才高地

科技说

Mysql分页 vs Oracle分页|非常详细,建议收藏

bug菌

MySQL oracle 三周年连更

集简云软件连接器,实现业务流程自动化

集简云开放平台

低代码开发 低代码平台 数据集成平台

华为云等保安全解决方案,为你守护网络安全

秃头也爱科技

智慧公厕是什么?智慧公厕在智慧城市中起到什么样的作用?@光明源智慧公厕科技

光明源智慧厕所

智慧城市

实力领先!华为云让网站更安全

科技怪授

Last Week in Milvus

Zilliz

非结构化数据 开源社区 Milvus Zilliz 向量数据库

百度识图黑科技-Lens技术打造视觉能力增强利器_文化 & 方法_百度App技术_InfoQ精选文章