10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

百度识图黑科技 -Lens 技术打造视觉能力增强利器

  • 2019-11-28
  • 本文字数:2730 字

    阅读完需:约 9 分钟

百度识图黑科技-Lens技术打造视觉能力增强利器

你知道吗?人类有 70%的信息获取来自于视觉。但目前存在两个问题: ①人眼本身只能看到物理世界,无法看到其背后复杂的信息世界; ②人类的记忆力有限,视野有限,于是会出现看了就忘、视野窄等各种问题。


科幻片里常见这样一种“人肉外挂”:通过一系列的技术改造,主人公(比如史塔克)眼前出现的一切物体都会被自动识别,什么名称、用途、用法用量,全都可以秒速反馈回来,并被即时载入到记忆中,过目不忘。


如今,百度识图在百度 App 和简单搜索 App 上推出的最新版,通过应用 Lens 技术把这种科幻场景往现实生活中拉得更近了一点!


一、百度识图可以做什么?

作为目前全球识别能力最广的 AI 视觉产品,百度识图已支持超过 30+场景的认知。


例如:扫商品找同款比价格,扫植物学辨认技巧看养护知识,扫人脸测面相运势,扫菜品/食材看热量知功效做法、扫明星看八卦追行程、扫汽车了解型号价格、扫红酒查酒庄年份、扫题目搜答案看解析。



此外还有 AR 翻译、文字、图书、海报、药品、货币、电影等多品类的认知能力。

二、Lens 技术是什么?

Lens 技术是一种基于移动端实时感知和云端视觉搜索的类人眼视觉 AI 能力,能够实现所见即所得的信息浏览体验。


应用 Lens 技术后,打开百度识图,无需拍照,毫秒内自动扫描并锁定镜头内检测到的全部物体,即刻反馈“它是什么”,“它背后的相关信息”,让你随时随地拥有“移动的百科全书”。

三、本次升级有什么重要意义?

1. 从行为层面,它将深度强化人眼视觉理解能力,改变人类认知事物的习惯并为未来的智能眼镜奠定坚实基础。你可以借助百度识图真正实现边走边看,不间断浏览,同时,依托于百度识图背后的超级百度大脑,将确保为每个实物提供精准、深度的信息介绍,让你边看边学。

2. 从技术层面,它首次实现了类人眼的对实时视频流数据的感知和认知能力。百度识图具备了目前全球最快最稳定的跨平台实时视觉 AI 能力,可以嵌入到 Android/iOS 系统部署,依靠百度移动端深度学习预测框架 paddle-mobile,在移动端和智能硬件中运行,并保持业内遥遥领先的性能和效果指标。

四、百度识图的 Lens 技术攻克了哪些难题?

为了达到类人眼的视力,人工智能必须充分调动起复杂且涉及众多环节的能力。在这一过程中,百度识图的 Lens 技术遇到并解决了 4 个核心问题。

1、快速连续稳定地发现新物体

人眼对视觉信号反应时间 170ms~400ms,新进入视野的物体能够被快速的看见,当视角发生变化时新视野的物体在被发现的同时,也能够建立与旧视野内物体的对应关系。具体到技术上,分为两个问题:单帧图像的物体检测的性能和连续帧图像物体检测的稳定性。


① 单帧物体检测的性能包含准确率、召回率和检测速度。过深的 CNN,相应地耗时也都较长。而且终端 GPU 相比服务器 GPU 的性能还要拉开十倍以上的差距,耗时更长。


因此,我们选择构建轻量级的 MobileNet 网络结构实现移动端物体检测,并且构建覆盖通用场景的百万级别通用物体检测图片数据集。针对基础模型进行压缩,进一步提升预测速度,最终可支持在手机端实现单帧多目标检测耗时 60 ms 以内,主要物体检测准确率和召回率均在 95%以上。


② 连续帧图像物体检测的稳定性是我们面临的一个新挑战,它关注解决的问题是如何量化衡量在连续帧上不断的进行物体检测时,物体是否被检测到的状态变化。



在图像上物体的微小平移、尺度、姿态变换,都导致 CNN 输出变化剧烈


百度提出了一种移动终端基于视觉跟踪的连续帧多目标检测方法专利,在实时连续帧数据上,用跟踪完成短时的物体状态保持,并在视野物体发生变化时,在检测模型中融合跟踪算法的输出,给出最终的稳定的连续帧物体检测结果。最终帧错误率从 16.7%降低到 2%。

2、连续实时跟踪物体

为了让反馈信息像放置在真实世界中的一样稳定,百度采用了 SLAM(Simultaneous Localization and Mapping)技术。在未知环境中,通过对环境的观测确定自身的运动轨迹,同时构建出环境三维地图。



针对文字跟踪的场景,还涵盖了 Texture Mapping 技术,将文字的翻译结果,无缝地融合到源语言文字位置处,达到原生视觉效果。

3、视觉信号多层认知,先粗看再细看

人眼会对视野内的物体先产生初步理解,例如左前方有辆汽车。当眼睛注意力集中到汽车时,再由具体认知环节分辨是宝马 320 还是奔驰 C200。


粗粒度语义理解模型的训练,整理构建涵盖办公、家庭生活、商场、超市、户外园区和街道等主要场景的 300+标签分类标签体系,包含百万级物体局部图的数据集。


细粒度物体认知是由一整套复杂的云端系统构成,包含万级别大规模细粒度分类模型,以及基于 ANN 最近邻向量检索构建的百度新一代视觉检索技术,支持相似图、同款商品、名人脸等检索。

4、无缝连接以上三个环节

人眼在接收到视觉信号后,由大脑完美地调度,发现、跟踪和多层认知三个环节实现无缝衔接。在技术实现上,却需要考虑非常多的因素,包括用户注意力判断、注意力集中时的选帧算法、跟踪和检测算法的调度切换策略。


通过精细的组合调度算法,我们将百度识图的耗电量控制在 2%/10min 以内,满足了移动端部署对能耗的要求。


最终,物体的发现感知、连续跟踪、粗粒度语义理解,以及根据用户行为和视觉场景动态组合和调度以上模型的 multi-task planning 算法,整体构成感知计算模块 Walle SDK,可以支持在 iOS、Android 以及服务器等多种平台部署。

五、未来还有哪些新期待?

  1. 在用户行为及信息理解层面,未来的百度识图,将会融合:多模态的交互方式、多形态的信息呈现方式以及多纵深角度的信息识别结果,带来更聪明的视觉理解体验。那个时候,借助智能设备,我们只需要动动眼睛,说一句话,我们所需要的信息就会以 AR 的方式叠加到我们面前。

  2. 在技术应用层面,百度识图将会成为跨平台应用、并持续丰富物体高级感知能力的维度,促进全人类的人眼视觉能力强化。目前百度识图能力由纯 C++实现的跨平台运行库,核心库大小 300KB,几乎可以嵌入任何支持深度学习模型运行的终端平台,例如智能硬件、一些智能摄像头、无人驾驶汽车等等。

六、怎样体验百度识图黑科技?

说了这么多,你是不是也想赶紧体验一下呢?升级到最新版百度识图,就可以体验黑科技啦,iPhone 用户可以在百度 App(11.2 版本) 和简单搜索 App(3.1 版本) 的“自动拍” 入口体验,安卓用户需要耐心等待一下哦,百度 App 安卓端将在 1 月份发布的 11.3 版本上线黑科技,简单搜索的安卓版后续也会很快上线!后续还会推广到其他场景。


下面以百度 App 为例,带你一起体验!



未来,我们会将百度识图的 Lens 技术开放给开发者,帮助大家以极小的开发成本即可让自己的摄像头具备类人眼能力。


而今天,你可以打开百度 App 和简单搜索 App,使用百度识图,重新认识你身边的视界。


本文转载自百度 App 技术公众号。


原文链接:https://mp.weixin.qq.com/s/qoHGymdOauCYw6ijx-u9uA


2019-11-28 08:006468

评论

发布
暂无评论
发现更多内容

DevOps|研发效能团队组织架构和能力建设

laofo

DevOps cicd 研发效能 持续交付 组织架构

Generative AI 新世界 | 扩散模型原理的代码实践之采样篇

亚马逊云科技 (Amazon Web Services)

机器学习 #人工智能 生成式人工智能 Amazon SageMaker 大语言模型

华为云API对话机器人CBS的魅力—要是有AI,我要做“李白”- 5分钟开发作诗机器人

云计算 软件开发 华为云

华为3场重磅主题演讲先睹为快,顶级云原生&开源盛会即刻出发

华为云开源

华为 开源 云原生 KubeCON

彻底告别传统FTP,新的替代FTP产品比你想象的好的多

镭速

传输协议 FTP传输替代方案

活动预告 | 中国数据库联盟(ACDU)中国行第三站定档成都,邀您探讨数据库前沿技术

墨天轮

MySQL 数据库 oracle postgresql zabbix

软件测试/测试开发丨利用ChatGpt编写测试方案

测试人

人工智能 程序员 软件测试 测试方案 ChatGPT

体验亚马逊的 CodeWhisperer 感觉

亚马逊云科技 (Amazon Web Services)

Java 人工智能

写SAE评测,获 Airpods 2大奖【集结令】!

Serverless Devs

Serverless 云原生 AIGC

从技术创新到应用实践,百度智能云发起大模型平台应用开发挑战赛!

不叫猫先生

百度智能云 千帆大模型平台

上新啦!腾讯云云原生数据湖产品DLC 2.2.5版本发布,来看特性详解

腾讯云大数据

数据湖

Git Stash:临时保存和切换工作状态的利器

凌览

git git stash

开启 Kerberos 安全认证的大数据环境中如何正确指定 HS2 的 jdbc url 地址?

明哥的IT随笔

大数据 hive kerberos

用友系列之 YonBuilder 低代码平台概论和基本使用

YonBuilder低代码开发平台

低代码 可视化

WorkPlus私有化部署IM即时通讯平台,构建高效安全的局域网办公环境

BeeWorks

企业内部通讯,WorkPlus助您打造高效沟通平台

BeeWorks

rabbitMQ到底是个啥东西?

程序员万金游

Java 开发 #java Rabbit MQ

百度智能云 AI 加速器第二期今日开营,42家AI原生应用企业入选

极客天地

聚势共创 多元共生——中科美菱联动清华大学助力产研融合!

联营汇聚

华为阅读“鲁迅专栏”已上线,读国内名家作品就上华为阅读

最新动态

如何访问TDH中Inceptor 底层的元数据库TxSQL

明哥的IT随笔

大数据 hive

OpenHarmony自定义组件介绍

OpenHarmony开发者

OpenHarmony

跨网传输文件时,如何通过日志记录来审计追溯?

镭速

跨网文件传输

自动驾驶汽车—AI技术的未来之路

测吧(北京)科技有限公司

测试

如何在低代码平台中应用可视化编程

力软低代码开发平台

ICCV 2023|小红书 4 篇入选论文亮点解读,「开集视频目标分割」获得 Oral

小红书技术REDtech

算法 ICCV

HarmonyOS使用多线程并发能力开发

HarmonyOS开发者

HarmonyOS

WorkPlus Meet 视频会议,自主可控,支持私有化部署

BeeWorks

自动驾驶汽车:AI技术的未来之路

测吧(北京)科技有限公司

测试

关于 TDengine 3.0 数据订阅,你需要知道这些

TDengine

tdengine 时序数据库 国产时序数据库

百度识图黑科技-Lens技术打造视觉能力增强利器_文化 & 方法_百度App技术_InfoQ精选文章