AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

百度 AI 开发者大会百度大脑论坛:详解“多模态深度语义理解”

  • 2018-07-06
  • 本文字数:2611 字

    阅读完需:约 9 分钟

7 月 4 日召开的百度 AI 开发者大会(Baidu Create 2018)上,百度高级副总裁、AI 技术平台体系(AIG)总负责人王海峰发布百度大脑 3.0,并指出,百度大脑 3.0 的核心是“多模态深度语义理解”,包括数据的语义,知识的语义,以及图像、视频、声音、语音等各方面的理解。

在上午的主论坛上,李彦宏现场演示的一段 AI 客服给参会者打电话的视频让人印象深刻:

https://v.qq.com/x/page/o0711bxuu7z.html

据了解,这一功能的实现就是依靠百度大脑 3.0 的多模态深度语义理解能力。

多模态深度语义理解如何在技术上实现?拥有多大的能量?它将如何被应用来改变我们的生活?当天下午的百度大脑论坛中,百度大脑 3.0 的核心技术一一“亮相”,为开发者们带来一场技术盛宴。

可容纳 1000 人的会场座无虚席,开发者们甚至席地而坐,或者站在会场最后听完整场分享。一位开发者表示,“干货太多、时间太少,回去要找回放视频好好消化一下。”

从“看清听清”到“看懂听懂”

“多模态深度语义理解能让机器听清、看清,更能深入理解它背后的含义,深度地理解真实世界,进而更好地支撑各种应用。”王海峰表示。

视觉语义化可以让机器从看清到看懂视频,并提炼出结构化语义知识。百度视觉技术部、人脸技术部、增强现实技术部总监吴中勤介绍,视觉语义化技术首先识别人、物体和场景,同时捕捉它们之间的行为和关系,通过时序化、数字化、结构化的方式形成语义知识,最终结合领域和场景进行智慧推理,落地行业应用。比如在零售领域,它可以准确判断每个人的动作、行为,真正实现顾客拿起商品就走。未来,视觉语义化技术还可进一步延展,它结合新型的传感器和 AI 芯片,可以在感知层面和计算层面得到大幅提升;结合手机可以带给用户更佳地使用体验。未来,百度视觉语义化技术将在百度 AI 开放平台中开放给开发者使用。

语音技术的升级则让机器更好地听懂世界。百度语音技术部总监高亮表示,百度基于远场的语音语义一体化技术取得重大突破,为业界提供更顶尖的远场语音技术。语音语义一体化将远场交互中高频 Query 识别准确率提升 10 个点,并保持普通 Query 识别率不降;多语种混合声学建模基于 Deep Peak2 大幅提升中英文混合 Query 识别准确率,相对错误率比业界最好竞品降低 20%;新升级的 TTS 技术业界首创传统拼接技术与 Wavenet 技术融合方案,保证合成质量的同时大大降低成本,让大规模应用落地成为现实。此外,百度重磅发布远场语音技术低成本解决方案“度小云”,它基于 Deep Peak V2 语音识别技术、语音语义一体化技术及 LSTM-VAD 深度学习语音切分技术,实现业界领先的五级唤醒技术,并拥有基于 Wavenet 的精致音库,支持远场优化的音频通信技术。未来开发者可以平等便捷地一站式获取百度远场语音能力。

想要让机器像人一样拥有智能,将语言变成知识必不可缺。百度 AI 技术平台体系执行总监吴甜表示,百度自然语言处理技术经过多年的发展,已形成全面、前沿的格局。百度知识图谱已发展为复杂、多元、全面的多元语义知识图谱,包含实体图谱、行业图谱、事件图谱、关注点图谱、多媒体图谱,其中实体图谱已经能够覆盖通用需求中 90% 的实体及其属性。在阅读理解技术上,百度大脑已经阅读了千亿量级的文章,相当于 6 万个中国国家图书馆的藏书,并由此积累了亿级实体、千亿事实的知识,并通过“学习”真实应用每天产生的知识不断优化。在对话理解方面,百度理解与交互技术平台 UNIT 升级至 2.0,进一步增强冷启动能力,支持像人类一样在对话当中学习,同时开放了第一个工业级对话系统开源框架,降低搭建门槛,让开发者无缝对接云端。百度将持续开源新的技术,提供更灵活便捷的方案,推动自然语言理解技术的创新与发展。

夯实基础:数据、算法、算力并驾齐驱

数据、算法、算力是影响人工智能技术发展的重要因素。主论坛中,王海峰表示百度大脑 3.0 首次将芯片纳入技术体系,带动百度大脑算力爆发式增长。百度自主研发的中国第一款云端全功能 AI 芯片“昆仑”也在会上首次亮相。未来,AI 芯片将与百度自主研发的 PaddlePaddle 深度学习框架相结合,推动 AI 行业生态快速发展。

百度在 2016 年正式开源的 PaddlePaddle,是最适合中国开发者的深度学习框架。主论坛中,王海峰发布 PaddlePaddle3.0,下午,百度 AI 技术生态部总经理喻友平对此进行了详细解读。PaddlePaddle3.0 包括完整的核心框架,以及 AI Studio、AutoDL、EasyDL 等可以让开发者平等便捷获取顶尖 AI 能力的平台。PaddlePaddle3.0 核心框架对服务器版本以及移动端版本进行了全面优化,PaddlePaddle Fluid 提供丰富的满足常见主流模型搭建需求的 API,支持广泛的模型搭建,训练 Runtime 可以满足各类型的模型训练需求;PaddlePaddle Serving 可灵活适配多种预测引擎;PaddlePaddle Mobile 集成百度移动端预测的实践经验,提供多平台支持。

PaddlePaddle3.0 中,AutoDL 备受关注。百度大数据(北京)实验室主任浣军介绍,AutoDL 能更高效自动搜索神经网络结构,开发者无需特殊硬件设备可以快速得到高质量模型。AutoDL 提供多种能力,支持设计全新深度学习网络结构,以及优化现有深度学习网络结构及参数,同时能够适配特定任务场景。

海量数据爆发式增长,发掘数据价值成为众多行业的普遍需求。百度大数据部总监郭谢表示,百度已形成从数据到数据工程、数据科学、数据产品再到行业方案的大数据产品技术栈,基于大数据特性,从生产资料和生产工具两方面促进产业发展。为了最大程度保证数据安全,百度正式发布大数据众智开放平台“点石”,基于全球领先的百度 AI 技术,全方位保障数据安全,并逐步开放工具能力,为行业数据安全赋能。

现场,百度启动了多项大赛。百度之星开发者大赛将如期回归,此外还有基于 PaddlePaddle 的中国高校计算机大赛人工智能创意赛、KG- 知识抽取赛、交通预测赛、无人车系列大赛,以及商家招牌的分类与检测、人工智能加速器应用与设计等大数据比赛。百度方面表示,欢迎各路高手挑战,通过大赛携手推动整个 AI 产业的发展。

业内人士评价,百度在推动技术落地的同时不断反哺技术升级,如今已成为国内人工智能领域的领航者。百度大脑升级至 3.0,也标志着百度 AI 技术的一次跨越式升级,正如王海峰在开场中所强调,“百度 AI 能力的核心是百度大脑,百度大脑 3.0 是百度 AI 能力的集大成者。”。基于百度大脑持续突破的技术实力,百度有能力把顶尖的 AI 技术提供给中国开发者、企业,更让每个开发者和企业都能平等获取顶尖 AI 能力,继而让 AI 在中国遍地开花。

2018-07-06 03:151820
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 279.3 次阅读, 收获喜欢 1301 次。

关注

评论

发布
暂无评论
发现更多内容

深圳云堡垒机厂商哪家好?很贵吗?咨询电话多少?

行云管家

云计算 网络安全 堡垒机 云堡垒机

APP常用跨端技术栈深入分析

京东科技开发者

flutter H5 Weex ReactNative

什么是真正的 HTAP ?(二)挑战篇

StoneDB

MySQL OLAP OLTP HTAP StoneDB

一文理解分布式开发中的服务治理

博文视点Broadview

[ Kitex 源码解读 ] 服务注册

baiyutang

Go 微服务架构 kitex CloudWeGo

【字体反爬】目标站点5Lq65Lq66L2m(Base64加密),Python反爬系列再次更新

梦想橡皮擦

Python 爬虫 7月月更

零基础学习前端技术方法推荐

小谷哥

零基础学习大数据开发技术

小谷哥

MRS +Apache Zeppelin,让数据分析更便捷

华为云开发者联盟

大数据 开源 后端

Java Idea插件Easy Code

孙永潮

idea插件

2022可信云权威评估公布:天翼云获十项认证、五项最佳实践

Geek_2d6073

iOS中@class和#import

NewBoy

ios 前端 移动端 iOS 知识体系 7月月更

App自动化测试是怎么实现H5测试的

和牛

测试

如何用低成本方案解决室内超大场景下机器人定位与导航难题?

优必选科技

机器人 定位 导航

TiDB 在长银五八消费金融核心系统适配经验分享

TiDB 社区干货传送门

安装 & 部署 OLAP 场景实践

万物根生,共创新时代:华为亮相第五届数字中国建设峰会

Geek_2d6073

涅槃重生!字节大牛力荐大型分布式手册,凤凰架构让你浴火成神

冉然学Java

Java 华为 开源 网络协议 #Github

参与开源社区还有证书拿?

胡说云原生

开源 证书

单点登录的三种方式

Authing

云原生 SaaS SSO 单点登录 Authing

腾讯5G创新中心成立,布局无人港口、智慧矿山、电竞赛事等重点方向

科技热闻

RocketMQ系列二:RocketMQ监控/告警一站式搭建应用

hum建应用专家

数据库 RocketMQ

TiDB之rawkv升级之路v5.0.4-->v6.1.0

TiDB 社区干货传送门

迁移 版本升级 集群管理

数字电路基础篇

贾献华

7月月更

极狐(GitLab)与原森科技达成战略合作,共筑FinDevOps业财融合解决方案

科技热闻

资源池以及资源池化是什么意思?

行云管家

资源池 IT运维 资源池化

NFT是什么?如何开发NFT系统?

开源直播系统源码

数字藏品软件开发 数字藏品系统软件开发 数字藏品交易平台开发

性能大规模专项评测双通过,数牍Tusita步入隐私大数据计算时代

Jessica@数牍

隐私计算性能 数牍科技 可信隐私计算评测

国内首台商用人形双足机器人发展史

优必选科技

机器人

LED显示屏和液晶透明拼接屏有什么区别?

Dylan

LED显示屏 led显示屏厂家

暗黑王者|ZEGO 低照度图像增强技术解析

ZEGO即构

低照度图像增强技术

研发需求拆分的全流程详解 | 敏捷实践

LigaAI

开发者 研发管理 需求管理 需求分析 LigaAI

百度AI开发者大会百度大脑论坛:详解“多模态深度语义理解”_百度_陈思_InfoQ精选文章