红帽白皮书新鲜出炉!点击获取,让你的云战略更胜一筹! 了解详情
写点什么

语音技术在小米的实践应用之路

  • 2019-09-19
  • 本文字数:789 字

    阅读完需:约 3 分钟

语音技术在小米的实践应用之路

AICon北京2018大会上,王育军讲师做了《语音技术在小米的实践应用之路》主题演讲,主要内容如下。


演讲简介


语音技术,包括语音识别与合成等,经历了几十年的发展,恰逢人工智能时代的来临,对其应用场景做了重新定义。但是我们面临的问题从来没有变过:数据失配和模型假设。在本次演讲中,我将分享在小米,我们如何解决失配的问题,如何自动标注数据,以及我们如何在小米特有用户场景下进行产品和算法创新。我们在语音合成中也做了创新的尝试,利用语音识别辅助,端对端的技术取代传统文本处理,节省了繁杂的标注工作。


演讲提纲:


  1. 小米语音是如何成长的?

  2. 电视->手机->音箱->儿童->车载->笔记本

  3. 语音技术中的自然语言应用

  4. 语音识别中采用了深度学习语言模型后,识别率绝对增长超过 1%。尺寸小可做嵌入式使用。在语音合成中的文本分析,我们基于端到端网络结构,业内首次提出将端到端网络应用于合成前端,通过一个编解码网络,完成传统复杂前端中的多个模块的功能。通过多目标联合地并行训练,取得了媲美传统前端的性能。

  5. 永远要突破算法的天花板

  6. 为什么语音算法可以在小米有所突破,发表顶级国际会议论文?不做空中楼阁。有实际产品需求,有用户场景,有强大的内测用户。

  7. 语音应用的挑战

  8. 小米过去 20 个月做语音的经验


听众收益:


  1. 语音技术在智能家居环境中如何发挥作用

  2. 了解如何快速将语音算法落地到产品


讲师介绍


王育军


小米 语音技术负责人


2000 年毕业于清华大学自动化系,随后赴英国伯明翰大学电子系学习人机交互。2002 至 2004 年就职于 NEC 电子,从事嵌入式语音识别与语音合成。随后加入中软国际从事声学模型训练技术。2007 年到 2012 年在比利时鲁汶大学电子系从事抗噪语音识别。回国后加入百度语音技术部。2015 年就职于乐视,负责语音识别与自然语言理解技术。2017 年加入小米,负责语音识别与语音合成技术。












完整演讲 PPT 下载链接


https://aicon.infoq.cn/2018/beijing/#schedule


2019-09-19 14:171020

评论

发布
暂无评论
发现更多内容

从金融到物联网 区块链的落地应用将如何改变世界?

CECBC

区块链

国人开源的运维监控系统——WGCLOUD

王逅逅

开源 运维 Grafana Prometheus zabbix

2021 技术展望 | 2021,5G 将会倒逼传输协议、算法做出更多改进

声网

5G RTC 2021年展望 RTE 2021技术

2021 技术展望 | AV1 在 RTC 应用实践中的现状与展望

声网

RTC 2021年展望 RTE 2021技术

构建基于Spring Cloud向Service Mesh框架迁移的解决方案及思路

xcbeyond

架构 云原生 Service Mesh 解决方案 引航计划

关于Go语言,你不得不知的并发模式!

博文视点Broadview

想快速重构智慧园区5A系统,这份方案推荐给你

华为云开发者联盟

系统 智慧园区 HDC.Cloud 2021 端边云协同架构 南向系统

2021 技术展望 | 弱网下的极限实时视频通信

声网

RTC 2021年展望 RTE 2021技术

2021 技术展望 | 实时互动场景下,音频的技术变迁与机遇

声网

音视频 RTC 2021年展望 RTE 2021技术

如何只用一个小时定制一个行业AI 模型?

华为云开发者联盟

自然语言处理 AI 华为云 hdc ModelArts Pro

科技“智”造:智慧工厂这样规划,既高效又节能

一只数据鲸鱼

数据可视化 工业物联网 智慧园区 智慧工厂

EGG NETWORK公链阿凡提以“完全开放式自治”的唯一标准搭建New-DeFi链上生态EFTalk

币圈那点事

“区块链+”司法合约,电子认证不造假

电微13828808271

区块链+

爱好历史的程序员,不容错过!

不脱发的程序猿

程序员 程序人生 4月日更 全历史

2021 技术展望 | 走向未来的实时生成技术

声网

RTC 2021年展望 RTE 2021技术

世界五百强第一的沃尔玛在用区块链做什么

CECBC

区块链

文字识别:关键信息提取的3种探索方法

华为云开发者联盟

深度学习 文字识别 图结构 关键信息提取 栅格

SumSwap与金色财经共为 首席创新合作大会在上海拉开帷幕

币圈资讯

“区块链新基建”可否发展可信平台?

电微13828808271

区块链+ 区块链新基建

事务隔离级别实战学习

U2647

事务隔离级别 事务 4月日更

释放千行百业数据价值,华为云DAYU有一套

华为云开发者联盟

大数据 数据湖 华为云 数据价值 dayu

Linux scp 命令

一个大红包

4月日更

在多人音视频聊天中插入现场直播

anyRTC开发者

android 大前端 音视频 WebRTC RTC

云智一体 AI开发模式打造电力行业的智慧化范本

百度大脑

云计算 智能云

集客业务支撑领域标准化产品套件“火麒麟”的配置化能力提升之路

鲸品堂

产品 解决方案 运营商

2021技术展望|开源十年,WebRTC 的现状与未来

声网

开源 WebRTC 2021年展望 RTE 2021技术

区块链BaaS服务平台开发,助推中小企业快速落地

13828808769

区块链+ #区块链#

「开源免费」基于Vue和Quasar的前端SPA项目crudapi后台管理系统实战之序列号自定义组件(四)

crudapi

Vue crud crudapi 序列号 quasar

构建从目标到研发过程的全生命周期管理体验

PingCode

敏捷开发 研发管理 Jira Atlassian 敏捷开发管理 研发工具

如何实现屏幕共享时的多人实时标注?

拍乐云Pano

windows Electron RTC

Python OpenCV 图片模糊操作 blur 与 medianBlur

梦想橡皮擦

Python OpenCV 4月日更

语音技术在小米的实践应用之路_AICon_王育军_InfoQ精选文章