阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

小米语音技术负责人王育军:小米智能语音技术从 0 到 1 的实践之路

  • 2020-03-25
  • 本文字数:4118 字

    阅读完需:约 14 分钟

小米语音技术负责人王育军:小米智能语音技术从0到1的实践之路

近年来,智能语音发展势如破竹,各大厂纷纷推出智能语音助手试图在市场上抢占一席之地,但此过程中也难免出现产品同质化严重、缺乏创新的问题,InfoQ 希望借 AICon 大会的前采来了解小米智能语音技术的实践过程和应用难点。

从乐视到小米,一直在从事语音技术

2017 年以前,在各大媒体报道中很少提及小米语音技术,当时小米还没有自己的语音技术团队。因为业界有很多成功的语音技术合作伙伴,所以小米认为与他们的合作是理性的、性价比也很高。但其实小米早已经有了自己的云、大数据和 AI 平台,业务数据的集中化管理也做得可圈可点。


正是在这样的背景下,2017 年王育军加入了小米人工智能部门,在人工智能实验室语音组负责小米的语音识别、语音唤醒、声纹识别和语音合成方面的研发工作。在入职小米之前,王育军曾就职于乐视,负责为乐视电视和手机提供远近场语音识别、语音唤醒声纹识别和语义解析等技术。对开发者来说,研发的延续性尤为重要,由于之前一直从事语音技术工作,而当时小米也有电视业务,因此对他来说加入小米在技术上算得上是无缝“平移”。


小米在智能语音上的应用实践

从 0 到 1:解决生存问题

小米的技术研发主要服务于产品,因此技术积累也紧跟产品发展趋势。在小米语音技术的发展初期,团队首先要考虑自身生存问题,所以必须尽快实现从 0 到 1 的突破。


小米的设备生态囊括了手机、电视、音箱、手表、耳机等,由于当时需要尽快完成从 0 到 1 的技术突破,所以团队选择了可以热启动的、有经验的项目,比如小米电视。据王育军称,他入职第一个月,就看到了小米语音生态的优势。随后语音组用 4 个月时间开发了小米第一个语音识别系统,上线到小米电视,因为小米电视的用户、产品形态已经非常成熟了。当初团队还只有 4 个人。他们将这段经历戏称为“444 岁月”,意思是 4 个人,经过 40 多次试验,历时 4 个月,不但上线了语音识别系统,还发表了自己基于端对端语音识别的论文。


据王育军介绍,在发展初期,小米训练语音技术使用的数据都是真实业务数据,而应用到的语音识别工具是 Kaldi。之所以选择 Kaldi,是因为小米语音团队刚开始只有两名正式员工和两名实习生。要重新搭识别器,训练模型都不现实。Kaldi 是大家公共的技术语言,这样无论是开发还是招聘,上手成本都很低,并且直接遏制了打着“崇尚螺丝钉文化”旗号搞“技术自留地”的想法。

落地进入正轨,开始规划新技术

随着语音识别技术落地逐渐步入正轨,小米开始规划语音唤醒、声纹和语音合成技术。


经过几年的发展,小米语音团队从仅有 4 个人的“游击战”转入了正规军“阵地战”。步入正轨后就不能只选择热项目了,必须把没有数据、产品形态未知的冷项目也做好。这些冷项目“上线”后,小米面临着产品成本和性能的双重挑战。以小爱为例,小爱的用户量一直在猛增,计算成本需要优化,每天各个渠道都会反馈 Badcase 。所以团队要广揽人才,同时思考如何把这些事情尽量地系统化解决。模型需要自动更新,在线计算资源、优化算法和本地化要均衡发展。

繁华落尽,恰逢人员流失

在 2018 年到 2019 年期间,kaldi 模型存在迭代机制不灵活、声学语言不方便解耦的问题。算法离线化时,内存冗余。当创业般的激情被繁琐的工程细节和看似千篇一律的模型迭代消磨殆尽后,正逢所有团队都必须面临的“两年之痒。人员流失导致团队无法再去逆行开发去解决过去遗留的问题,有限的人力不得不投入到新技术预研上。这是每个语音团队必经之路,并非是小米语音团队特有。从事语音技术的人都清楚,从 0 到 1 容易,但是从 1 到 1.1 就要付出比 0 到 1 多很多倍的人力和财力。


目前,小米的语音技术用已经应用在了小米手机、音箱、电视和其他 40 多品类的小米生态链设备中的语音识别、语音合成、语音唤醒和声纹识别功能上。


在谈到未来小米智能语音技术的发展规划时,王育军表示:


从产品角度讲,未来的规划是围绕用户极致体验对产品进行深度打磨,不停打磨算法效果,优化多语种的语音识别和语音合成,提高语音识别率和语音合成的友好度,提升语音唤醒率,降低误唤醒率,让声纹技术广泛地嵌入到其他语音技术中,让用户使用声纹功能时能少注册甚至不注册,唤醒设备时可以做到少唤醒甚至是不唤醒直接交互。


从技术角度看,所有语音的技术都会进入小红利期。我们希望看到的局面是语音识别只需要一个模型就可以直接处理多通道语音信号,语言和声学模型不再异构,推理过程变得越来越简单有效。我们也希望看到语音合成可以由精雕细琢,变成规模化生产任何声音。这些都是端到端技术要解决的问题。在今天全民端到端的时代,交互领域内的人工智能技术同质化越来越重,语音技术中前后左右的融合技术模块,包括语音技术自己的上游会逐渐交融。在短期内,语音技术和 NLP 可能会你中有我我中有你。搞清楚自己发展方向之前,首先需要开放地拥抱这些技术边界的模糊化。


语言识别、语音合成的技术发展脉络

智能语音技术是最早落地的人工智能技术,也是在 AI 产品中应用最为广泛的一项技术。自从深度学习引入到智能语音领域后,这项技术才真正地从不温不火变为炙手可热。深度学习的引入使语音识别文字的准确率从 70%多,提升到了近 90%。这些改变很大程度上得益于算法的改进以及模型的迭代。


在算法方面,语音识别技术主要经历了隐含马尔科夫模型的引进,统计模型的应用,基于模板的技术复兴尝试以及深度学习。深度学习之后的一些演变,都是应用场景的变迁推动的,近场->远场->多通道语音识别,在王育军看来,这不完全属于算法演变。在模型方面,当下业界倾向于端到端语音识别模型,王育军则认为这种模型与传统识别模型只是形式上有所不同,但初衷相同,他表示:


大家理解的端到端是把多个小的并联或者串联的算法模块用一个算法模块(比如一个神经网络)代替,端到端的初衷一是为了弥补传统算法模块中一些为了简化问题提出的不实假设,二是防止不同模块的假设和优化目标不同,带来的错误传播。传统模型其实也一直在致力于解决这两个问题,无论是模型层面还是数据层面。


在端到端之前,我们为了达成一个语音任务,不得不分段标注,分段优化,粗暴地上下左右看待问题:在时间序列上左右看,分割感知和认知的不同层面。端对端技术很“优雅(cu bao)”地把这些问题“化解了”。


如今的深度学习技术正在从自然语言处理、图像、计算机方向不断地向语音技术渗透,技术迁移以天为单位。

语音合成面临的挑战

任何一项技术发展到一定阶段后都会迎来瓶颈期,语音技术也是如此。在语音合成方面,当前面临的问题是把合成从艺术做成规模化产品:过去语音合成是用一位声优,录出尽量多的专业录音数据,然后训练声学模型和声码器。目前研究者们需要时间来逐步论证数据采集、使用与标注的方法,使用户可以听见自己熟悉的声音。甚至可以弱化合成和语音编码,语音降噪的边界。

语音识别技术难点

语音识别的难点从来都没有变过,仍然是尽量使用户可以“自由场景自由说”。场景中面临的挑战是混响、竞争说话人、极低信噪比等。在说话方式上面临儿童发音不清楚、口音和方言多语言问题,这些挑战会长期存在。各方都在呼唤一套可以“兼容”自由场景自由说的产品方案,拉近技术边界和用户预期。当然从算法的逻辑上讲,无论是回归问题还是分类问题,都会面临“未见”的情况,这是永恒的难点。

解决跨设备“自由场景自由说”是当务之急

目前,语音技术也被应用在了很多不同的端上,比如智能家居场景中的很多终端,在王育军看来,语音技术是整个语音交互生态中的一环,要应用的智能家居中,语音生态的掌舵者,和其他环节要做的努力远比提升语音技术本身要多。具体到语音技术,我们面临的问题还是要解决跨设备“自由场景自由说”。举例来说,如果家居设备联动做得不好,会让用户唤醒小爱同学的时候一呼多应,让人欲言又止,无法自由说。再比如说声纹技术本来初衷是简化用户的语音操作,但随着声控设备的增加,每个设备都需要做声纹注册,增加了用户的使用成本。很多家居控制设备是家庭成员共享的,这些设备需要记住每个语音使用成员的偏好,上述提到的这些问题,小米的相关团队都在努力优化中。


近几年,业内讨论较多的一个话题是,语音识别面临的下一个突破要从技术上突破还是从应用场景上突破,对此王育军认为,技术突破和主宰性的应用场景总是交替出现。作为技术从业人员,他更希望利用技术去驱动应用。但近年来更多的时候是主宰性的应用场景复活了技术。比如说在 2007 年,很多语音界的人开始关注到了 GPU 在其他领域的应用,并把 GPU 迁移到声学模型训练中和推理中;2011 年,深度学习的成果已经在语音研究中逐渐形成,但直到 Siri 的出现才再次复活了手机语音助手;Google 开启了语音搜索和语音输入,人们才广泛地认可语音交互,算力也成为了炙手可热的资源。3G 和第一大波移动互联应用的才让研究者第一次把所谓的“铁三角”(场景,算力,数据)闭环。远场和端到端语音技术也是伴随着 4G 时代第二波移动互联的应用,才回到在人们视野中的。那个时代有人说智能等于一个设备可以触达的应用于服务。正是因为我们有了移动互联新贵的出现,才让手机和音箱更有“料”。


嘉宾介绍


王育军,小米语音技术负责人,2000 年毕业于清华大学自动化系,随后赴英国伯明翰大学电子系学习人机交互。2002 至 2004 年就职于 NEC 电子,从事嵌入式语音识别与语音合成。随后加入中软国际从事声学模型训练技术。2007 年到 2012 年在比利时鲁汶大学电子系从事抗噪语音识别。回国后加入百度语音技术部。2015 年就职于乐视,负责语音识别与自然语言理解技术。2017 年加入小米,负责语音技术。


AICon上海2020 本次也非常荣幸地请到了王育军老师担任“智能语音前沿技术”专场出品人,来自小米、搜狗、百度、快手等一线大厂的技术大牛将为你带来智能语音方面的最新实践经验分享以及趋势预测,想要和大牛面对面交流的同学不要错过机会!


除了智能语音,AICon 上海站还设置有智能金融、推荐广告技术及应用、AI 工程师团队建设与管理、认知智能、大数据计算和分析、NLP 等热门专场,邀请来自 BAT、微软、小米、华为、PayPal、快手等 50+ 一线 AI 技术大咖将带来更多精彩分享,目前大会 5 折报名限时最后一周!更多内容欢迎咨询小姐姐 Amy:18514549229(同微信),我们 8 月上海不见不散!点击官网了解更多~


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-03-25 10:358190

评论

发布
暂无评论
发现更多内容

一文读懂Kubernetes部署策略

高端章鱼哥

Kubernetes 部署

手把手入门 MO | 如何使用 DolphinScheduler 连接 MatrixOne

MatrixOrigin

分布式数据库 云原生数据库 MatrixOrigin MatrixOne 超融合数据库

AI原生应用开发“三板斧”亮相WAVE SUMMIT+2023

飞桨PaddlePaddle

飞桨 文心一言 文心大模型

CopyQueue for mac(管理文件传输工具) v3.1永久激活版

mac

苹果mac Windows软件 CopyQueue 管理文件传输工具

【第七在线】时尚鞋服企业商品运营如何实现智能化?

第七在线

引领功能型对话大模型的部署实践革新

百度开发者中心

人工智能 nlp ChatGPT

软件测试/测试开发丨软件测试基础概念 学习笔记

测试人

软件测试 测试开发

前后端开发的可视化编辑器

互联网工科生

软件开发 低代码 JNPF 前后端软件

MatrixOne 完成与飞腾处理器的兼容互认

MatrixOrigin

分布式数据库 云原生数据库 MatrixOrigin MatrixOne 超融合数据库

MO 2023 年度回顾

MatrixOrigin

分布式数据库 云原生数据库 MatrixOrigin MatrixOne 超融合数据库

聚道云软件连接器带给服装行业客户的业务革新

聚道云软件连接器

PHP服务器监控与维护:确保长期稳定运行的方法

一只扑棱蛾子

服务器 PHP服务器

知识图谱企业图谱怎么做

悦数图数据库

知识图谱

软件测试/测试开发丨从原理到实战,四天带你轻松进阶Python

测试人

软件测试

Allins 官网正式上线,铭文赛道进入 AMM 交易时代

大瞿科技

MatrixOne 1.1.0 Release

MatrixOrigin

分布式数据库 云原生数据库 MatrixOrigin MatrixOne 超融合数据库

利用虚拟线程重写自定义异步功能

FunTester

每日一题:LeetCode-695. 岛屿的最大面积

半亩房顶

Go 面试 算法 矩阵 LeetCode

解读 | Mint Blockchain 为何选择 OP Stack 作为 L2 技术方案?

NFT Research

blockchain NFT\ Layer 2

Meta推出大模型开源项目Llama 2

百度开发者中心

人工智能 大模型 LLM

我们一起聊聊MySQL 索引的底层逻辑

这我可不懂

MySQL 数据库

自有APP内怎么实现小程序连麦直播

Geek_2305a8

科兴未来|中国北京 · HICOOL 2024全球创业大赛招募启动

科兴未来News

智能连接,助力餐饮品牌实现商城订单自动同步

聚道云软件连接器

案例分享

自编码器AE全方位探析:构建、训练、推理与多平台部署

不在线第一只蜗牛

代码 模型优化 AE 自编码

通过智能钱包监控降低加密交易费用

Footprint Analytics

区块链 加密货币

Git将单个文件合并到指定分支教程。

百度搜索:蓝易云

git 云计算 Linux 运维 云服务器

Scrapy框架之Docker安装MongoDB教程。

百度搜索:蓝易云

mongodb Docker Linux Scrapy 云服务器

小程序如何实现视频通话及互动直播功能?

Geek_2305a8

手撕Vuex-vuex实现原理分析

快乐非自愿限量之名

架构 Vue

让数据同步纵享丝滑,ETLCloud安装指南

RestCloud

ETL

小米语音技术负责人王育军:小米智能语音技术从0到1的实践之路_AI&大模型_李冬梅_InfoQ精选文章