2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

腾讯云智能语音行业落地探索与实践

  • 2020-02-15
  • 本文字数:2521 字

    阅读完需:约 8 分钟

腾讯云智能语音行业落地探索与实践

本文梳理了智能语音技术发展路线,行业现状以及其面临的挑战等相关情况,并详细阐述了语音技术的常见落地场景以及相应的一些优化。同时,分享了腾讯云智能语音落地案例,为语音技术的实践使用提供借鉴,来共同推动语音技术的交流和发展。

一、语音识别基础原理(ASR)


图 1 语音识别基础原理示意图


语音识别技术原理如图 1 所示:首先需要利用相关技术对声音进行特征提取并建立声学模型,然后结合词典,语言模型等方法,在一定的搜索空间内进行搜索和解码最终得到结果。

1.1 业界语音识别水平及面临的挑战

现有业界的语音识别技术在理想条件下普遍能达到 97%,这个理想条件包含背景安静,近场,普通话标准,朗读等条件。但是现实中往往会面临对识别器的效果产生恶化影响的情况,如,发音人的口语化严重,轻度口音,在这种程度较轻的情况下,业界依然能够保持 85%-90%的识别正确率。


进一步,如果语音背景嘈杂,发音人远离拾音器或者存在严重的口音叠加,这种情况下,识别率会有明显的下降。


总结语音识别面临的挑战,如下列所示:


  • 噪声影响:例如车载环境下会有回声以及各种噪声源。

  • 远场识别:麦克风和声源距离过远时收音识别效果较差。

  • 专业领域识别:导航、办公、旅游、美食等不同场景有语言模型。

  • 方言口音:全球有上千种语言,中国的方言种类也非常多。

  • 口语化:不同情绪下语速、声调不同,吞字、结巴会造成音频质量参差不齐。

  • 高质量收音:在多人、声音嘈杂的场景下,如何“听清楚”。

二、语音合成(TTS)

语音合成在早些时候并不热门,但是随着技术的成熟和依赖高质量沟通体验的人机沟通的发展又逐渐热门起来。另外,现在业内很多推销及客服电话已经实现机器人打电话的过程甚至沟通能力,在这种情况下需要高质量的语音合成技术来有效降低用户直接挂断电话的概率。


语音合成可以简单理解为,将文字转化为拟人化的声音,满足多种场景对不同声音的需求,完成人机语音交互的闭环的过程。


当前业内最热门的技术是 Google 主导开发的 WaveNet 引擎,其对应 MOS 值达到了 4.5+,而真人录音的 MOS 值在 4.4+左右,几乎可以以假乱真。

2.1 语音合成面临的挑战

同语音识别一样,语音合成也面临很多的挑战。声音也要具备多适应的特点,在不同的场景需要不同的声音以及用户提出的语音定制化的要求,这些需求对语音合成技术提出下列所示的挑战:


  • 语音定制化:声音也是品牌的代表,追求品牌的公司不愿意共享声音

  • 录音时长:合成要求一定量的高质量录音,会带来录音时间及其它成本

  • 声音的适应性:有的声音适合读物朗读,有的声音适合做语音助手

  • 多音字,特殊读法

  • 拟真度:发音准确性,流畅度,抑扬顿挫等一系列因素决定合成效果与真人差距

  • 主观性:对声音好坏的判断有一定个人主观性,难有客观的标准

三、典型落地场景下语音技术的优化

3.1 语音输入法

语音输入法最早是内嵌到手机中的,通常是手机厂商像 Google,苹果,三星等这些公司主导在做,后续才逐渐出现在输入法软件,如讯飞,百度,搜狗等。


用户在实用场景或者 APP 中,通用语音输入法一方面由于需要切换才能进行相关操作,缺乏灵活性,另外一方面无法根据场景或者 APP 进行定制化,如场景热词的定制。因此,现有语音输入法的发展趋势为从输入法软件向 APP 内部迁移,如王者荣耀中的语音输入文字交互的场景。

3.2 录音转写(人与人交互)

录音转写主要是用于服务质量,甚至责任的判定,如话务员日常跟客户交流的话术是否符合标准。它能够有效解决:人工抽检速度慢,覆盖率低;标准不一,无法避免个人主观性影响;成本高,需要大量人力,且需要定期培训、抽查等等难题。


不同于语音输入法场景,是人与机器沟通,人会下意识“迁就”机器而刻意放慢语速,而录音转写面对的是人与人的沟通,会面临交互口语化程度高,背景噪声不可控等问题,因此大大提升了录音转写的难度。实践证明,能有效提高录音转写准确率的方法如下:


1)选择正确的引擎参数。如:采样率:8K or 16K,单声道 or 双声道。


2)尽可能提升录音质量,降低背景噪音,减少无关声音的输入,使说话人不要远离麦克风,不要采用大压缩比的音频格式。


3)定制化提升,语料训练,热词。

3.3 客服机器人

经过大量探索和实践证明语音最大落地场景就是机器人。例如,客服场景,它面临的 80%以上的问题都是重复的,因此机器人的使用能够大大的减轻客服人员的压力。而语音机器人结合语音识别,语音合成等等技术,实现多渠道的覆盖,为用户提供更好的体验。可以说基于人工智能的客服系统逐渐变为企业的竞争力。


语音技术的发展也为新时代数字化服务提出了更高的要求,如:更好的人机交互体验,更丰富的智能化功能,更多样的人机交互渠道。简而言之,语音是人类最自然的沟通方式,语音技术与机器人能力的结合会带来全新的服务体验。

四、腾讯云智能语音落地案例分享

腾讯云在智能语音方面已经有一些成功的落地方案,包括跟金融行业,故宫,亚朵酒店等的一些合作。


对于金融级任务机器人,主要完成一些基础转账操作,用户通过语音进行人机交互,其中包含银行卡的选择,转账金额的确认,最终转账等功能,是在金融行业语音交互上的进一步探索。


在跟故宫的联合合作中,主要是对故宫展品的介绍进行语音合成。用户可以通过扫描相应的二维码来获取语音的展示,这些合成的语音质量非常高,拟人化强。


在此同时,跟亚朵酒店的合作中,利用“小微”智能音箱打造智慧酒店的行业智能解决方案。在酒店中,接入相关设备,他可以听得懂、看得见。这是一个专门适合懒人的黑科技,只需要张开嘴轻声呼唤"HI,小微",然后通过语音交互令窗帘、音箱、灯光、空调都在掌握之中。除此之外,它还可以查询天气、交通路线、新闻资讯、查询机票等。该方案已经在北京,深圳等城市落地和使用。


另外语音技术也可以应用在其他的场景中。例如在视频中,实现音频判断是否违规的鉴别能力;在记录方面,可以应用在法庭记录等场景,节省大量的人工的工作;也可以应用在翻译和同传方面。


作者介绍


倪捷,腾讯云高级产品经理。北京邮电大学硕士。现在腾讯云大数据与人工智能产品中心 AI 应用产品组担任高级产品经理,负责智能语音相关 AI 产品,拥有互联网、金融等行业人工智能落地的丰富经验。


本文转载自公众号携程技术(ID:ctriptech)。


原文链接


https://mp.weixin.qq.com/s/tNimughQ0mwKSgbFvwXSlw


2020-02-15 17:291714

评论

发布
暂无评论
发现更多内容

一文总结GaussDB通信原理知识

华为云开发者联盟

数据库 通信 框架 GaussDB 计算

对话京东科技算法科学家吴友政:回望2020,NLP技术发展速度强劲

京东科技开发者

人工智能 自然语言处理

缓存设计的好,服务基本不会倒

万俊峰Kevin

缓存 微服务 microservice Go 语言

MyBatis专栏 - 一级缓存

小马哥

Java mybatis 七日更 2月春节不断更

2 期架构师训练营 - 大作业(一)

云飞扬

架构师训练营第2期

VoltDB让Kafka支持复杂数据流驱动的实时业务决策

VoltDB

数据库 kafka 分布式系统 VoltDB

Ebean ORM框架介绍-1.增强注解

Barry的异想世界

Spring Boot jpa ORM Ebean

从云数据迁移服务看MySQL大表抽取模式

华为云开发者联盟

MySQL JVM JDBC 数据迁移

机器学习笔记之:

Nydia

week11-homework

J

逼疯UE设计师,不可不知的提升产品用户体验的10个测试方法

华为云开发者联盟

产品 测试 UI 用户体验

产品训练营第四章作业(一)

Arnold

前端必学必会-多媒体-本地存储-浏览器与服务器的交互-通信功能

我是哪吒

学习 程序员 面试 大前端 2月春节不断更

上古神器 sed 教程详解,小白也能看得懂

鞋子特大号

Linux sed

中国移动工程师浅析:KubeEdge在国家工业互联网大数据中心的架构设计与应用

华为云开发者联盟

大数据 数据采集 工业智能体 边缘数据中心管理 EDCM

Kubernetes 原生 CI/CD 构建框架 Tekton 详解

字节跳动 Kubernetes 云原生 Tekton CI/CD

Arthas 使用的各类方式

阿里巴巴云原生

Java 微服务 云原生 中间件 Arthas

架构师训练营-架构大作业(一)

花果山

架构师训练营第2期

Android 完全符合规则但很头疼的Json映射成一个树结构且可折叠的列表?

第三女神程忆难

Java android kotlin 安卓

大作业二-请用思维导图画出架构师训练营所有技术知识点

未来已来

Serverless 场景下 Pod 创建效率优化

阿里巴巴云原生

Docker Serverless 容器 云原生 k8s

并发编程系列:并发编程基础

程序员架构进阶

架构 JVM 七日更 28天写作 2月春节不断更

Spring Boot 微服务性能下降九成!使用 Arthas 定位根因

阿里巴巴云原生

Java 微服务 云原生 中间件 Arthas

几幅图拿下 ARP 协议

飞天小牛肉

Java 程序员 计算机网络 网络协议 2月春节不断更

架构师训练营第2期大作业(二)

月下独酌

架构师训练营第2期

架构师训练营第2期 大作业 (一)

月下独酌

架构师训练营第2期

week11-conclusion

J

2. 无门槛学会数据类型与输入、输出函数,滚雪球学 Python

梦想橡皮擦

Python python 爬虫 2月春节不断更 python入门

从0到1实现一个简单计算器

codevald

Java 项目 计算器 动手实践

Elasticsearch 分页搜索以及 deep paging 性能问题

escray

elastic 七日更 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

最好的IDEA debug长文?看完我佛了

YourBatman

eclipse debug IntelliJ IDEA 远程调试

腾讯云智能语音行业落地探索与实践_技术管理_倪捷_InfoQ精选文章