限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

谷歌通过定制的深度学习模型升级了其语音转文字的服务

  • 2018-05-22
  • 本文字数:1510 字

    阅读完需:约 5 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

一个月前,谷歌宣布在源于 Magenta 项目的文字转语音(Text-to-Speech,简称TTS)技术上取得代际突破,接着该公司又对其语音转文字(Speech-to-Text,简称STT)API 云服务进行了重大升级。更新后的服务利用语音转录的深度学习模型,根据特定用例量身定制:短语音命令、打电话或视频,在所有其他上下文中都有一个默认模型。如今,升级后的服务可以处理120 种语言以及不同模型可用性和功能级别的变体。商业应用范围包括电话会议、呼叫中心和视频转录。转录的准确性在有多个扬声器和明显背景噪音的情形下有了改进提高。

另外两个因素构成了本次升级。标准服务水平协议(the standard service level agreement,简称SLA)现在承诺有99.9% 的可用性。该服务含有一种新机制来标记转录工作并向谷歌团队提供反馈。

专用模型是根据音频媒体的特点来采样,从而产生带宽 %E5%92%8C%E4%BF%A1%E5%8F%B7%E6%8C%81%E7%BB%AD%E6%97%B6%E9%97%B4%E3%80%82%E7%94%B5%E8%AF%9D%E9%9F%B3%E9%A2%91%E7%9A%84%E9%87%87%E6%A0%B7%E9%A2%91%E7%8E%87%E6%98%AF8Khz%EF%BC%8C%E5%9B%A0%E6%AD%A4%E9%9F%B3%E9%A2%91%E8%B4%A8%E9%87%8F%E8%BE%83%E4%BD%8E%EF%BC%8C%E8%80%8C%E6%9D%A5%E8%87%AA%E8%A7%86%E9%A2%91%E7%9A%84%E9%9F%B3%E9%A2%91%EF%BC%8C%E9%87%87%E6%A0%B7%E9%A2%91%E7%8E%87%E9%80%9A%E5%B8%B8%E6%98%AF16Khz%E3%80%82%E5%9B%A0%E6%AD%A4%EF%BC%8C%E9%9C%80%E8%A6%81%E9%92%88%E5%AF%B9%E6%AF%8F%E7%A7%8D%E5%AA%92%E4%BD%93%E7%B1%BB%E5%9E%8B%E8%BF%9B%E8%A1%8C%E4%BC%98%E5%8C%96%E7%9A%84%E6%A8%A1%E5%9E%8B%E3%80%82">https://en.wikipedia.org/wiki/Bandwidth_(signal_processing) 和信号持续时间。电话音频的采样频率是 8Khz,因此音频质量较低,而来自视频的音频,采样频率通常是 16Khz。因此,需要针对每种媒体类型进行优化的模型。

众包真实世界音频样本是谷歌改进其模型战略的核心,随着所谓数据记录的可选程序的发布,用户可以选择跟谷歌共享他们的音频,以帮助改进模型。数据记录的启用让用户可以访问具有更好性能的增强模型。谷歌宣布, 与标准电话模型相比,词汇错误减少了54%,而对于增强视频模型,错误减少了64%。

最佳实践而言,谷歌建议使用无损耗编码器(如 FLAC )压缩后的音频数据,采样频率为 16Khz,避免任何音频预处理,比如降噪或自动增益控制。

词汇错误减少不是提升语音转文字整体质量的唯一因素。标点符号的预测仍然是语言转录面临的重要挑战。谷歌的语音转文字API 现在能够给转录后的文本添加标点符号,进一步提高了转自长音频序列的文本的可读性。这种自动添加标点符号的功能是利用了 LSTM 神经网络模型。

正如最近来自谷歌研究(Google Research)关于语音合成和语音识别的研究成果显示,用于语音转文字的深度学习经常是基于序列到序列(sequence-to-sequence,也可简写为Seq2seq)的神经网络模型,这些模型也可以应用于机器翻译和文本摘要。简而言之, Seq2seq 模型使用第一个 LSTM 对音频输入进行编码,第二个 LSTM 以输入序列为条件,对数据进行解码,并把数据转换成转录文本。

其他现有的语音转文字服务包括支持29 种语言微软语音识别 API、支持 7 种语言的 IBM Watson API ,以及 2017 年 11 月发布亚马逊Transcribe ,到目前为止,其只支持美式英语和西班牙语。来自佛罗里达技术学院(the Florida Institute of Technology)对其中这些服务的比较显示,谷歌服务API 的错误率较低。另一组比较测试强调了语音转录服务延迟的重要性。

阅读英文原文: Google Upgrades Its Speech-to-Text Service with Tailored Deep-Learning Models

2018-05-22 19:001707
用户头像

发布了 199 篇内容, 共 90.3 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

第二周作业

小兵

直播带货需要运营者实名验证:规范行业有利于健康发展

石头IT视角

LeetCode题解:78. 子集,递归+for循环+回溯,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

手撕面试题:多个线程顺序执行问题

大头星

Java 面试 多线程

用上ConcurrentHashMap,就没有并发问题了?

海拉鲁

Java 并发

【得物技术】一文读懂Vue生命周期

得物技术

Vue 生命周期 得物技术部 得物 钩子函数

Javassist实现JDK动态代理

AI乔治

Java 编程 架构 jdk

Week 6 命题作业

阿泰

JVM 源码解读之 CMS GC 触发条件

AI乔治

Java 架构 JVM GC

对抗验证概述

计算机与AI

学习 数据验证

从实际案例聊聊Java应用的GC优化

AI乔治

Java 编程 架构 JVM GC

GitHub上最励志的计算机自学教程(重制版),前端小白到亚马逊工程师

沉默王二

GitHub 学习 程序员 面试

京东推荐系统中的兴趣拓展如何驱动业务持续增长?

京东科技开发者

算法 推荐系统 知识图谱

蚂蚁金服首发887页Java面试宝典!还原真实面试情景+面试题

Java架构追梦

Java 编程 架构 面试 蚂蚁金服

叼!阿里Mysql三位封神专家总结800页性能优化的千金良方

996小迁

Java MySQL 编程 架构 面试

数字货币交易所系统开发技术

薇電13242772558

区块链 数字货币

JavaScript 对象 — 重学 JavaScript

三钻

Java 大前端 对象

第二周总结

小兵

架构师训练营 -week06-作业

大刘

极客大学架构师训练营

K近邻算法:机器学习萌新必学算法

华为云开发者联盟

学习 算法

TronChain波场链合约系统开发技术

薇電13242772558

区块链 智能合约

英特尔第十一代处理器 (代号Rocket Lake-S) 架构详情

E科讯

Redis可以做哪些事?

Java旅途

redis

Java-技术专题-volatile关键字

码界西柚

Java-技术专题-Object克隆方法解析

码界西柚

创新方案百花齐放,英特尔助力2020 EdgeX中国挑战赛推动智能边缘行业创新及人才发展

E科讯

使用 Maven Archetype 基于 IDEA 快速创建项目

程序员小航

Java maven 开发 项目 Archetype

架构师训练营第六周作业

Shunyi

极客大学架构师训练营

Java-技术专题-LocalDate和LocalTime和LocalDateTime

码界西柚

程序员什么时候就该辞职了?

Java架构师迁哥

接口工具使用对比(apipost、jmeter、postman、swagger等)

测试人生路

Jmeter Postman 接口测试

谷歌通过定制的深度学习模型升级了其语音转文字的服务_Google_Alexis Perrier_InfoQ精选文章