谷歌通过定制的深度学习模型升级了其语音转文字的服务_Google_Alexis Perrier

限时领｜《AI 百问百答》专栏课+实体书（包邮）！了解详情 



 写点什么

看新闻很累？看技术新闻更累？试试下载 InfoQ 手机客户端，每天上下班路上听新闻，有趣还有料！

一个月前，谷歌宣布在源于 Magenta 项目的文字转语音（Text-to-Speech，简称TTS）技术上取得代际突破，接着该公司又对其语音转文字（Speech-to-Text，简称STT）API 云服务进行了重大升级。更新后的服务利用语音转录的深度学习模型，根据特定用例量身定制：短语音命令、打电话或视频，在所有其他上下文中都有一个默认模型。如今，升级后的服务可以处理120 种语言以及不同模型可用性和功能级别的变体。商业应用范围包括电话会议、呼叫中心和视频转录。转录的准确性在有多个扬声器和明显背景噪音的情形下有了改进提高。

另外两个因素构成了本次升级。标准服务水平协议（the standard service level agreement，简称SLA）现在承诺有99.9% 的可用性。该服务含有一种新机制来标记转录工作并向谷歌团队提供反馈。

专用模型是根据音频媒体的特点来采样，从而产生带宽 %E5%92%8C%E4%BF%A1%E5%8F%B7%E6%8C%81%E7%BB%AD%E6%97%B6%E9%97%B4%E3%80%82%E7%94%B5%E8%AF%9D%E9%9F%B3%E9%A2%91%E7%9A%84%E9%87%87%E6%A0%B7%E9%A2%91%E7%8E%87%E6%98%AF8Khz%EF%BC%8C%E5%9B%A0%E6%AD%A4%E9%9F%B3%E9%A2%91%E8%B4%A8%E9%87%8F%E8%BE%83%E4%BD%8E%EF%BC%8C%E8%80%8C%E6%9D%A5%E8%87%AA%E8%A7%86%E9%A2%91%E7%9A%84%E9%9F%B3%E9%A2%91%EF%BC%8C%E9%87%87%E6%A0%B7%E9%A2%91%E7%8E%87%E9%80%9A%E5%B8%B8%E6%98%AF16Khz%E3%80%82%E5%9B%A0%E6%AD%A4%EF%BC%8C%E9%9C%80%E8%A6%81%E9%92%88%E5%AF%B9%E6%AF%8F%E7%A7%8D%E5%AA%92%E4%BD%93%E7%B1%BB%E5%9E%8B%E8%BF%9B%E8%A1%8C%E4%BC%98%E5%8C%96%E7%9A%84%E6%A8%A1%E5%9E%8B%E3%80%82">https://en.wikipedia.org/wiki/Bandwidth_(signal_processing) 和信号持续时间。电话音频的采样频率是 8Khz，因此音频质量较低，而来自视频的音频，采样频率通常是 16Khz。因此，需要针对每种媒体类型进行优化的模型。

众包真实世界音频样本是谷歌改进其模型战略的核心，随着所谓数据记录的可选程序的发布，用户可以选择跟谷歌共享他们的音频，以帮助改进模型。数据记录的启用让用户可以访问具有更好性能的增强模型。谷歌宣布，与标准电话模型相比，词汇错误减少了54%，而对于增强视频模型，错误减少了64%。

就最佳实践而言，谷歌建议使用无损耗编码器（如 FLAC ）压缩后的音频数据，采样频率为 16Khz，避免任何音频预处理，比如降噪或自动增益控制。

词汇错误减少不是提升语音转文字整体质量的唯一因素。标点符号的预测仍然是语言转录面临的重要挑战。谷歌的语音转文字API 现在能够给转录后的文本添加标点符号，进一步提高了转自长音频序列的文本的可读性。这种自动添加标点符号的功能是利用了 LSTM 神经网络模型。

正如最近来自谷歌研究（Google Research）关于语音合成和语音识别的研究成果显示，用于语音转文字的深度学习经常是基于序列到序列（sequence-to-sequence，也可简写为Seq2seq）的神经网络模型，这些模型也可以应用于机器翻译和文本摘要。简而言之， Seq2seq 模型使用第一个 LSTM 对音频输入进行编码，第二个 LSTM 以输入序列为条件，对数据进行解码，并把数据转换成转录文本。

其他现有的语音转文字服务包括支持29 种语言的微软语音识别 API、支持 7 种语言的 IBM Watson API ，以及 2017 年 11 月发布的亚马逊Transcribe ，到目前为止，其只支持美式英语和西班牙语。来自佛罗里达技术学院（the Florida Institute of Technology）对其中这些服务的比较显示，谷歌服务API 的错误率较低。另一组比较测试强调了语音转录服务延迟的重要性。

阅读英文原文： Google Upgrades Its Speech-to-Text Service with Tailored Deep-Learning Models

发布

暂无评论

创作场景

谷歌通过定制的深度学习模型升级了其语音转文字的服务

评论

第二周作业

直播带货需要运营者实名验证：规范行业有利于健康发展

LeetCode题解：78. 子集，递归+for循环+回溯，JavaScript，详细注释

手撕面试题：多个线程顺序执行问题

用上ConcurrentHashMap，就没有并发问题了？

【得物技术】一文读懂Vue生命周期

Javassist实现JDK动态代理

Week 6 命题作业

JVM 源码解读之 CMS GC 触发条件

对抗验证概述

从实际案例聊聊Java应用的GC优化

GitHub上最励志的计算机自学教程（重制版），前端小白到亚马逊工程师

京东推荐系统中的兴趣拓展如何驱动业务持续增长？

蚂蚁金服首发887页Java面试宝典！还原真实面试情景+面试题

叼！阿里Mysql三位封神专家总结800页性能优化的千金良方

数字货币交易所系统开发技术

JavaScript 对象 — 重学 JavaScript

第二周总结

架构师训练营 -week06-作业

K近邻算法：机器学习萌新必学算法

TronChain波场链合约系统开发技术

英特尔第十一代处理器 (代号Rocket Lake-S) 架构详情

Redis可以做哪些事？

Java-技术专题-volatile关键字

Java-技术专题-Object克隆方法解析

创新方案百花齐放，英特尔助力2020 EdgeX中国挑战赛推动智能边缘行业创新及人才发展

使用 Maven Archetype 基于 IDEA 快速创建项目

架构师训练营第六周作业

Java-技术专题-LocalDate和LocalTime和LocalDateTime

程序员什么时候就该辞职了？

接口工具使用对比（apipost、jmeter、postman、swagger等）

创作场景

谷歌通过定制的深度学习模型升级了其语音转文字的服务

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载