写点什么

谷歌通过定制的深度学习模型升级了其语音转文字的服务

  • 2018-05-22
  • 本文字数:1510 字

    阅读完需:约 5 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

一个月前,谷歌宣布在源于 Magenta 项目的文字转语音(Text-to-Speech,简称TTS)技术上取得代际突破,接着该公司又对其语音转文字(Speech-to-Text,简称STT)API 云服务进行了重大升级。更新后的服务利用语音转录的深度学习模型,根据特定用例量身定制:短语音命令、打电话或视频,在所有其他上下文中都有一个默认模型。如今,升级后的服务可以处理120 种语言以及不同模型可用性和功能级别的变体。商业应用范围包括电话会议、呼叫中心和视频转录。转录的准确性在有多个扬声器和明显背景噪音的情形下有了改进提高。

另外两个因素构成了本次升级。标准服务水平协议(the standard service level agreement,简称SLA)现在承诺有99.9% 的可用性。该服务含有一种新机制来标记转录工作并向谷歌团队提供反馈。

专用模型是根据音频媒体的特点来采样,从而产生带宽 %E5%92%8C%E4%BF%A1%E5%8F%B7%E6%8C%81%E7%BB%AD%E6%97%B6%E9%97%B4%E3%80%82%E7%94%B5%E8%AF%9D%E9%9F%B3%E9%A2%91%E7%9A%84%E9%87%87%E6%A0%B7%E9%A2%91%E7%8E%87%E6%98%AF8Khz%EF%BC%8C%E5%9B%A0%E6%AD%A4%E9%9F%B3%E9%A2%91%E8%B4%A8%E9%87%8F%E8%BE%83%E4%BD%8E%EF%BC%8C%E8%80%8C%E6%9D%A5%E8%87%AA%E8%A7%86%E9%A2%91%E7%9A%84%E9%9F%B3%E9%A2%91%EF%BC%8C%E9%87%87%E6%A0%B7%E9%A2%91%E7%8E%87%E9%80%9A%E5%B8%B8%E6%98%AF16Khz%E3%80%82%E5%9B%A0%E6%AD%A4%EF%BC%8C%E9%9C%80%E8%A6%81%E9%92%88%E5%AF%B9%E6%AF%8F%E7%A7%8D%E5%AA%92%E4%BD%93%E7%B1%BB%E5%9E%8B%E8%BF%9B%E8%A1%8C%E4%BC%98%E5%8C%96%E7%9A%84%E6%A8%A1%E5%9E%8B%E3%80%82">https://en.wikipedia.org/wiki/Bandwidth_(signal_processing) 和信号持续时间。电话音频的采样频率是 8Khz,因此音频质量较低,而来自视频的音频,采样频率通常是 16Khz。因此,需要针对每种媒体类型进行优化的模型。

众包真实世界音频样本是谷歌改进其模型战略的核心,随着所谓数据记录的可选程序的发布,用户可以选择跟谷歌共享他们的音频,以帮助改进模型。数据记录的启用让用户可以访问具有更好性能的增强模型。谷歌宣布, 与标准电话模型相比,词汇错误减少了54%,而对于增强视频模型,错误减少了64%。

最佳实践而言,谷歌建议使用无损耗编码器(如 FLAC )压缩后的音频数据,采样频率为 16Khz,避免任何音频预处理,比如降噪或自动增益控制。

词汇错误减少不是提升语音转文字整体质量的唯一因素。标点符号的预测仍然是语言转录面临的重要挑战。谷歌的语音转文字API 现在能够给转录后的文本添加标点符号,进一步提高了转自长音频序列的文本的可读性。这种自动添加标点符号的功能是利用了 LSTM 神经网络模型。

正如最近来自谷歌研究(Google Research)关于语音合成和语音识别的研究成果显示,用于语音转文字的深度学习经常是基于序列到序列(sequence-to-sequence,也可简写为Seq2seq)的神经网络模型,这些模型也可以应用于机器翻译和文本摘要。简而言之, Seq2seq 模型使用第一个 LSTM 对音频输入进行编码,第二个 LSTM 以输入序列为条件,对数据进行解码,并把数据转换成转录文本。

其他现有的语音转文字服务包括支持29 种语言微软语音识别 API、支持 7 种语言的 IBM Watson API ,以及 2017 年 11 月发布亚马逊Transcribe ,到目前为止,其只支持美式英语和西班牙语。来自佛罗里达技术学院(the Florida Institute of Technology)对其中这些服务的比较显示,谷歌服务API 的错误率较低。另一组比较测试强调了语音转录服务延迟的重要性。

阅读英文原文: Google Upgrades Its Speech-to-Text Service with Tailored Deep-Learning Models

2018-05-22 19:002037
用户头像

发布了 199 篇内容, 共 93.9 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

云原生体系下的技海浮沉与理论探索

阿里巴巴云原生

Serverless 容器 微服务 云原生 k8s

探究神秘的SpringMVC,寻找遗失的web.xml踪迹

996小迁

Java 编程 程序员 架构 面试

12.6大数据仓库Hive

张荣召

H3C核心交换机故障处理通用流程

第八周总结

小兵

12.2分布式文件系统

张荣召

话题讨论 | 作为程序员你的业余爱好是什么呢?

小天同学

话题讨论 业余爱好

以太公约系统开发详情丨以太公约源码案例

系统开发咨询1357O98O718

以太公约系统开发介绍

Norvarm波场链系统开发方案丨Norvarm波场源码功能

系统开发咨询1357O98O718

Norvarm波场链系统开发

快来!开源一份阿里微服务指导手册:SpringBoot+SpringCloud+消息中间件

Java架构追梦

Java 架构 面试 微服务

忒棒了!阿里P8大牛用这份技术点直接带你玩转高可用服务架构

比伯

Java 编程 架构 互联网 程序人生

架构师训练营第 1 期 第 12 周作业

李循律

极客大学架构师训练营

学习笔记-week12

张荣召

云小课 | 需求任务还未分解,该咋整!项目管理Scrum项目工作分解的心酸谁能知?

华为云开发者联盟

项目管理 敏捷 devcloud

ICT芯矿链挖矿矿机系统开发平台丨ICT芯矿链源码案例

系统开发咨询1357O98O718

ICT芯矿链矿机系统开发

第五周作业第1题

走走,停停……

巨头们为什么要开源自己的技术?解析科技企业对软件开源的态度

Marilyn

开源 敏捷开发

GaussDB(DWS)应用实践丨负载管理与作业排队处理方法

华为云开发者联盟

数据 负载 GaussDB

从物理空间到数字世界,数字孪生打造智能化基础设施

华为云开发者联盟

IoT 智能 数字

DolphinDB与Aliyun HybridDB for PostgreSQL在金融数据集上的比较

DolphinDB

postgresql 阿里云 时序数据库 DolphinDB 数据库开发

第八周大作业

小兵

【涂鸦物联网足迹】物联网常见通信协议

IoT云工坊

物联网 HTTP 通信协议 mqtt coap

12.4大数据计算框架MapReduce-架构

张荣召

12.1大数据技术发展史

张荣召

Eclipse Vert.x 4发布

dinstone

Java Reactive Vert.x

英特尔唐炯:36.4% PC同比增长,预示了2021是个好年

E科讯

12.5大数据集群资源管理系统Yarn

张荣召

12.7作业

张荣召

12.3大数据计算框架MapReduce-编程框架

张荣召

Java中CAS原理分析(volatile和synchronized浅析)

叫练

volatile 多线程 synchronized CAS JUC

我看技术人的成长路径

阿里巴巴云原生

开发者 云原生 技术人 自我思考 职场成长

谷歌通过定制的深度学习模型升级了其语音转文字的服务_Google_Alexis Perrier_InfoQ精选文章