写点什么

谷歌通过定制的深度学习模型升级了其语音转文字的服务

  • 2018-05-22
  • 本文字数:1510 字

    阅读完需:约 5 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

一个月前,谷歌宣布在源于 Magenta 项目的文字转语音(Text-to-Speech,简称TTS)技术上取得代际突破,接着该公司又对其语音转文字(Speech-to-Text,简称STT)API 云服务进行了重大升级。更新后的服务利用语音转录的深度学习模型,根据特定用例量身定制:短语音命令、打电话或视频,在所有其他上下文中都有一个默认模型。如今,升级后的服务可以处理120 种语言以及不同模型可用性和功能级别的变体。商业应用范围包括电话会议、呼叫中心和视频转录。转录的准确性在有多个扬声器和明显背景噪音的情形下有了改进提高。

另外两个因素构成了本次升级。标准服务水平协议(the standard service level agreement,简称SLA)现在承诺有99.9% 的可用性。该服务含有一种新机制来标记转录工作并向谷歌团队提供反馈。

专用模型是根据音频媒体的特点来采样,从而产生带宽 %E5%92%8C%E4%BF%A1%E5%8F%B7%E6%8C%81%E7%BB%AD%E6%97%B6%E9%97%B4%E3%80%82%E7%94%B5%E8%AF%9D%E9%9F%B3%E9%A2%91%E7%9A%84%E9%87%87%E6%A0%B7%E9%A2%91%E7%8E%87%E6%98%AF8Khz%EF%BC%8C%E5%9B%A0%E6%AD%A4%E9%9F%B3%E9%A2%91%E8%B4%A8%E9%87%8F%E8%BE%83%E4%BD%8E%EF%BC%8C%E8%80%8C%E6%9D%A5%E8%87%AA%E8%A7%86%E9%A2%91%E7%9A%84%E9%9F%B3%E9%A2%91%EF%BC%8C%E9%87%87%E6%A0%B7%E9%A2%91%E7%8E%87%E9%80%9A%E5%B8%B8%E6%98%AF16Khz%E3%80%82%E5%9B%A0%E6%AD%A4%EF%BC%8C%E9%9C%80%E8%A6%81%E9%92%88%E5%AF%B9%E6%AF%8F%E7%A7%8D%E5%AA%92%E4%BD%93%E7%B1%BB%E5%9E%8B%E8%BF%9B%E8%A1%8C%E4%BC%98%E5%8C%96%E7%9A%84%E6%A8%A1%E5%9E%8B%E3%80%82">https://en.wikipedia.org/wiki/Bandwidth_(signal_processing) 和信号持续时间。电话音频的采样频率是 8Khz,因此音频质量较低,而来自视频的音频,采样频率通常是 16Khz。因此,需要针对每种媒体类型进行优化的模型。

众包真实世界音频样本是谷歌改进其模型战略的核心,随着所谓数据记录的可选程序的发布,用户可以选择跟谷歌共享他们的音频,以帮助改进模型。数据记录的启用让用户可以访问具有更好性能的增强模型。谷歌宣布, 与标准电话模型相比,词汇错误减少了54%,而对于增强视频模型,错误减少了64%。

最佳实践而言,谷歌建议使用无损耗编码器(如 FLAC )压缩后的音频数据,采样频率为 16Khz,避免任何音频预处理,比如降噪或自动增益控制。

词汇错误减少不是提升语音转文字整体质量的唯一因素。标点符号的预测仍然是语言转录面临的重要挑战。谷歌的语音转文字API 现在能够给转录后的文本添加标点符号,进一步提高了转自长音频序列的文本的可读性。这种自动添加标点符号的功能是利用了 LSTM 神经网络模型。

正如最近来自谷歌研究(Google Research)关于语音合成和语音识别的研究成果显示,用于语音转文字的深度学习经常是基于序列到序列(sequence-to-sequence,也可简写为Seq2seq)的神经网络模型,这些模型也可以应用于机器翻译和文本摘要。简而言之, Seq2seq 模型使用第一个 LSTM 对音频输入进行编码,第二个 LSTM 以输入序列为条件,对数据进行解码,并把数据转换成转录文本。

其他现有的语音转文字服务包括支持29 种语言微软语音识别 API、支持 7 种语言的 IBM Watson API ,以及 2017 年 11 月发布亚马逊Transcribe ,到目前为止,其只支持美式英语和西班牙语。来自佛罗里达技术学院(the Florida Institute of Technology)对其中这些服务的比较显示,谷歌服务API 的错误率较低。另一组比较测试强调了语音转录服务延迟的重要性。

阅读英文原文: Google Upgrades Its Speech-to-Text Service with Tailored Deep-Learning Models

2018-05-22 19:001737
用户头像

发布了 199 篇内容, 共 90.7 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

制造业用哪款堡垒机好一点?为什么?

行云管家

网络安全 堡垒机 双因子认证 制造业

[杂谈] 从PDF文件中进行表格抽取(tabula || paddle-pp-structure)

alexgaoyh

paddle 版式还原 表格提取 tabula pp-structure

美团面试真题和答案

王磊

java面试

生成式AI下的企业:是不是该成立新部门封新官了?

FinClip

“多”维演进:智能编码的深度进化

阿里云CloudImagine

云计算 编码 视频编码 视频云

ElasticSearch - 批量更新bulk死锁问题排查 | 京东云技术团队

京东科技开发者

elasticsearch MQ 企业号 7 月 PK 榜 BulkProcessor

基于袋鼠云实时开发平台开发 FlinkSQL 任务的实践探索

袋鼠云数栈

sql flink 实时开发

人脸识别技术在智能家居中的应用

数据堂

5G与妈祖守护的那片海

白洞计划

5G

【OpenAI】ChatGPT函数调用(Function Calling)实践 | 京东云技术团队

京东科技开发者

openai 数据交互 企业号 7 月 PK 榜 Function Calling

解决ueditor表格拖拽没反应的问题

互联网工科生

数据库 Vue

手把手教你如何做手机PCB电磁兼容性设计

华秋PCB

电磁 PCB 电路板 电子 PCB设计

如何用 TDengine 预测 “未来”

爱倒腾的程序员

涛思数据 tdengine 时序数据库

分享实录 | NGINX 网络协议优化(下)

NGINX开源社区

nginx TCP TLS HTTP

什么是GPU与CPU?有什么不同?哪个更好?

Finovy Cloud

使用 Navicat 的数据生成插入大量测试数据

hungxy

5G与妈祖守护的那片海

脑极体

5G

软件测试/测试开发丨Python闭包函数和计时器学习笔记

测试人

Python 程序员 软件测试 函数

架构课模块一作业

庚小庚

文盘Rust -- FFI 浅尝 | 京东云技术团队

京东科技开发者

rust C语言 企业号 7 月 PK 榜 FFI

为什么越来越多的网站选择海外主机跨越国界?

一只扑棱蛾子

海外主机

从GaussDB(DWS)的技术演进,看数据仓库的积淀与新生

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

Spring Loaded代码热更新实践和原理分析 | 京东云技术团队

京东科技开发者

spring 热更新 Loader 企业号 7 月 PK 榜

人脸识别技术的精度提高及其应用

数据堂

数智驱动 百业共荣!亚信科技精彩亮相2023 MWC上海展

亚信AntDB数据库

数据库 AntDB AntDB数据库

传承敬老美德,志愿服务伴我行

科技热闻

基于Web的智慧交通3D可视化系统

2D3D前端可视化开发

智慧交通 智慧交通系统 智能运输系统 ITS 智慧公交

玩转“擎舵”,秒变AIGC时代营销创意“掌舵人”

极客天地

人脸识别技术的安全性和隐私保护

数据堂

山西等级保护测评机构有哪些?有几家?

行云管家

信息安全 等级保护 等保测评 等级测评 山西

华为云GaussDB圈层活动走进香港,赋能金融政企数字化转型

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

谷歌通过定制的深度学习模型升级了其语音转文字的服务_Google_Alexis Perrier_InfoQ精选文章