Facebook开源低延迟在线自动语音识别框架：速度更快，错误率更低_文化 & 方法_KHARI JOHNSON

Facebook 人工智能研究院（FAIR）于当地时间 1 月 13 日表示，已经开源了基于深度学习的推理框架 wav2letter @ anywhere，该框架可在云或嵌入式边缘环境中快速实现在线自动语音识别。Wav2letter @ anywhere 是由 wav2letter 和 wav2letter ++这两个基于神经网络的语言模型构建的，在 2018 年 12 月发布时，Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统。

自动语音识别（ASR）可将语音转换为文本，然后推断出说话者的意图从而执行任务。wav2letter++存储库在 GitHub 上提供的 API 支持并发音频流和广泛使用的深度学习语音识别模型，如卷积神经网络（CNN）或递归神经网络（RNN），可以满足在线 ASR 所需的规模。

据纽约市实验室和 Menlo Park 总部的 8 名 Facebook 人工智能研究院研究员上周发布的一篇文章显示，Wav2letter@anywhere 的单词错误率优于由双向 LSTM RNNs 构成的两个基线模型。双向 LSTM RNNs 是目前被广泛使用的控制延迟的方法。

研究人员称：“该系统的吞吐量几乎是调整好的混合 ASR 基准的三倍，同时系统的延迟和错字率都更低。” “延迟控制双向 LSTM 通常用于在线语音识别，将未来 context 与卷积结合在一起可产生更准确、延迟更低的模型。我们发现 TDS 卷积可以在有限的未来 context 下维持较低的 WER。”

去年秋季，Facebook 在 2019 年 Interspeech 上提出了一个降低延迟并在 LibriSpeech（LibriSpeech 是一个收录了 1000 小时英语语音的数据集）上表现出优越性能的方法，该方法被称之为“时深可分离卷积（TBS）”。由于卷积声学模型——时深可分离卷积（TBS）模型的改善，低延迟取得有了一定进步。

用于语音推理的 CNN 和自然语言模型趋势相去甚远，自然语言模型更加聚焦递归神经网络或者像Google基于BERT的双向编码器这种基于 Transformer 的模型，或者追求更好的性能。可分离模型因其在计算机视觉领域的诸多应用而最闻名，例如谷歌的 MobileNet。

wav2letter@anywhere 是在 Pythia 图像和语言模型框架、wav2vec 在线语音识别和RoBERTa等新方法发布之后推出的（RoBERTa 是一款基于谷歌 BERT 的模型，在 2019 年夏天 GLUE benchmark 排行榜上，RoBERTa 攀升至第一位，但此后已跌至八位）。

wav2lette 项目地址：

https://github.com/facebookresearch/wav2letter

RoBERTa 项目地址：

https://github.com/brightmart/roberta_zh

原文链接：

https://venturebeat.com/2020/01/13/facebook-releases-low-latency-online-speech-recognition-framework/

创作场景

Facebook 开源低延迟在线自动语音识别框架：速度更快，错误率更低

评论

游戏夜读 | 2020周记（4.10-4.17）

以物理学思维破解分布式系统的本质

为什么开源是基础软件的未来

如何成为一个靠谱的人

为什么最该祝自己劳动节快乐

程序员陪娃漫画系列——喂药

我所想的跨平台开发：小程序+App+Web

容器日志采集利器：Filebeat深度剖析与实践

思考如何节省时间，节省出时间进行思考

Web3极客日报#131

面向兴趣编程 - 一条微博和一个小程序的故事

Java并发编程系列——常用并发工具类

重要：Kafka第3篇之一条消息如何被存储到Broker上

万字破解云原生可观测性

Web3极客日报#130

科技 vs 隐私：瘟疫下“以健康为名”会将我们推向何方？

论十三

张小龙的 22 年和微信的 8 年

Disruptor 高效的秘密-Sequencer

没有了手机的诺基亚，过得远比你想象的要好

改变

HTTP的德性

《我是余欢水》与《一个叫欧维的男人决定去死》

Web3极客日报 #132

消息队列Kafka - 基本应用

消息队列Kafka - 原理分析

OKR实践中的痛点（3）：破3旧，迎3新！

如何表达自己的感情？

Block底层原理探析

Web3极客日报 #133

苟富贵，勿相忘

创作场景

Facebook 开源低延迟在线自动语音识别框架：速度更快，错误率更低

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载