写点什么

Facebook 开源低延迟在线自动语音识别框架:速度更快,错误率更低

  • 2020-01-14
  • 本文字数:1020 字

    阅读完需:约 3 分钟

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低

Facebook 人工智能研究院(FAIR)于当地时间 1 月 13 日表示,已经开源了基于深度学习的推理框架 wav2letter @ anywhere,该框架可在云或嵌入式边缘环境中快速实现在线自动语音识别。Wav2letter @ anywhere 是由 wav2letter 和 wav2letter ++这两个基于神经网络的语言模型构建的,在 2018 年 12 月发布时,Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统


自动语音识别(ASR)可将语音转换为文本,然后推断出说话者的意图从而执行任务。wav2letter++存储库在 GitHub 上提供的 API 支持并发音频流和广泛使用的深度学习语音识别模型,如卷积神经网络(CNN)或递归神经网络(RNN),可以满足在线 ASR 所需的规模。



据纽约市实验室和 Menlo Park 总部的 8 名 Facebook 人工智能研究院研究员上周发布的一篇文章显示,Wav2letter@anywhere 的单词错误率优于由双向 LSTM RNNs 构成的两个基线模型。双向 LSTM RNNs 是目前被广泛使用的控制延迟的方法。


研究人员称:“该系统的吞吐量几乎是调整好的混合 ASR 基准的三倍,同时系统的延迟和错字率都更低。” “延迟控制双向 LSTM 通常用于在线语音识别,将未来 context 与卷积结合在一起可产生更准确、延迟更低的模型。我们发现 TDS 卷积可以在有限的未来 context 下维持较低的 WER。”



去年秋季,Facebook 在 2019 年 Interspeech 上提出了一个降低延迟并在 LibriSpeech(LibriSpeech 是一个收录了 1000 小时英语语音的数据集)上表现出优越性能的方法,该方法被称之为“时深可分离卷积(TBS)”。由于卷积声学模型——时深可分离卷积(TBS)模型的改善,低延迟取得有了一定进步。


用于语音推理的 CNN 和自然语言模型趋势相去甚远,自然语言模型更加聚焦递归神经网络或者像Google基于BERT的双向编码器这种基于 Transformer 的模型,或者追求更好的性能。可分离模型因其在计算机视觉领域的诸多应用而最闻名,例如谷歌的 MobileNet。


wav2letter@anywhere 是在 Pythia 图像和语言模型框架、wav2vec 在线语音识别和RoBERTa等新方法发布之后推出的(RoBERTa 是一款基于谷歌 BERT 的模型,在 2019 年夏天 GLUE benchmark 排行榜上,RoBERTa 攀升至第一位,但此后已跌至八位)。


wav2lette 项目地址:


https://github.com/facebookresearch/wav2letter


RoBERTa 项目地址:


https://github.com/brightmart/roberta_zh


原文链接:


https://venturebeat.com/2020/01/13/facebook-releases-low-latency-online-speech-recognition-framework/


2020-01-14 16:573470

评论

发布
暂无评论
发现更多内容

一文带你了解 Kafka 原理

苹果看辽宁体育

kafka

区块链能够防伪?你彷佛有什么误解!

CECBC

CECBC 区块链技术 商品溯源 防伪

怎样成为解决问题的高手

落曦

彻底搞懂 etcd 系列文章(三):etcd 集群运维部署

aoho

架构 云原生 etcd

Go: Go 调度器的任务窃取(Work-Stealing)

陈思敏捷

源码分析 原理 队列 Go 语言

硬不硬你说了算!近 40 张图解被问千百遍的 TCP 三次握手和四次挥手面试题

小林coding

面试 TCP 网络安全 网络编程 计算机网络

像运营公司一样去做产品

胖鱼2号

创业 产品 产品经理 企业

ARTS|Week 2 PlantUML 的学习和分享

Puran

LeetCode arts PlantUML

如何通过众包应用本地化获得 500 万次下载?

葛仲君

android 翻译 本地化 产品开发 Play商店

单例模式详解

章小传

Java 单例模式

修改git里commit信息用户名

张张张小烦

原创 | TDD工具集:JUnit、AssertJ和Mockito (十九)编写测试-依赖注入\测试接口\重复测试

编程道与术

Java 编程 TDD 单元测试 JUnit

彻底搞懂 etcd 系列文章(一):初识 etcd

aoho

架构 云原生 etcd

ARTS Week2

时之虫

ARTS 打卡计划

日志过滤

HU

Pycharm社区版安装教程(永久免费,随时升级)

早睡蟒

JDK 8,该离开的时候,请别留恋!

X.F

Java 架构 编程语言 Java 25 周年

江湖事儿 | 技术人如何做好晋升准备

哈利迪

android 职业成长

游戏夜读 | 神话故事和世界观

game1night

ARTS - Week Three

shepherd

开源 互联网 算法

我体验了一把自由职业,比 996 苦多了...

非著名程序员

创业 程序员 自由职业 创业心态

某二手交易平台大数据平台从 0 到 1 演进与实践

奈学教育

2020年6月5日 继承

瑞克与莫迪

ARTS week3

丽子

Spring 源码学习 - 单例bean的实例化过程

Geek_k6ry2n

npm常用命令

阡陌r

Vue

真诚的回报

zhoo299

生活 随想

程序员可迁移技能的培养

MavenTalker

程序员

架构师应该具备哪些思维模型?

奈学教育

架构师

ARTS|Week 02:体会刷算法题的快乐,同时开启Ubuntu 20.04备用系统

MiracleWong

算法 ARTS 打卡计划

[kube 022] 混沌测试框架-Litmus

zbyufei

Kubernetes 云原生 混沌工程 Litmus litmuschaos

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低_文化 & 方法_KHARI JOHNSON_InfoQ精选文章