写点什么

Facebook 开源低延迟在线自动语音识别框架:速度更快,错误率更低

  • 2020-01-14
  • 本文字数:1020 字

    阅读完需:约 3 分钟

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低

Facebook 人工智能研究院(FAIR)于当地时间 1 月 13 日表示,已经开源了基于深度学习的推理框架 wav2letter @ anywhere,该框架可在云或嵌入式边缘环境中快速实现在线自动语音识别。Wav2letter @ anywhere 是由 wav2letter 和 wav2letter ++这两个基于神经网络的语言模型构建的,在 2018 年 12 月发布时,Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统


自动语音识别(ASR)可将语音转换为文本,然后推断出说话者的意图从而执行任务。wav2letter++存储库在 GitHub 上提供的 API 支持并发音频流和广泛使用的深度学习语音识别模型,如卷积神经网络(CNN)或递归神经网络(RNN),可以满足在线 ASR 所需的规模。



据纽约市实验室和 Menlo Park 总部的 8 名 Facebook 人工智能研究院研究员上周发布的一篇文章显示,Wav2letter@anywhere 的单词错误率优于由双向 LSTM RNNs 构成的两个基线模型。双向 LSTM RNNs 是目前被广泛使用的控制延迟的方法。


研究人员称:“该系统的吞吐量几乎是调整好的混合 ASR 基准的三倍,同时系统的延迟和错字率都更低。” “延迟控制双向 LSTM 通常用于在线语音识别,将未来 context 与卷积结合在一起可产生更准确、延迟更低的模型。我们发现 TDS 卷积可以在有限的未来 context 下维持较低的 WER。”



去年秋季,Facebook 在 2019 年 Interspeech 上提出了一个降低延迟并在 LibriSpeech(LibriSpeech 是一个收录了 1000 小时英语语音的数据集)上表现出优越性能的方法,该方法被称之为“时深可分离卷积(TBS)”。由于卷积声学模型——时深可分离卷积(TBS)模型的改善,低延迟取得有了一定进步。


用于语音推理的 CNN 和自然语言模型趋势相去甚远,自然语言模型更加聚焦递归神经网络或者像Google基于BERT的双向编码器这种基于 Transformer 的模型,或者追求更好的性能。可分离模型因其在计算机视觉领域的诸多应用而最闻名,例如谷歌的 MobileNet。


wav2letter@anywhere 是在 Pythia 图像和语言模型框架、wav2vec 在线语音识别和RoBERTa等新方法发布之后推出的(RoBERTa 是一款基于谷歌 BERT 的模型,在 2019 年夏天 GLUE benchmark 排行榜上,RoBERTa 攀升至第一位,但此后已跌至八位)。


wav2lette 项目地址:


https://github.com/facebookresearch/wav2letter


RoBERTa 项目地址:


https://github.com/brightmart/roberta_zh


原文链接:


https://venturebeat.com/2020/01/13/facebook-releases-low-latency-online-speech-recognition-framework/


2020-01-14 16:573334

评论

发布
暂无评论
发现更多内容

带你看论文丨全局信息对于图网络文档解析的影响

华为云开发者联盟

文档 CNN网络 图网络 非结构化文档 全局信息

iPhone Shortcuts 使用与场景

TroyLiu

iphone 效率工具 快捷指令 shortcuts nfc

工作多年,分享16条职场经验给新人朋友

架构精进之路

职场 成长 经验分享 8月日更

万字长文讲透低代码

百度开发者中心

最佳实践 开发者 方法论 低代码 语言 & 开发

Compose 编程思想

Changing Lin

8月日更

高频面试题-请把Java垃圾回收器说清楚

Java 编程 架构 面试 JVM

面试进阶齐飞!霸榜GitHub的 Java 全栈笔记太香了!

Java 编程 程序员 IT 计算机

spring cloud 在国内中小型公司能用起微服务来吗?

Java 程序员 架构 面试 IT

简单的Postman,还能玩出花?

码农参上

8月日更

台达AS228T_CanOpen_VFD_X

林建

台达 AS228T Canopen 功能块 E变址

MySQL中的DEFINER(定义者)是什么

Simon

MySQL

Java测试框架九大法宝

FunTester

自动化测试 JUnit 测试框架 selenium testNG

xposed 入门之修改手机 IMEI

Qunar技术沙龙

android 程序员 App 经验分享 安卓

TCP如何进行拥塞控制

W🌥

计算机网络 TCP/IP 8月日更

从技术到文案,还回技术么?

escray

学习 极客时间 朱赟的技术管理课 8月日更

我看 JAVA 之 并发编程【三】java.util.concurrent.atomic

awen

Java 并发编程 Atomic 原子操作

C++ Vector

若尘

c++ vector 8月日更

如何用Camtasia添加视频水印?

淋雨

视频剪辑 Camtasia 录屏软件

Java 程序性能优化“学习日记”

Java 编程 面试 IT 计算机

收获颇丰!这份阿里架构师纯手敲JDK源码全彩小册可以打满分

Java架构追梦

Java 阿里巴巴 架构 面试 jdk源码

为什么安全性在托管中变得越来越重要

九河云安全

使用Grafana显示Prometheu监控

Rubble

Grafana Prometheus 8月日更

你真的懂语音特征吗?

华为云开发者联盟

语音 音频 声学 时域图 时域

Python代码阅读(第7篇):列表分组计数

Felix

Python 编程 Code Programing 阅读代码

孩子排斥写作业 VS 员工不接活儿——项目管理来帮忙

Ian哥

这波性能优化,太炸裂了!

why技术

Java 性能优化 JVM

The Data Way Vol.1|风口下的开源市场:如何看待开源与商业的关系?

SphereEx

数据库 开源

Apache之道在腾讯的探索与实践

腾源会

Apache 开源 腾源会 腾讯开源

接口返回值一定不允许使用枚举类型吗?

skow

Java 面试 后端 开发规范

Tensor:Pytorch神经网络界的Numpy

华为云开发者联盟

神经网络 数组 PyTorch Numpy Tenso

惠及百万用户 医保“上云”有了新思路

云计算

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低_文化 & 方法_KHARI JOHNSON_InfoQ精选文章