大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

Facebook 开源低延迟在线自动语音识别框架:速度更快,错误率更低

  • 2020-01-14
  • 本文字数:1020 字

    阅读完需:约 3 分钟

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低

Facebook 人工智能研究院(FAIR)于当地时间 1 月 13 日表示,已经开源了基于深度学习的推理框架 wav2letter @ anywhere,该框架可在云或嵌入式边缘环境中快速实现在线自动语音识别。Wav2letter @ anywhere 是由 wav2letter 和 wav2letter ++这两个基于神经网络的语言模型构建的,在 2018 年 12 月发布时,Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统


自动语音识别(ASR)可将语音转换为文本,然后推断出说话者的意图从而执行任务。wav2letter++存储库在 GitHub 上提供的 API 支持并发音频流和广泛使用的深度学习语音识别模型,如卷积神经网络(CNN)或递归神经网络(RNN),可以满足在线 ASR 所需的规模。



据纽约市实验室和 Menlo Park 总部的 8 名 Facebook 人工智能研究院研究员上周发布的一篇文章显示,Wav2letter@anywhere 的单词错误率优于由双向 LSTM RNNs 构成的两个基线模型。双向 LSTM RNNs 是目前被广泛使用的控制延迟的方法。


研究人员称:“该系统的吞吐量几乎是调整好的混合 ASR 基准的三倍,同时系统的延迟和错字率都更低。” “延迟控制双向 LSTM 通常用于在线语音识别,将未来 context 与卷积结合在一起可产生更准确、延迟更低的模型。我们发现 TDS 卷积可以在有限的未来 context 下维持较低的 WER。”



去年秋季,Facebook 在 2019 年 Interspeech 上提出了一个降低延迟并在 LibriSpeech(LibriSpeech 是一个收录了 1000 小时英语语音的数据集)上表现出优越性能的方法,该方法被称之为“时深可分离卷积(TBS)”。由于卷积声学模型——时深可分离卷积(TBS)模型的改善,低延迟取得有了一定进步。


用于语音推理的 CNN 和自然语言模型趋势相去甚远,自然语言模型更加聚焦递归神经网络或者像Google基于BERT的双向编码器这种基于 Transformer 的模型,或者追求更好的性能。可分离模型因其在计算机视觉领域的诸多应用而最闻名,例如谷歌的 MobileNet。


wav2letter@anywhere 是在 Pythia 图像和语言模型框架、wav2vec 在线语音识别和RoBERTa等新方法发布之后推出的(RoBERTa 是一款基于谷歌 BERT 的模型,在 2019 年夏天 GLUE benchmark 排行榜上,RoBERTa 攀升至第一位,但此后已跌至八位)。


wav2lette 项目地址:


https://github.com/facebookresearch/wav2letter


RoBERTa 项目地址:


https://github.com/brightmart/roberta_zh


原文链接:


https://venturebeat.com/2020/01/13/facebook-releases-low-latency-online-speech-recognition-framework/


2020-01-14 16:573554

评论

发布
暂无评论
发现更多内容

开源无代码 / 低代码平台 NocoBase 1.0.0-alpha.15: 新增插件、改进「配置操作」交互

NocoBase

GitHub 开源 低代码 无代码开发 开源开发工具

华为云受邀出席AICon2024 分享AI Agent在企业生产中的技术实践

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 AI Agent 企业号2024年5月PK榜

DeepRec Extension 打造稳定高效的分布式训练

阿里云大数据AI技术

人工智能 阿里云 分布式

2024华为影像品牌之夜,科技赋能艺术,影像创新无界

新消费日报

新鲜干货|「隐语城市行·成都站 x 蓉数大讲堂」硬核技术分享、多元场景实践、未来趋势洞察及前沿学术探秘

隐语SecretFlow

厦门大学站回顾|大模型时代的联邦学习

隐语SecretFlow

基于 Prometheus 的超算弹性计算场景下主机监控最佳实践

阿里巴巴云原生

阿里云 云原生 Prometheus

哈银消费金融七载风雨兼程,创新引领稳健前行

极客天地

预约直播丨ETLCloud训练营:ETL中多流数据合并与运算专题

谷云科技RestCloud

直播 ETL

荒野之境:XMAGE的抵达与眺望

脑极体

影像

LeetCode题解:9. 回文数,翻转一半数字,JavaScript,详细注释

Lee Chen

自动生成流程图的软件!这3款值得推荐!

彭宏豪95

人工智能 流程图 在线白板 AIGC 效率软件

LeetCode题解:112. 路径总和,BFS,JavaScript,详细注释

Lee Chen

分布式任务调度内的 MySQL 分页查询优化

vivo互联网技术

ICP MySQL分页查询优化 主键分页查询执行过程

为你的程序精选的7个最佳天气API

幂简集成

API 天气api

卓越开发管理之道

凌晞

团队管理 项目管理 技术管理 开发管理

LeetCode题解:112. 路径总和,递归,JavaScript,详细注释

Lee Chen

GeminiDB PITR,让游戏回档“进退自如”!

华为云开发者联盟

数据库 华为云 华为云开发者联盟 华为云GeminiDB 企业号2024年5月PK榜

什么是生产报工系统、有哪些优势

万界星空科技

制造业 mes 万界星空科技 生产管理 生产报工

Volcano社区新版本发布!7大功能全面增强队列能力与调度稳定性

华为云开发者联盟

Kubernetes 华为云 Volcano 华为云开发者联盟 企业号2024年5月PK榜

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低_文化 & 方法_KHARI JOHNSON_InfoQ精选文章