写点什么

Facebook 开源低延迟在线自动语音识别框架:速度更快,错误率更低

  • 2020-01-14
  • 本文字数:1020 字

    阅读完需:约 3 分钟

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低

Facebook 人工智能研究院(FAIR)于当地时间 1 月 13 日表示,已经开源了基于深度学习的推理框架 wav2letter @ anywhere,该框架可在云或嵌入式边缘环境中快速实现在线自动语音识别。Wav2letter @ anywhere 是由 wav2letter 和 wav2letter ++这两个基于神经网络的语言模型构建的,在 2018 年 12 月发布时,Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统


自动语音识别(ASR)可将语音转换为文本,然后推断出说话者的意图从而执行任务。wav2letter++存储库在 GitHub 上提供的 API 支持并发音频流和广泛使用的深度学习语音识别模型,如卷积神经网络(CNN)或递归神经网络(RNN),可以满足在线 ASR 所需的规模。



据纽约市实验室和 Menlo Park 总部的 8 名 Facebook 人工智能研究院研究员上周发布的一篇文章显示,Wav2letter@anywhere 的单词错误率优于由双向 LSTM RNNs 构成的两个基线模型。双向 LSTM RNNs 是目前被广泛使用的控制延迟的方法。


研究人员称:“该系统的吞吐量几乎是调整好的混合 ASR 基准的三倍,同时系统的延迟和错字率都更低。” “延迟控制双向 LSTM 通常用于在线语音识别,将未来 context 与卷积结合在一起可产生更准确、延迟更低的模型。我们发现 TDS 卷积可以在有限的未来 context 下维持较低的 WER。”



去年秋季,Facebook 在 2019 年 Interspeech 上提出了一个降低延迟并在 LibriSpeech(LibriSpeech 是一个收录了 1000 小时英语语音的数据集)上表现出优越性能的方法,该方法被称之为“时深可分离卷积(TBS)”。由于卷积声学模型——时深可分离卷积(TBS)模型的改善,低延迟取得有了一定进步。


用于语音推理的 CNN 和自然语言模型趋势相去甚远,自然语言模型更加聚焦递归神经网络或者像Google基于BERT的双向编码器这种基于 Transformer 的模型,或者追求更好的性能。可分离模型因其在计算机视觉领域的诸多应用而最闻名,例如谷歌的 MobileNet。


wav2letter@anywhere 是在 Pythia 图像和语言模型框架、wav2vec 在线语音识别和RoBERTa等新方法发布之后推出的(RoBERTa 是一款基于谷歌 BERT 的模型,在 2019 年夏天 GLUE benchmark 排行榜上,RoBERTa 攀升至第一位,但此后已跌至八位)。


wav2lette 项目地址:


https://github.com/facebookresearch/wav2letter


RoBERTa 项目地址:


https://github.com/brightmart/roberta_zh


原文链接:


https://venturebeat.com/2020/01/13/facebook-releases-low-latency-online-speech-recognition-framework/


2020-01-14 16:573601

评论

发布
暂无评论
发现更多内容

文心一言 VS 讯飞星火 VS chatgpt (116)-- 算法导论10.3 1题

福大大架构师每日一题

福大大架构师每日一题

Linux远程管理协议

芯动大师

分享10个免费的Python代码仓库,轻松实现自动化办公(上)

程序员晚枫

Python

LeetCode题解:剑指 Offer 03. 数组中重复的数字,原地置换,JavaScript,详细注释

Lee Chen

LeetCode

软件依赖管理-源码依赖、接口依赖、服务依赖

laofo

DevOps cicd 研发效能 持续交付

PCB打板省钱小妙招,强烈建议收藏!

华秋电子

PCB

免费的国产数据集成平台推荐

谷云科技RestCloud

数据同步 ETL

UML软件哪个好?10款好用的UML工具和画图软件推荐!

彭宏豪95

UML 在线白板 UML建模工具 绘图软件 绘图工具

Flink OLAP 在字节跳动的查询优化和落地实践

Apache Flink

大数据 flink 实时计算

SMT组装工艺流程的应用场景

华秋电子

SMT

软件测试|火焰杯”软件测试高校就业选拔赛获奖名单揭晓,我院两名学子上榜,奖金2万元!

霍格沃兹测试开发学社

敏捷开发的核心原则和方法实践-深入理解Scrum

顿顿顿

Scrum 敏捷开发 敏捷研发工具 敏捷管理工具 scrum管理工具

注释在编程中的重要性:理解程序员的两难选择

小魏写代码

实用的数据集成方式

谷云科技RestCloud

数据同步 ETL 实时数据

火山引擎DataTester:AB测试技术揭秘及应用分享

字节跳动数据平台

大数据 ab测试 对比实验 数字化增长 企业号10月PK榜

ONLYOFFICE:一个免费、开源、跨平台的办公神器

陈橘又青

远程办公 文档 协同办公 协同文档

AI 鲲鹏独角兽 | Kyligence 荣登毕马威中国人工智能创新双30企业榜单

Kyligence

数据分析 Data + AI

把您的 PCB 艺术品带来 KiCon 吧:SAO Hat 作品招募中

华秋电子

kicad

基于 Apache Kyuubi 实现分布式 Flink SQL 网关

网易数帆

大数据 flink 开源 Apache Kyuubi

CNCF即将推出平台成熟度模型丨亮点导览

SEAL安全

运维 成熟度模型 企业号10月PK榜

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低_文化 & 方法_KHARI JOHNSON_InfoQ精选文章