NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Facebook 开源低延迟在线自动语音识别框架:速度更快,错误率更低

  • 2020-01-14
  • 本文字数:1020 字

    阅读完需:约 3 分钟

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低

Facebook 人工智能研究院(FAIR)于当地时间 1 月 13 日表示,已经开源了基于深度学习的推理框架 wav2letter @ anywhere,该框架可在云或嵌入式边缘环境中快速实现在线自动语音识别。Wav2letter @ anywhere 是由 wav2letter 和 wav2letter ++这两个基于神经网络的语言模型构建的,在 2018 年 12 月发布时,Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统


自动语音识别(ASR)可将语音转换为文本,然后推断出说话者的意图从而执行任务。wav2letter++存储库在 GitHub 上提供的 API 支持并发音频流和广泛使用的深度学习语音识别模型,如卷积神经网络(CNN)或递归神经网络(RNN),可以满足在线 ASR 所需的规模。



据纽约市实验室和 Menlo Park 总部的 8 名 Facebook 人工智能研究院研究员上周发布的一篇文章显示,Wav2letter@anywhere 的单词错误率优于由双向 LSTM RNNs 构成的两个基线模型。双向 LSTM RNNs 是目前被广泛使用的控制延迟的方法。


研究人员称:“该系统的吞吐量几乎是调整好的混合 ASR 基准的三倍,同时系统的延迟和错字率都更低。” “延迟控制双向 LSTM 通常用于在线语音识别,将未来 context 与卷积结合在一起可产生更准确、延迟更低的模型。我们发现 TDS 卷积可以在有限的未来 context 下维持较低的 WER。”



去年秋季,Facebook 在 2019 年 Interspeech 上提出了一个降低延迟并在 LibriSpeech(LibriSpeech 是一个收录了 1000 小时英语语音的数据集)上表现出优越性能的方法,该方法被称之为“时深可分离卷积(TBS)”。由于卷积声学模型——时深可分离卷积(TBS)模型的改善,低延迟取得有了一定进步。


用于语音推理的 CNN 和自然语言模型趋势相去甚远,自然语言模型更加聚焦递归神经网络或者像Google基于BERT的双向编码器这种基于 Transformer 的模型,或者追求更好的性能。可分离模型因其在计算机视觉领域的诸多应用而最闻名,例如谷歌的 MobileNet。


wav2letter@anywhere 是在 Pythia 图像和语言模型框架、wav2vec 在线语音识别和RoBERTa等新方法发布之后推出的(RoBERTa 是一款基于谷歌 BERT 的模型,在 2019 年夏天 GLUE benchmark 排行榜上,RoBERTa 攀升至第一位,但此后已跌至八位)。


wav2lette 项目地址:


https://github.com/facebookresearch/wav2letter


RoBERTa 项目地址:


https://github.com/brightmart/roberta_zh


原文链接:


https://venturebeat.com/2020/01/13/facebook-releases-low-latency-online-speech-recognition-framework/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-01-14 16:573068

评论

发布
暂无评论
发现更多内容

速度收藏!TiDB 读、写性能慢问题排查思路汇总

TiDB 社区干货传送门

管理与运维

TiDB 性能分析工具——PProf

TiDB 社区干货传送门

TiDB 底层架构

TiDB 多Socket 服务器性能扩展问题分析-续

TiDB 社区干货传送门

性能调优 性能测评

TiDB 在金融场景里面那些不得不说的事

TiDB 社区干货传送门

TiDB SQL 优化案例几则

TiDB 社区干货传送门

【TiDB 最佳实践系列】HAProxy

TiDB 社区干货传送门

实践案例

以TiDB热点问题来谈Region的调度流程

TiDB 社区干货传送门

实践案例

HTAP 会成为数据库的未来吗?

TiDB 社区干货传送门

猜一猜 TiDB 4.0 GA 第一个上线用户花落谁家?有惊喜!

TiDB 社区干货传送门

TiFlash5.0.1与4.0.10 对比测试

TiDB 社区干货传送门

版本测评

TIDB--不容易发现的 lightning tidb-backend 模式导入优化

TiDB 社区干货传送门

迁移 性能调优 TiDB 底层架构 管理与运维 性能测评

【优质技术文章推荐】TiDB for PostgreSQL—牛刀小试

TiDB 社区干货传送门

实践案例

TiDB v5.1 体验: 我用 TiDB 训练了一个机器学习模型

TiDB 社区干货传送门

TiDB-4.0.0-rc-性能测试

TiDB 社区干货传送门

TiDB in Action 开源电子书

TiDB 社区干货传送门

一栈式 X 规模化 X 多元化:PingCAP 马晓宇谈 TiDB HTAP 演进之路

TiDB 社区干货传送门

内容主数据 TiDB 集群写入热点优化实践

TiDB 社区干货传送门

解决方案之:DM relay 处理单元报错

TiDB 社区干货传送门

TiDB 与 Flink 联合发布实时数仓最佳实践白皮书

TiDB 社区干货传送门

TiDB 在小米的落地及云原生探索

TiDB 社区干货传送门

记一次使用TiUP半自动升级TiDB集群经验

TiDB 社区干货传送门

版本升级

隐藏esc坑之jbd2进程io占用奇高 系统长期io占用100%

TiDB 社区干货传送门

故障排查/诊断

TiDB 升级到5.1.1 的性能表现

TiDB 社区干货传送门

TiDB 在茄子科技的应用实践及演进

TiDB 社区干货传送门

实践案例

记一场DM同步引发的Auto_Increment主键冲突漫谈

TiDB 社区干货传送门

故障排查/诊断

如何分析和解决 TiDB 4.0 的写热点问题

TiDB 社区干货传送门

【理财实践】 开科唯识-互联网理财为什么会选TiDB

TiDB 社区干货传送门

TiUP升级TiFlash重启失败解决方案

TiDB 社区干货传送门

insert引发的TiDB hang死血案(案情一)

TiDB 社区干货传送门

故障排查/诊断

TiDB升级、TiFlash测试及对比ClickHouse

TiDB 社区干货传送门

体验升级至4.0

TiDB 社区干货传送门

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低_文化 & 方法_KHARI JOHNSON_InfoQ精选文章