【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

Facebook 开源低延迟在线自动语音识别框架:速度更快,错误率更低

  • 2020-01-14
  • 本文字数:1020 字

    阅读完需:约 3 分钟

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低

Facebook 人工智能研究院(FAIR)于当地时间 1 月 13 日表示,已经开源了基于深度学习的推理框架 wav2letter @ anywhere,该框架可在云或嵌入式边缘环境中快速实现在线自动语音识别。Wav2letter @ anywhere 是由 wav2letter 和 wav2letter ++这两个基于神经网络的语言模型构建的,在 2018 年 12 月发布时,Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统


自动语音识别(ASR)可将语音转换为文本,然后推断出说话者的意图从而执行任务。wav2letter++存储库在 GitHub 上提供的 API 支持并发音频流和广泛使用的深度学习语音识别模型,如卷积神经网络(CNN)或递归神经网络(RNN),可以满足在线 ASR 所需的规模。



据纽约市实验室和 Menlo Park 总部的 8 名 Facebook 人工智能研究院研究员上周发布的一篇文章显示,Wav2letter@anywhere 的单词错误率优于由双向 LSTM RNNs 构成的两个基线模型。双向 LSTM RNNs 是目前被广泛使用的控制延迟的方法。


研究人员称:“该系统的吞吐量几乎是调整好的混合 ASR 基准的三倍,同时系统的延迟和错字率都更低。” “延迟控制双向 LSTM 通常用于在线语音识别,将未来 context 与卷积结合在一起可产生更准确、延迟更低的模型。我们发现 TDS 卷积可以在有限的未来 context 下维持较低的 WER。”



去年秋季,Facebook 在 2019 年 Interspeech 上提出了一个降低延迟并在 LibriSpeech(LibriSpeech 是一个收录了 1000 小时英语语音的数据集)上表现出优越性能的方法,该方法被称之为“时深可分离卷积(TBS)”。由于卷积声学模型——时深可分离卷积(TBS)模型的改善,低延迟取得有了一定进步。


用于语音推理的 CNN 和自然语言模型趋势相去甚远,自然语言模型更加聚焦递归神经网络或者像Google基于BERT的双向编码器这种基于 Transformer 的模型,或者追求更好的性能。可分离模型因其在计算机视觉领域的诸多应用而最闻名,例如谷歌的 MobileNet。


wav2letter@anywhere 是在 Pythia 图像和语言模型框架、wav2vec 在线语音识别和RoBERTa等新方法发布之后推出的(RoBERTa 是一款基于谷歌 BERT 的模型,在 2019 年夏天 GLUE benchmark 排行榜上,RoBERTa 攀升至第一位,但此后已跌至八位)。


wav2lette 项目地址:


https://github.com/facebookresearch/wav2letter


RoBERTa 项目地址:


https://github.com/brightmart/roberta_zh


原文链接:


https://venturebeat.com/2020/01/13/facebook-releases-low-latency-online-speech-recognition-framework/


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-01-14 16:573057

评论

发布
暂无评论
发现更多内容

实力认证!星汉未来正式加入中国通信企业协会

星汉未来

云原生 k8s 星汉未来 中国通信企业协会

有数大数据基础平台之智能运维平台EasyEagle介绍:集群队列篇

网易数帆

大数据 数据智能 数据基础设施

小海豚“变身”全新智能调度引擎,深入浅出在DDS的实践开发应用

Apache DolphinScheduler

大数据 工作流调度 调度任务 分布式调度引擎 大数据调度

如何为您的企业设置内部Wiki?

Geek_da0866

时代潮头,华为将风帆对准数字金融的风与海

脑极体

冲刺金九银十!熬夜爆肝半个月汇集大厂Java岗1600道面试真题

了不起的程序猿

Java java程序员 java面试 java编程

wallys/PD-60 802.3AT Input Output 802.3AT/AT 85% Efficiency 10/100/1000M GE Surge Protection

wallys-wifi6

MT7915/MT7975/IPQ6000

Gpushare.com | 如何使用TensorBoardX可视化工具?

恒源云

深度学习 PyTorch tensorboard GPU算力

AWS使用EC2降低DeepRacer的训练成本DeepRacer-for-cloud的实践操作

指剑

AWS Amazon EC2 deepracer

硕果累累,再获认可!「报告、标准、评测」洞见科技走在前沿

洞见科技

隐私计算

软件调优方法有哪些?看看飞腾技术专家怎么说 | 龙蜥技术

OpenAnolis小助手

cpu io 服务器 龙蜥大讲堂 飞腾

离开大厂,一周965+远程工作报告

无人之路

大厂 内卷 955 远程 WLB

如何编写您的常见问题页面?

Geek_da0866

二进制SCA指纹提取黑科技:Go语言逆向技术

华为云开发者联盟

云计算 安全 后端

建立的知识库的7个步骤

Geek_da0866

禅道项目管理软件的甘特图功能介绍

禅道项目管理

项目管理 甘特图 项目管理软件 禅道

Dao智能合约Dapp系统开发技术

薇電13242772558

智能合约 dapp DAO

Flink数据源拆解分析(WikipediaEditsSource)

程序员欣宸

Java flink 7月月更

如何高效的学习掌握新技术

程序员海军

高效率 7月月更

3步就能制作漫画头像的机器人,想拥有一个吗?

华为云开发者联盟

人工智能 动漫

区块链开发:如何从 Solidity 智能合约中发送和取款

devpoint

区块链 Solidity 7月月更

快速支持客户知识库的核心优势是什么?

Geek_da0866

NFTScan 与 Atem Network 在 NFT 数据领域达成战略合作

NFT Research

NFT NFTScan

创建企业wiki,你需要知道这些

Geek_da0866

构建知识库时,如何避免最常见的几个错误?

Geek_da0866

AIRIOT答疑第5期|如何使用低代码业务流引擎?

AIRIOT

物联网

聊聊并发编程的12种业务场景

C++后台开发

并发编程 网络编程 后端开发 C++后台开发 C++开发

中移链(基于EOS)测试环境搭建

BSN研习社

华为云AI院长峰会在黔举行 推动人工智能产学研创新发展

Geek_2d6073

乘势而上,OceanBase推动数字支付精益增长

OceanBase 数据库

为什么知识库很重要?这是我听过最好的答案

Geek_da0866

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低_文化 & 方法_KHARI JOHNSON_InfoQ精选文章