写点什么

OpenAI 宣布开源多语言语音识别系统 Whisper,英文识别能力接近人类水平

  • 2022-09-23
    北京
  • 本文字数:720 字

    阅读完需:约 2 分钟

OpenAI宣布开源多语言语音识别系统Whisper,英文识别能力接近人类水平

9 月 21 日,OpenAI宣布,已经训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别方面接近人类水平的鲁棒性和准确性。


Whisper 是一个自动语音识别 (ASR) 系统,它使用从网络上收集的 680,000 小时多语言和多任务监督数据进行训练。使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。


OpenAI 开源了模型和推理代码,以作为构建有用应用程序和进一步研究稳健语音处理的基础。


查看论文:https://cdn.openai.com/papers/whisper.pdf

开源代码:https://github.com/openai/whisper

查看模型卡:https://github.com/openai/whisper/blob/main/model-card.md



Whisper 架构是一种简单的端到端方法,实现为编码器-解码器 Transformer。输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。解码器被训练来预测相应的文本标题,并与特殊标记混合,这些标记指导单个模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。



其他现有的方法经常使用更小、更紧密配对的音频-文本训练数据集,或使用广泛但无监督的音频预训练。因为 Whisper 是在一个庞大而多样的数据集上训练的,没有针对任何特定数据进行微调,所以它无法击败专门研究 LibriSpeech 性能的模型,这是语音识别领域一个著名的竞争基准。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更健壮,并且错误率降低了 50%。


Whisper 的音频数据集中大约有三分之一是非英语的,它被轮流分配任务,将原始语言转录或翻译成英语。并且优于 CoVoST2 到英语翻译零样本的监督 SOTA。



Whisper 的高精度和易用性能够让开发者将语音界面添加到更广泛的应用程序中。

2022-09-23 17:208167
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 544.1 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

7.1性能测试:系统性能的主要技术指标

张荣召

7.4操作系统:计算机如何处理成百上千的并发请求?

张荣召

学习笔记 --week07

张荣召

极客大学 - 架构师训练营 第八周作业

9527

架构师训练营第七周命题作业

一马行千里

极客大学架构师训练营 命题作业

第七周作业

熊桂平

极客大学架构师训练营

第 7 周 听说你有好几个线程

Pyr0man1ac

链表最快的排序方法、Jupyter Notebook安装、Gremlin入门、python3 请求数据、John 易筋 ARTS 打卡 Week 25

John(易筋)

ARTS 打卡计划 链表快速排序 jupyterNotebook python3 请求数据 gremlin 入门

springboot 热部署

hepingfly

Java springboot SpringCloud 热部署

7.2全链路压测的挑战

张荣召

第三周作业-学习总结

jingx

第七周 架构方法学习总结

兵长

架构训练营

第三周-课后练习

jizhi7

架构师训练营 1 期 - 第七周总结(vaik)

行之

极客大学架构师训练营

#链表# #快慢指针#

玉皇大亮

链表 快慢指针

7.3性能优化:系统性能优化的分层思想

张荣召

8张图带你分析Redis与MySQL数据一致性问题

bigsai

MySQL redis 数据一致性

7.6案例:异步并发分布式编程框架akka

张荣召

性能压测

【架构师训练营第 1 期 07 周】 学习总结

Bear

极客大学架构师训练营

目标检测之ASFF

Dreamer

架构师训练营第七周学习总结

文智

极客大学架构师训练营

7.5锁:锁原语CAS

张荣召

架构师训练营第七周作业

文智

极客大学架构师训练营

架构师训练营第七周学习笔记

一马行千里

学习 极客大学架构师训练营

架构师训练营 1 期 - 第七周作业(vaik)

行之

极客大学架构师训练营

第3周作业

伊灵

第七周 性能优化 作业一

应鹏

极客大学架构师训练营

第七周 性能优化 作业二

应鹏

极客大学架构师训练营

与前端训练营的日子--Week02

SamGo

学习

【架构师训练营第 1 期 07 周】 作业

Bear

极客大学架构师训练营

OpenAI宣布开源多语言语音识别系统Whisper,英文识别能力接近人类水平_AI&大模型_刘燕_InfoQ精选文章