AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

OpenAI 宣布开源多语言语音识别系统 Whisper,英文识别能力接近人类水平

  • 2022-09-23
    北京
  • 本文字数:720 字

    阅读完需:约 2 分钟

OpenAI宣布开源多语言语音识别系统Whisper,英文识别能力接近人类水平

9 月 21 日,OpenAI宣布,已经训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别方面接近人类水平的鲁棒性和准确性。


Whisper 是一个自动语音识别 (ASR) 系统,它使用从网络上收集的 680,000 小时多语言和多任务监督数据进行训练。使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。


OpenAI 开源了模型和推理代码,以作为构建有用应用程序和进一步研究稳健语音处理的基础。


查看论文:https://cdn.openai.com/papers/whisper.pdf

开源代码:https://github.com/openai/whisper

查看模型卡:https://github.com/openai/whisper/blob/main/model-card.md



Whisper 架构是一种简单的端到端方法,实现为编码器-解码器 Transformer。输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。解码器被训练来预测相应的文本标题,并与特殊标记混合,这些标记指导单个模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。



其他现有的方法经常使用更小、更紧密配对的音频-文本训练数据集,或使用广泛但无监督的音频预训练。因为 Whisper 是在一个庞大而多样的数据集上训练的,没有针对任何特定数据进行微调,所以它无法击败专门研究 LibriSpeech 性能的模型,这是语音识别领域一个著名的竞争基准。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更健壮,并且错误率降低了 50%。


Whisper 的音频数据集中大约有三分之一是非英语的,它被轮流分配任务,将原始语言转录或翻译成英语。并且优于 CoVoST2 到英语翻译零样本的监督 SOTA。



Whisper 的高精度和易用性能够让开发者将语音界面添加到更广泛的应用程序中。

2022-09-23 17:208316
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 560.3 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

Windows AD日志分析告警平台—WatchAD安装教程

BigYoung

监控 windows 日志 AD 告警

安卓移动应用代码安全加固系统设计及实现

几维安全

android 安全评估 移动应用安全

微软看上的Rust 语言,安全性真的很可靠吗

华为云开发者联盟

数据库 开源 rust 安全 代码

工业互联网网络安全渗透测试技术研究

几维安全

网络安全 数据安全;工业互联网 移动应用安全 渗透测试

巴黎世家土味病毒营销,B端创业初期,如何用营销壮大种子用户?

北柯

创业 营销 tob

HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局

Geek_8dbdc1

Spark优化之小文件是否需要合并?

华为云开发者联盟

spark 数据 cpu 内存 Spark调优

架构师训练营 第 10 周 作业&总结

Jam

致远互联A6+Cloud C位出道 赋能中小企业乘风破浪

爱极客侠

拼多多员工曝离职黑幕:要走可以,要离职证明,没有!

程序员生活志

职场 互联网公司

HTML5CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第10章有路网PC端主页实战整合

Geek_8dbdc1

面经手册 · 第4篇《HashMap数据插入、查找、删除、遍历,源码分析》

小傅哥

Java 小傅哥 hashmap 面经 红黑树

Week10作业1

熊威

云图说丨手把手教你为容器应用配置弹性伸缩策略

华为云开发者联盟

Docker 云计算 Kubernetes 容器

神经网络的学习为何要设定损失函数?

wangkx

神经网络 学习 损失函数

核心稳定、易扩展——开放关闭原则(The Open-Closed Principle)

晃来晃去的萨麦尔

编程习惯 架构分析 软件设计原则

SpringBoot 系列(一):SpringBoot项目搭建

xcbeyond

Java 微服务 springboot

HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第9章FlexBox实战有路网

Geek_8dbdc1

libuv 异步网络编程之 TCP 源码分析

Huayra

网络编程 libuv libuv 源码分析

怎么写一个超棒的 README 文档

程序员生活志

经验总结 文档

智能汽车安全风险及防护技术分析

几维安全

移动应用安全

有限数据量如何最大化提升模型效果?百度工程师构建数据增强服务

百度大脑

人工智能 数据 模型训练 百度大脑

看前谷歌工程师是如何副业赚钱的?

非著名程序员

程序员 个人成长 副业赚钱 提升认知

Django中的session的使用

BigYoung

django session Cookie

微服务框架 Dubbo

莫莫大人

极客大学架构师训练营

Week10总结

熊威

React TypeScript 项目基本构建2

JackWangGeek

React

HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第11章有路网移动端主页实战

Geek_8dbdc1

《深度工作》学习笔记(6)

石云升

读书笔记 专注 深度工作

超市趣味游戏关卡设计

孙志平

肯耐珂萨D1轮融资资方阵营揭晓,跟投方为中南资本、青发集团

人称T客

OpenAI宣布开源多语言语音识别系统Whisper,英文识别能力接近人类水平_AI&大模型_刘燕_InfoQ精选文章