【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

OpenAI 宣布开源多语言语音识别系统 Whisper,英文识别能力接近人类水平

  • 2022-09-23
    北京
  • 本文字数:720 字

    阅读完需:约 2 分钟

OpenAI宣布开源多语言语音识别系统Whisper,英文识别能力接近人类水平

9 月 21 日,OpenAI宣布,已经训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别方面接近人类水平的鲁棒性和准确性。


Whisper 是一个自动语音识别 (ASR) 系统,它使用从网络上收集的 680,000 小时多语言和多任务监督数据进行训练。使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。


OpenAI 开源了模型和推理代码,以作为构建有用应用程序和进一步研究稳健语音处理的基础。


查看论文:https://cdn.openai.com/papers/whisper.pdf

开源代码:https://github.com/openai/whisper

查看模型卡:https://github.com/openai/whisper/blob/main/model-card.md



Whisper 架构是一种简单的端到端方法,实现为编码器-解码器 Transformer。输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。解码器被训练来预测相应的文本标题,并与特殊标记混合,这些标记指导单个模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。



其他现有的方法经常使用更小、更紧密配对的音频-文本训练数据集,或使用广泛但无监督的音频预训练。因为 Whisper 是在一个庞大而多样的数据集上训练的,没有针对任何特定数据进行微调,所以它无法击败专门研究 LibriSpeech 性能的模型,这是语音识别领域一个著名的竞争基准。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更健壮,并且错误率降低了 50%。


Whisper 的音频数据集中大约有三分之一是非英语的,它被轮流分配任务,将原始语言转录或翻译成英语。并且优于 CoVoST2 到英语翻译零样本的监督 SOTA。



Whisper 的高精度和易用性能够让开发者将语音界面添加到更广泛的应用程序中。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-09-23 17:206835
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.6 次阅读, 收获喜欢 1967 次。

关注

评论

发布
暂无评论
发现更多内容

下一代对话系统中的关键技术

硬科技星球

区块链中的共识机制简介

中原银行

区块链 中原银行

模块1 作业

KennyQ

一张图看懂全球最新DDoS攻击趋势

科技热闻

阿里云智能编码插件,Cosy文档搜索上新了

阿里云云效

阿里云 代码管理 代码库 阿里云智能编码插件 Cosy

《2021年IT行业项目管理调查报告》重磅发布!

禅道项目管理

项目管理 DevOps 加班

《中国金融科技与数字普惠金融发展报告(2022)》发布 十大趋势研判未来行业发展

WorkPlus

【征文大赛】TiDB 社区专栏第一届征文大赛,快来一次性集齐所有周边吧!

TiDB 社区干货传送门

企业怎么制作帮助文档

小炮

企业 帮助文档

Apache Shiro Realm实战及认证授权源码解读

编程江湖

Linux内核权限提升漏洞

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

基于Prometheus的企业级监控体系探索与实践

中原银行

分布式 微服务 云原生 Prometheus 中原银行

AI工具-标注工具labelme

AIWeker

人工智能 标注工具

AI目标检测概要

AIWeker

人工智能 目标检测

低代码实现探索(三十九)组件库的开发

零道云-混合式低代码平台

Apache Flink 在翼支付的实践应用

Apache Flink

大数据 flink 编程 流计算 实时计算

AI观点说-关于深度学习的一点思考

AIWeker

人工智能 深度学习

从2018到2022: 一个大数据工程师眼中的TiDB

TiDB 社区干货传送门

将 AWS S3 数据迁移至 TiDB Cloud 集群

TiDB 社区干货传送门

【技术干货分享】一文了解Nginx反向代理与conf原理

Linux服务器开发

nginx 负载均衡 反向代理 后端开发 Linux服务器开发

协同·转型·智慧,WorkPlus移动平台帮助企业走好数字化转型之路

WorkPlus

优酷播放黑科技 | 自由视角技术的全链路策略与落地实践

阿里巴巴终端技术

客户端 音视频技术 视频技术

私有化部署是什么意思?企业私有化部署的几种类型和利弊分析

WorkPlus

浅谈外挂常识和如何防御

行者AI

数字化转型-基本认知

Geek_XOXO

数字化转型

分布式事务揭秘

中原银行

分布式 分布式事务 云原生 中原银行

Flink CDC 2.2 正式发布,新增四种数据源,支持动态加表,提供增量快照框架

Apache Flink

大数据 flink 编程 流计算 实时计算

深度确定性策略梯度(DDPG)

行者AI

国产化浪潮下TiDB解决的痛点问题

TiDB 社区干货传送门

关于在hive任务中number of reducers的探讨

编程江湖

一文简述:云端架构的演变过程

穿过生命散发芬芳

3月月更

OpenAI宣布开源多语言语音识别系统Whisper,英文识别能力接近人类水平_AI&大模型_刘燕_InfoQ精选文章