NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Mozilla “Common Voice” 开源语音识别项目

  • 2017-07-31
  • 本文字数:654 字

    阅读完需:约 2 分钟

语音识别技术可能会彻底改变我们与机器的交互方式,但通常技术开发代价昂贵,而且有专利上的使用限制。大多数语音识别技术都被封锁在少数的大公司内。Mozilla 认为这样会阻碍创新,因此它发起了“Common Voice”这一开源语音识别项目。

在“Common Voice”项目中,你可以捐献语音到一个大型数据库里,这些语音会被用于构建开源的语音识别引擎,任何人都可以访问这些数据从而轻松又快速地训练基于语音的应用程序。通过“Common Voice”,程序员们可以开发很多有趣的应用程序,如实时语音翻译、基于语音的管理助手等等。用户也可以帮助验证语音,根据显示的文本判断听到的语音是否正确,该判断结果也会被用于改进语音识别模型。

Mozilla 计划从 2017 年六月份开始收集总时长约 10,000 个小时的语音(这是训练一个语音文本转换系统所需要的数据量),之后会开源语音数据库。目前的源文本来自人们的捐献,以及一些公开的电影剧本,如电影“风云人物”(It’s a Wonderful Life)。考虑到实际生活中人们的语音变化多样,Mozilla 希望能收集到多样化的语音,让语音识别引擎能够准确无误地处理不同场景下的语音,比如带有背景对话声、汽车噪音、风扇噪音的场景。在将来,Mozilla 有可能会将该语音识别引擎集成到 Firefox 中。

该项目在 Github 上的链接: https://github.com/mozilla/voice-web

查看英文原文: Project Common Voice


感谢蔡芳芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-07-31 19:008483
用户头像

发布了 21 篇内容, 共 89027 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

数字化转型与架构-架构设计篇|建模之数据模型

数字随行

数字化转型

01.崩溃捕获设计实践方案

杨充

响应式编程——初识 Flux 和 Mono

java易二三

Java 程序员 计算机 程序

深入解析CMS垃圾回收器

Java随想录

Java JVM

活动回顾丨阿里云 Serverless 技术实践营 Serverless+AI 专场

阿里巴巴云原生

阿里云 Serverless AI 云原生

Apache RocketMQ 5.0 消息进阶:如何支撑复杂的业务消息场景?

阿里巴巴云原生

Apache 阿里云 RocketMQ 云原生

SRE方法论之减少琐事

不思jo

SRE 运维‘ #运维

最强远程管理 Royal TSX for Mac激活+补丁教程

胖墩儿不胖y

远程办公 远程软件 Mac软件 远程工具

美团 Flink 资源调度优化实践

Apache Flink

大数据 flink 实时计算

快速测试Mybatis复杂sql,无需启动spring

java易二三

Java 编程 程序员 计算机 科技

深入解析G1垃圾回收器

Java随想录

Java JVM

深入解析ZGC垃圾回收器

Java随想录

Java JVM

百度垂类离线计算系统发展历程

百度Geek说

数据处理 计算引擎 架构优化 企业号 8 月 PK 榜 搜索架构

活动回顾丨云原生技术实践营长沙站(含 PPT)

阿里巴巴云原生

阿里云 云原生

WebGpu VS WebGL

3D建模设计

WebGL webgpu

如何实现AI的矢量数据库

3D建模设计

人工智能 机器学习 AI

Programming abstractions in C阅读笔记:p132-p137

codists

对线面试官 - MQ之如何保证消息的顺序性及消息积压问题

派大星

MQ Java 面试题

​ iOS加固保护新思路

iOS 架构RxSwift 重签名

数智化转型背景下的火山引擎大数据技术揭秘

字节跳动数据平台

数据库 大数据 数字化建设 企业号 8 月 PK 榜

生成式AI浪潮下,那些不可忽视的安全问题

网安云

AI安全 系统安全 开源治理 软件系统安全

IPQ4019 IPQ4029 IPQ6010|IIOT|5G and WiFi 6:Application in Business and Industry

wallyslilly

IPQ4019 IPQ6010 ipq4029

R语言之基础绘图

timerring

R 语言

可观测系统实践:基于海量数据的采集优化方案

博文视点Broadview

量化交易策略系统搭建,合约跟单交易系统软件开发

V\TG【ch3nguang】

量化交易系统开发 合约跟单

802.11be-IPQ9574+IPQ9554 802.11ax-IPQ8074+IPQ8072 Support 8 data streams in 4 frequency bands, with a peak rate of 16Gbps

wifi6-yiyi

802.11AX 802.11be

Mozilla “Common Voice” 开源语音识别项目_Mozilla_CarolGuo_InfoQ精选文章