【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

Google 发布语音指令数据集

  • 2017-08-28
  • 本文字数:656 字

    阅读完需:约 2 分钟

深度学习在语音识别方面的使用方兴未艾,但是可用的训练数据集却不多见。虽然 Kaldi 这种软件可以使用神经网络进行训练,但是复杂的操作吓退了很多小白。Google 认识到,互联网上没有可供入门者快速入门深度学习的语言数据集,所以他们开源了语音指令数据集

TensorFlow AIY 团队开源的数据集包含 65000 个录音,每个录音时长几秒钟,包含 30 个左右的单词。它们是通过网站采集而来的,参与人数达到了数千人。团队贴心地附上了训练和预测的 TensorFlow 示例代码。数据集基于署名4.0 国际(CC By 4.0)许可发布,Google 表示将继续扩充这个数据集。Google 还指出,这个数据集特别适合新手入门。此外,他们也开源了收集录音的工具

对于想尝鲜的人,Google 制作了一个基于TensorFlow 的 Android 程序。程序会询问获取麦克风权限,随后会给出 10 个单词,程序将高亮显示已经被你读过的单词。

这个例子的效果和数据集有很大的关系,有可能不尽如人意,毕竟商业语言识别系统比这个复杂的多。Google 希望随着更多的数据加入,模型的识别效果会日趋完善。

使用 TensorFlow 进行语言识别的教程可以在这里找到。使用最新版本的TensorFlow 和主流配置,模型训练只需要几个小时。对神经网络进行微调可以解决不同的问题,例如不同的响应时间、大小,以及在不同平台上的准确度取舍问题。

查看英文原文: Launching the Speech Commands Dataset


感谢薛命灯对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-08-28 19:002439

评论

发布
暂无评论
发现更多内容

想要入职阿里P6?最少啃完这本500页Java并发多线程源码笔记

Java 编程 面试 多线程 阿里

让 Serverless 应用开发更简单,Serverless Devs 2.0 全新发布

Serverless Devs

开源 Serverless

大公司运维监控怎么做?从哪些方面考虑?

行云管家

云计算 运维 运维监控 运维审计 数据监控

阿里官方保姆级Java技术图谱发布!够学到春节了,赶紧收藏!

Java 面试 阿里 大厂 金九银十

Elasticsearch 原理解析(介绍)

ZzC🍖

搜索引擎 elasticsearch

如何给技术部员工做考核?

石云升

团队管理 管理 引航计划 内容合集 9月日更

被面试官问懵:TCP 四次挥手收到乱序的 FIN 包会如何处理?

华为云开发者联盟

TCP 网络 报文 挥手 FIN

"云智一体"全场景智能视频技术与应用解析白皮书下载申请

百度开发者中心

白皮书 云智一体 智能视频

百度智能云开物工业互联网平台解决方案亮相2021服贸会成果发布会

百度大脑

人工智能 服贸会

会员业务基于Cloud KMS的数据安全应用

爱奇艺技术产品团队

数据安全法 Cloud KMS

交易所刷量机器人定制开发案例(源码搭建)

量化系统19942438797

交易所 做市机器人 自动刷量机器人

京东云金秋上云特惠进行中!扫码参与活动

京东科技开发者

云计算 云主机 大促

iOS 屏幕旋转的实践解析

ZEGO即构

ios 音视频 屏幕旋转

MESI缓存一致性协议

Java 架构 面试 后端

【墨天轮专访第四期】华为云GaussDB苏光牛:发挥生态优势,培养应用型DBA

墨天轮

数据库 华为云 GaussDB

Chrome前端调试技巧分享

华为云数据库小助手

大前端 调试 GaussDB 华为云数据库

联想新IT引擎引领智能化变革,助力“中国力量”更加强大

科技范儿

一周信创舆情观察(8.30~9.5)

统小信uos

了解JDBC层之QueryDSL

邱学喆

QueryDSL SQLQueryFactory

守护油田安全,EMQ X 在石油石化危化品监测管理中的应用

EMQ映云科技

物联网平台 物联网 IoT 边云协同 emq

读了这篇SpringBoot底层原理让我在阿里成功涨薪40%,感谢

Java 编程 面试 涨薪 阿里

面对面小程序开源

OpenIM

阿里后端优化这么恐怖?看完这20W字Java性能实战经验手册,最少P7

Java 阿里巴巴 面试 性能调优 金九银十

亚信科技AntDB数据库国产化进程加速,计费上云再下一城

亚信AntDB数据库

实践案例 9月日更

浪潮云洲发布标识解析数据网关产品

浪潮云

工业互联网

前端技术概览

数据库 大数据 时序数据库 tsdb 数据智能

【SoCC2018论文】DAGOR:微信「大规模微服务过载控制系统」

OpenIM

App 不想被“点名”,mPaaS 隐私合规检测为开发者护航数字生态建设

蚂蚁集团移动开发平台 mPaaS

移动开发 mPaaS 监管合规 隐私安全

Tapdata Real Time DaaS 技术详解 PART I :实时数据同步

tapdata

开源应用中心|动手自建一个超高度自由的个人知识库,原来这么容易!

开源

首场“说透数字化转型专题讲座”将于 9 月 15 日在天津举办

InfoQ 天津

Google发布语音指令数据集_Google_Beining_InfoQ精选文章