写点什么

苹果公司透露 Siri 新发音引擎的内部原理

  • 2017-09-12
  • 本文字数:736 字

    阅读完需:约 2 分钟

苹果公司透露了他们通过深度学习让 Siri 的发音更加自然的内幕。

iPhone 用户使用自然语言向 Siri 提问,Siri 也通过语音回答问题。Siri 可以使用 21 种语言回答问题,遍布全球 36 个国家。在 2017 年 WWDC 大会上,苹果宣布了 iOS 11 上的 Siri 将使用最新的文本语音引擎。2017 年 8 月,苹果的机器学习期刊透露了他们是如何让Siri 的发音更加自然的。

iPhone 上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素:音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧系统只有几种录音,音素的来源很有限,所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

每一台 iOS 设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性:声音频谱的音高和音长。一个经过训练的“深度混合密度网络(deep mixture density network)”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。

在通过“Viterbi”算法从数据库里找到需要的数据后,系统会选出最佳的音素组合,把它们拼接起来,然后播放出声音。

另一种方式是生成声波,而不是拼接预录的声音。2016 年 9 月, Alphabets Deepmind 发布了 WaveNet 引擎,可以基于电脑生成文本语音。它的不足是速度很慢,就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以,Siri 不会在短时间使用合成语音代替录制语音。

查看英文原文: Apple Reveals the Inner Workings of Siri’s New Intonation

2017-09-12 19:002534
用户头像

发布了 322 篇内容, 共 150.3 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

架构师训练营 - 第 6 周命题作业

红了哟

计算机网络基础(六)---网络层-网络地址转换NAT技术

书旅

laravel 计算机网络 网络协议 计算机基础 NAT

Prometheus 删除指定 Metric

耳东@Erdong

Prometheus metrics

Go: 通过例子学习 Map 的设计 — Part I

陈思敏捷

map Go 语言

架构师训练营 - 第 6 周学习总结

红了哟

Vagrant 创建多台主机

FeiLong

vagrant 虚拟机

思想无语言边界:以cglib介绍AOP在java的一个实现方式

八苦-瞿昙

随笔 随笔杂谈 aop

redis系列之——事物及乐观锁

诸葛小猿

redis 乐观锁 事物 原子性 隔离性

我关闭了微信朋友圈广告!

诸葛小猿

广告 微信朋友圈 关闭

发布一本用 GitBook 编辑的书

耳东@Erdong

git gitbook

Windows Sandbox应用

Dare Devor

容器 Sandbox 虚拟化

JDK1.8新特性(二):为什么要关注JDK1.8

xcbeyond

新特性 JDK1.8 JDK1.8新特性

架构师训练营第七周作业

张明森

web 性能压测工具类

jason

多问为什么

声远

技术 沟通 软件开发流程

盘点本周区块链国内大事件

CECBC

从推特被黑看安全木桶效应

石君

安全设计 安全事件

用 GitBook 创建一本书

耳东@Erdong

git markdown gitbook

架构师课程第七周 作业

杉松壁

运行 client-go 测试用例.md

FeiLong

Kubernetes

ARTS打卡-07

Geek_yansheng25

Golang实现结构体数组按多字段排序

卓丁

多字段排序 结构体多字段排序 Go 语言

Java中生成随机数的不同方法

wjchenge

谈谈你是如何理解JS异步编程的,EventLoop、消息队列都是做什么 ,什么是宏任务,什么是微任务?

GKNick

关于性能优化的总结

罗亮

第七章作业

小胖子

架构师训练营第七周学习总结

张明森

JDK1.8新特性(三):Lambda表达式,让你爱不释手

xcbeyond

Lambda 新特性 JDK1.8 JDK1.8新特性

罪羊树——暴力也是种优雅

烫烫烫个喵啊

算法 二叉树 替罪羊 平衡二叉树

道德的神

多选参数

故事

架构师训练营第七周作业--web压测工具

CATTY

苹果公司透露Siri新发音引擎的内部原理_Apple_Roland Meertens_InfoQ精选文章