AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

苹果公司透露 Siri 新发音引擎的内部原理

  • 2017-09-12
  • 本文字数:736 字

    阅读完需:约 2 分钟

苹果公司透露了他们通过深度学习让 Siri 的发音更加自然的内幕。

iPhone 用户使用自然语言向 Siri 提问,Siri 也通过语音回答问题。Siri 可以使用 21 种语言回答问题,遍布全球 36 个国家。在 2017 年 WWDC 大会上,苹果宣布了 iOS 11 上的 Siri 将使用最新的文本语音引擎。2017 年 8 月,苹果的机器学习期刊透露了他们是如何让Siri 的发音更加自然的。

iPhone 上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素:音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧系统只有几种录音,音素的来源很有限,所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

每一台 iOS 设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性:声音频谱的音高和音长。一个经过训练的“深度混合密度网络(deep mixture density network)”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。

在通过“Viterbi”算法从数据库里找到需要的数据后,系统会选出最佳的音素组合,把它们拼接起来,然后播放出声音。

另一种方式是生成声波,而不是拼接预录的声音。2016 年 9 月, Alphabets Deepmind 发布了 WaveNet 引擎,可以基于电脑生成文本语音。它的不足是速度很慢,就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以,Siri 不会在短时间使用合成语音代替录制语音。

查看英文原文: Apple Reveals the Inner Workings of Siri’s New Intonation

2017-09-12 19:002464
用户头像

发布了 322 篇内容, 共 147.9 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

网络攻防学习笔记 Day94

穿过生命散发芬芳

网络攻防 8月日更

Windows10下JDK8下载及java环境配置

Bob

8月日更

为什么需要数据库连接池

赖猫

MySQL 数据库 后端 连接池

在线网页快捷方式创建工具

入门小站

工具

DDD领域驱动设计·学习应用·一

小诚信驿站

领域驱动设计 领域驱动模型DDD 中台架构 领域驱动

弱口令到底是什么牛马?

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

03 设计模式之工厂模式

陈皮的JavaLib

Java 面试 设计模式 工厂模式 8月日更

奥运“哮喘”运动员为什么越来越多?

脑极体

第一次凡尔赛,字节跳动3面+腾讯6面一次过,谈谈我的大厂面经

编程菌

Java 编程 程序员 面试 计算机

缓存数据历险记(一)--被缓存警察上课一天

卢卡多多

redis 缓存 8月日更

2021Java岗面试题知识点小结

Geek_f90455

Java 程序员 后端

SpringBoot 中的事务处理

xcbeyond

事务 springboot 8月日更

我测了啊,我真测了!

QualityFocus

测试 质量保障 线上问题 缺陷

Elasticsearch VS ClickHouse

Se7en

JDK 从8升级到11,使用 G1 GC,HBase 性能下降近20%。JDK 到底干了什么?

毕昇JDK社区

Hbase 入门详解

Se7en

2020-2021京东Java面试真题解析

Geek_f90455

Java 程序员 后端

2020-2021阿里巴巴Java面试真题解析

Geek_f90455

Java 程序员 后端

Druid 通过 dsql 的服务器连接参数如何配置

HoneyMoose

各种消息队列设计要点与对比

海明菌

消息队列 消息队列对比 消息队列系统设计

趁着课余时间学点python(二)缩进 标识符 保留字 注释 输入输出的理解

ベ布小禅

8月日更

Linux之watch命令

入门小站

Linux

黄金圈法则解读数据中台(1):为什么需要数据中台

水滴

数据中台 黄金圈法则 8月日更

Vue组件通信之ref

Augus

8月日更

2021Java不死我不倒

Geek_f90455

Java 程序员 后端

关于 go run 命令执行过程中的“坑坑点点”

liuzhen007

8月日更

12年高级工程师的“飞升之路”

Geek_f90455

Java 程序员 后端

2020-2021华为Java面试真题

Geek_f90455

Java 程序员 后端

Druid 通过 dsql 进行查询

HoneyMoose

2021Java开发现状分析

Geek_f90455

Java 程序员 后端

停下来读读书

箭上有毒

生活随想 8月日更

苹果公司透露Siri新发音引擎的内部原理_Apple_Roland Meertens_InfoQ精选文章