阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

苹果公司透露 Siri 新发音引擎的内部原理

  • 2017-09-12
  • 本文字数:736 字

    阅读完需:约 2 分钟

苹果公司透露了他们通过深度学习让 Siri 的发音更加自然的内幕。

iPhone 用户使用自然语言向 Siri 提问,Siri 也通过语音回答问题。Siri 可以使用 21 种语言回答问题,遍布全球 36 个国家。在 2017 年 WWDC 大会上,苹果宣布了 iOS 11 上的 Siri 将使用最新的文本语音引擎。2017 年 8 月,苹果的机器学习期刊透露了他们是如何让Siri 的发音更加自然的。

iPhone 上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素:音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧系统只有几种录音,音素的来源很有限,所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

每一台 iOS 设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性:声音频谱的音高和音长。一个经过训练的“深度混合密度网络(deep mixture density network)”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。

在通过“Viterbi”算法从数据库里找到需要的数据后,系统会选出最佳的音素组合,把它们拼接起来,然后播放出声音。

另一种方式是生成声波,而不是拼接预录的声音。2016 年 9 月, Alphabets Deepmind 发布了 WaveNet 引擎,可以基于电脑生成文本语音。它的不足是速度很慢,就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以,Siri 不会在短时间使用合成语音代替录制语音。

查看英文原文: Apple Reveals the Inner Workings of Siri’s New Intonation

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2017-09-12 19:002080
用户头像

发布了 322 篇内容, 共 134.2 次阅读, 收获喜欢 144 次。

关注

评论

发布
暂无评论
发现更多内容

Prometheus HTTP API 查询(六)Prometheus Server 状态和 TSDB 状态

耳东@Erdong

Prometheus PromQL HTTP API 11月日更

接口调用的链路

卢卡多多

接口 11月日更

12 K8S之应用容器及Pod资源

穿过生命散发芬芳

k8s 11月日更

当一名科技女性,决定不再做月亮

脑极体

C++ 动态新闻推送 第34期

很水

无AI的五子棋Vue项目

空城机

JavaScript typescript 大前端 11月日更

数据库自增ID用完了会怎样

喵叔

11月日更

🏆【Alibaba中间件技术系列】「RocketMQ技术专题」帮你梳理RocketMQ或Kafka的选择理由以及二者PK

洛神灬殇

kafka RocketMQ 消息队列 11月日更

详解低延时高音质:回声消除与降噪篇

声网

回声消除 音频体验 RTE技术详解

区块链之共识算法系列——PoW(二)

Regan Yue

区块链 11月日更 趣讲区块链

sonar 使用常见问题总结

liuzhen007

11月日更

【Promise 源码学习】第五篇 - 实现 Promise 对异步操作的支持

Brave

源码 Promise 11月日更

C++ 动态新闻推送 第33期

很水

互联网大厂考点(阿里+百度+腾讯+字节跳动+美团+京东)

Java高级开发

Java 程序员 架构 面试 大厂

鸿蒙的绿野仙踪

脑极体

Alibaba Druid 源码阅读(一) 数据库连接池初步

数据库

Alibaba Druid 源码阅读(四) 数据库连接池中连接获取探索

数据库

C++ 动态新闻推送 第36期

很水

c++

Alibaba Druid 源码阅读(二) 数据库连接池实现初步探索

数据库

C++ 动态新闻推送 第35期

很水

C++ 动态新闻推送 第37期

很水

c++

浏览器存储之 localStorage 和 cookie

devpoint

Cookie LocalStorage sessionStorage 11月日更

GrowingIO Design 图标库:从原理到实现

GrowingIO技术专栏

SVG 图标库 Sprites Icon Font GrowingIO Design

四大研究成果入选 百度安全在Black Hat Europe 2021再创历史

百度安全

应用安全 百度安全 Black Hat 漏洞利用 恶意软件

Alibaba Druid 源码阅读(五)数据库连接池 连接关闭探索

数据库

模块三-学生管理系统架构设计文档

迪马

区块链符号理论:符号方案和符号系统

CECBC

阿里灵杰产品全面拥抱云原生,双11优惠让企业体会上云便利

阿里云大数据AI技术

大数据 AI 云原生 阿里灵杰

研发提效:通过设计稿自动生成前端代码。

石云升

大前端 自动生成 11月日更 研发提效

Alibaba Druid 源码阅读(三) 数据库连接池初始化探索

数据库

Go语言,面试官问我go逃逸场景有哪些,我???

微客鸟窝

Go 语言 11月日更

苹果公司透露Siri新发音引擎的内部原理_Apple_Roland Meertens_InfoQ精选文章