写点什么

苹果公司透露 Siri 新发音引擎的内部原理

  • 2017-09-12
  • 本文字数:736 字

    阅读完需:约 2 分钟

苹果公司透露了他们通过深度学习让 Siri 的发音更加自然的内幕。

iPhone 用户使用自然语言向 Siri 提问,Siri 也通过语音回答问题。Siri 可以使用 21 种语言回答问题,遍布全球 36 个国家。在 2017 年 WWDC 大会上,苹果宣布了 iOS 11 上的 Siri 将使用最新的文本语音引擎。2017 年 8 月,苹果的机器学习期刊透露了他们是如何让Siri 的发音更加自然的。

iPhone 上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素:音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧系统只有几种录音,音素的来源很有限,所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

每一台 iOS 设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性:声音频谱的音高和音长。一个经过训练的“深度混合密度网络(deep mixture density network)”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。

在通过“Viterbi”算法从数据库里找到需要的数据后,系统会选出最佳的音素组合,把它们拼接起来,然后播放出声音。

另一种方式是生成声波,而不是拼接预录的声音。2016 年 9 月, Alphabets Deepmind 发布了 WaveNet 引擎,可以基于电脑生成文本语音。它的不足是速度很慢,就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以,Siri 不会在短时间使用合成语音代替录制语音。

查看英文原文: Apple Reveals the Inner Workings of Siri’s New Intonation

2017-09-12 19:002802
用户头像

发布了 322 篇内容, 共 158.2 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

哪里有office2016安装包?office2016下载含激活工具

Rose

office办公套件 office2016

VMware Workstation (VM电脑虚拟机)激活精简版

Rose

VMware Fusion破解版下载 虚拟机安装 VM虚拟机密钥

手把手带你快速上手香橙派AIpro

华为云开发者联盟

人工智能 华为云 昇腾 华为云开发者联盟 AI开发板

英特尔x爱立信:以开放式移动网络加速未来关键领域数字化转型

E科讯

常用的Linux命令;Linux常用命令用法及实现方式

小魏写代码

资深项目管理者教你快速掌握高效沟通的汇报技巧

霍格沃兹测试开发学社

英特尔携手AT&T、德国电信等推动vRAN创新,AI技术提升网络能效

E科讯

Java实战1

thinkers

线程池、Lambda、Java实战

WebSocket 连接保持方法详解

Apifox

程序员 前端 后端 websocket 长连接

【论文精读】| 综述:模糊测试的艺术、科学和工程(下)

云起无垠

photoshop 2021 对显卡的要求 ps2021中文破解版安装包下载

Rose

ps2021破解版 Photoshop 2021 Photoshop 2021要求

App应用程序(概念、开发步骤、技术要点介绍)

天津汇柏科技有限公司

定制软件开发 app定制开发 软件开发定制

文心一言变身虚拟患者,助力医学生轻松开启「实践模式」

飞桨PaddlePaddle

百度 paddle 百度飞桨 开发者说 文心一言

探索AIGC在腾讯自选股应用

ninetyhe

腾讯 AI 大模型 AIGC

运维一款月变更70+次的服务,是一种什么体验?

华为云开发者联盟

开发 华为云 华为云开发者联盟

马帮ERP与ETLCloud快速同步

谷云科技RestCloud

数据同步 ETL 数据集成 ERP

面试官:说说SSO单点登录的实现原理?

王磊

Java 面试

JavaScript中的包装类型详解

秃头小帅oi

JavaScript 前端

文心一言 VS 讯飞星火 VS chatgpt (205)-- 算法导论15.4 1题

福大大架构师每日一题

福大大架构师每日一题

软件测试管理进阶,快速掌握高效沟通的汇报技巧

测试人

软件测试 自动化测试 测试开发 测试管理

Axure RP 9 与其他原型设计工具的比较:为何它是您的最佳选择?

Rose

原型设计 Axure RP 9汉化 Axure RP 9授权码

有道QAnything背后的故事---关于RAG的一点经验分享

有道技术团队

语言 & 开发 #开源

软件测试学习笔记丨 k8s环境部署实战

测试人

软件测试 测试开发

“智慧工程”助力房企突破发展瓶颈,精细化管理降本增效

Kyligence

大数据 数字化 解决方案 精细化管理

Module2作业

大鹏

测试管理进阶 | 快速掌握高效沟通的汇报技巧

测吧(北京)科技有限公司

测试

Solidity案例详解(四)投票智能合约

BSN研习社

区块链 Solidity

易点天下旗下出海应用数据分析与增长模型平台即将发布,一大波内测福利正在袭来!

新消费日报

把简单留给用户,把复杂交给 AI

Kyligence

大数据 AI 数据治理 指标平台

MestReNova 中文版:解析和解释核磁共振(NMR)和质谱(MS)数据

Rose

MestReNova软件 MestReNova14破解版 核磁共振 医学研究

阿里云大降价后,与主流云厂商的价格对比,你选哪家?

NineData

数据库 阿里云 服务器 云厂商 阿里云降价

苹果公司透露Siri新发音引擎的内部原理_Apple_Roland Meertens_InfoQ精选文章