写点什么

苹果公司透露 Siri 新发音引擎的内部原理

  • 2017-09-12
  • 本文字数:736 字

    阅读完需:约 2 分钟

苹果公司透露了他们通过深度学习让 Siri 的发音更加自然的内幕。

iPhone 用户使用自然语言向 Siri 提问,Siri 也通过语音回答问题。Siri 可以使用 21 种语言回答问题,遍布全球 36 个国家。在 2017 年 WWDC 大会上,苹果宣布了 iOS 11 上的 Siri 将使用最新的文本语音引擎。2017 年 8 月,苹果的机器学习期刊透露了他们是如何让Siri 的发音更加自然的。

iPhone 上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素:音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧系统只有几种录音,音素的来源很有限,所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

每一台 iOS 设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性:声音频谱的音高和音长。一个经过训练的“深度混合密度网络(deep mixture density network)”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。

在通过“Viterbi”算法从数据库里找到需要的数据后,系统会选出最佳的音素组合,把它们拼接起来,然后播放出声音。

另一种方式是生成声波,而不是拼接预录的声音。2016 年 9 月, Alphabets Deepmind 发布了 WaveNet 引擎,可以基于电脑生成文本语音。它的不足是速度很慢,就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以,Siri 不会在短时间使用合成语音代替录制语音。

查看英文原文: Apple Reveals the Inner Workings of Siri’s New Intonation

2017-09-12 19:002697
用户头像

发布了 322 篇内容, 共 154.9 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

用CSS+SVG做一个优雅的环形进度条

OpenTiny社区

前端 UI

真实用户体验的价值与示例

Yestodorrow

可观测性 业务增长 数据洞察 观测云 真实用户体验

Mac电脑上的快速启动和工作流自动化工具 Alfred 5

展初云

效率工具 Alfred Mac

提升数据决策时效,火山引擎DataLeapCDC分库分表能力升级!

字节跳动数据平台

大数据 数据治理 数据安全 数据研发 企业号10月PK榜

基础设施SIG月度动态:T-One 社区版调度引擎全量替换至 runnerV2 版本,调度性能平均提升 6.8 倍

OpenAnolis小助手

开源 镜像 操作系统 龙蜥社区 基础设施SIG

大模型时代,小度全屋智能超级新物种,持续加码AI未来生活

新消费日报

一文搞定专属码的设计与开发

百度Geek说

AI 计算机视觉 二维码 企业号10月PK榜 异形码

将日志压缩并归档到 Amazon S3 Glacier 存储层中

亚马逊云科技 (Amazon Web Services)

分布式 S3 储存

这一大波Offer来的太突然了

王磊

Java

如何合并模型对象

3D建模设计

模型 3D

轻量级图片查看软件 EdgeView 4最新中文版

胖墩儿不胖y

Mac软件 图片查看软件 Mac图片工具

“创新启变 聚焦增长”极狐(GitLab)媒体沟通会,共话智能时代软件开发新生态

极狐GitLab

开源 AI DevOps gitlab DevSecOps

Mac平台可用的终端仿真软件 SecureCRT 9

展初云

securecrt Mac软件 终端仿真

收获认可!杭州悦数正式成为信创工委会技术活动单位

最新动态

登录MySQL数据库最快需要几步

小齐写代码

权威赛事、高额奖金,文心一言插件开发邀你来挑战!

飞桨PaddlePaddle

人工智能 大数据 文心一言

如何设计一套基于API的会员系统

Kevin_913

架构设计实战 Java'

Mac可用的摄影照片后期编辑工具 Lightroom Classic 2024

展初云

Mac LR 照片后期处理

报名开启 | 支付宝小程序云 × DCloud 将强强联合,为开发者提供多端开发服务

TRaaS

支付宝小程序 小程序云开发 uni-app DCloud

藏在超级应用背后的道家哲学

Onegun

超级应用 superapp

面试题解答:Spring Lifecycle 和 SmartLifecycle 有何区别?

江南一点雨

Java spring

一款兼容微信抖音支付宝小程序的工具可以直接把小程序搬到自己App

Onegun

小程序 小程序容器

苹果公司透露Siri新发音引擎的内部原理_Apple_Roland Meertens_InfoQ精选文章