【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

苹果公司透露 Siri 新发音引擎的内部原理

  • 2017-09-12
  • 本文字数:736 字

    阅读完需:约 2 分钟

苹果公司透露了他们通过深度学习让 Siri 的发音更加自然的内幕。

iPhone 用户使用自然语言向 Siri 提问,Siri 也通过语音回答问题。Siri 可以使用 21 种语言回答问题,遍布全球 36 个国家。在 2017 年 WWDC 大会上,苹果宣布了 iOS 11 上的 Siri 将使用最新的文本语音引擎。2017 年 8 月,苹果的机器学习期刊透露了他们是如何让Siri 的发音更加自然的。

iPhone 上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素:音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧系统只有几种录音,音素的来源很有限,所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

每一台 iOS 设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性:声音频谱的音高和音长。一个经过训练的“深度混合密度网络(deep mixture density network)”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。

在通过“Viterbi”算法从数据库里找到需要的数据后,系统会选出最佳的音素组合,把它们拼接起来,然后播放出声音。

另一种方式是生成声波,而不是拼接预录的声音。2016 年 9 月, Alphabets Deepmind 发布了 WaveNet 引擎,可以基于电脑生成文本语音。它的不足是速度很慢,就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以,Siri 不会在短时间使用合成语音代替录制语音。

查看英文原文: Apple Reveals the Inner Workings of Siri’s New Intonation

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2017-09-12 19:002070
用户头像

发布了 322 篇内容, 共 133.7 次阅读, 收获喜欢 142 次。

关注

评论

发布
暂无评论
发现更多内容

技术译文|如何将 Pulsar 用作消息队列

Apache Pulsar

开源 云原生 pulsar Apache Pulsar 消息中间件

架构师训练营第7周作业

叶鹏

前端如何优雅处理类数组对象?

pingan8787

Java 大前端

oeasy 教您玩转linux 010304 图形界面 xfce

o

一个草根的日常杂碎(9月21日)

刘新吾

生活 现实纪录 随笔

年度开源盛会 ApacheCon 来临,Apache Pulsar 专场大咖齐聚

Apache Pulsar

开源 云原生 Apache Pulsar 消息中间件

环信和阿里云签署云原生合作,携手共建云通讯“新基建”

DT极客

Spring 5 中文解析数据存储篇-编程式事物管理

青年IT男

Spring5

被我玩坏的git:除了之前的工作、当网盘用,还能这么玩

小Q

Java git 程序员 架构 开发

实战中学习浏览器工作原理 — 排版与渲染

三钻

CSS 大前端 浏览器

18 张图,一文了解 8 种常见的数据结构

沉默王二

Java 数据结构

简述 CAP 原理

叶鹏

Springboot 定时任务

hepingfly

定时任务 springboot 注解

一文学懂递归和动态规划!

小齐本齐

算法 数据结构和算法

整合Elastic-Job(支持动态任务)

TaurusCode

springboot SpringCloud 分布式任务调度 Elastic-job

食堂卡就餐卡系统

叶鹏

常用设计模式

叶鹏

小白理财先转变思维理念

boshi

理财 收入 财富自由

架构师训练营第八周作业

叶鹏

ECMAScript 6新特性简介

程序那些事

nodejs ES6 ECMAScript 6

智谱AI首席科学家唐杰团队荣获国际数据挖掘顶会时间检验应用科学奖

DT极客

高难度对话读书笔记—情绪篇

wo是一棵草

用户密码验证函数

叶鹏

架构师训练营12周作业

叶鹏

两天,我把分布式事务搞完了

yes

分布式事务 seata

anyRTC云端录制功能上线

anyRTC开发者

WebRTC 语音 直播 RTC 安卓

恶补,一文了解 8 种常见的数据结构

Java架构师迁哥

支付平台架构技术实现之终端安全

博文视点Broadview

架构 安全攻防 安全 支付系统 风控

架构师训练营第四周作业

叶鹏

从零开始搭建完整的电影全栈系统(五)——WEB网站、Api以及爬虫的部署

刘强西

爬虫 网站搭建 部署与维护

关于Java调用类的main方法

谷鱼

Java 包位置

苹果公司透露Siri新发音引擎的内部原理_Apple_Roland Meertens_InfoQ精选文章