Agentic AI、具身智能、强化学习框架、端侧大模型……来QCon上海站,感受AI的未来! 了解详情
写点什么

苹果公司透露 Siri 新发音引擎的内部原理

  • 2017-09-12
  • 本文字数:736 字

    阅读完需:约 2 分钟

苹果公司透露了他们通过深度学习让 Siri 的发音更加自然的内幕。

iPhone 用户使用自然语言向 Siri 提问,Siri 也通过语音回答问题。Siri 可以使用 21 种语言回答问题,遍布全球 36 个国家。在 2017 年 WWDC 大会上,苹果宣布了 iOS 11 上的 Siri 将使用最新的文本语音引擎。2017 年 8 月,苹果的机器学习期刊透露了他们是如何让Siri 的发音更加自然的。

iPhone 上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素:音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧系统只有几种录音,音素的来源很有限,所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

每一台 iOS 设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性:声音频谱的音高和音长。一个经过训练的“深度混合密度网络(deep mixture density network)”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。

在通过“Viterbi”算法从数据库里找到需要的数据后,系统会选出最佳的音素组合,把它们拼接起来,然后播放出声音。

另一种方式是生成声波,而不是拼接预录的声音。2016 年 9 月, Alphabets Deepmind 发布了 WaveNet 引擎,可以基于电脑生成文本语音。它的不足是速度很慢,就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以,Siri 不会在短时间使用合成语音代替录制语音。

查看英文原文: Apple Reveals the Inner Workings of Siri’s New Intonation

2017-09-12 19:002726
用户头像

发布了 322 篇内容, 共 155.7 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

十年“画饼”终兑现,AI出行要变天?|小奇说

奇点云

自动驾驶 AI 特斯拉 Robotaxi

分布式集群中雪花ID重复?三招教你彻底避坑!实战经验+解决方案

Geek_e3e86e

Java 编程

如何一眼定位SQL的代码来源:一款SQL染色标记的简易MyBatis插件

京东科技开发者

MyEMS能源管理系统后台配置-网关管理

开源能源管理系统

开源 能源管理

Java的SPI机制详解

京东科技开发者

Nextcloud AIO - 一站式自托管Nextcloud解决方案

qife122

Nextcloud 自托管

注塑行业MES系统解决方案:全面指南与最佳实践

万界星空科技

制造业 mes 万界星空科技mes 注塑MES 注塑行业

360度全方位了解堡垒机作用-行云管家

行云管家

网络安全 数据安全 堡垒机

如何评估开源管理后台的可扩展性和定制化能力?6 大关键评估维度

NocoBase

开源 开发工具 定制化 管理后台 扩展性

KWDB语法添加指南

KaiwuDB

企微、钉钉、飞书私有化贵?这个支持私有化的 IM 软件可免费用!

BeeWorks

即时通讯 IM 私有化部署

手把手教你获取淘宝天猫商品详情数据和全店数据(避坑版)

tbapi

淘宝商品详情接口 天猫商品详情接口 淘宝店铺商品接口 天猫店铺商品接口

等保测评公司是干什么的?哪里可以查到?

行云管家

等保 等保测评

Go 1.23实战升级,你的Web开发加速器来了!(附完整B2C电商源码)

博文视点Broadview

智源-人大高瓴26级联培博士预推免报名开始啦~欢迎感兴趣的同学咨询报名

智源研究院

人工智能

MyEMS能源管理系统后台配置-联系人管理

开源能源管理系统

开源 能源管理

行业分享丨泛亚汽车数字化转型实践:虚拟仿真技术如何赋能汽车研发的创新实践?

Altair RapidMiner

AI 汽车 仿真 智能制造 CAE

行业洞见 | 数据市场发展路径和形态

数据堂

人工智能 数据标注 大模型 数据市场 数据生产

KWDB时序数据库在工业级机器手臂生产调度中的落地实践案例,加速时序数据高效存储与检索

KaiwuDB

场景案例 - KWDB分布式多模数据库在净水机物联网IoT方案落地最佳实践:GoLang时序IoT数据 + 香橙派Orange Pi AI Pro 开发板场景案例测试

KaiwuDB

AI 英语写作 App 的测试

北京木奇移动技术有限公司

软件外包公司 AI英语学习 AI英语写作

告别SQL卡顿与混乱!AI如何赋能实时计算?

袋鼠云数栈

数据库 sql 数据治理 数据平台 数据管理

数字金融的产业界共识,为什么是存算分离?

脑极体

AI

用 Python 与 KWDB 打造智能自动售卖机:从搭建到实践

KaiwuDB

AI 英语写作 App 的上线

北京木奇移动技术有限公司

软件外包公司 AI英语学习 AI英语写作

BeeWorks 免费版上线,赋能重要行业高效协作

BeeWorks

即时通讯 IM 私有化部署

MyEMS能源管理系统后台配置-协议

开源能源管理系统

开源 能源管理

AI 英语写作App的技术难点

北京木奇移动技术有限公司

软件外包公司 AI英语学习 AI英语写作

一文读懂,Abaqus生成文件后缀含义

思茂信息

abaqus abaqus软件 有限元分析 有限元仿真 有限元

7月代理IP | 充值加赠22%,1元也加赠!再加新人礼包,限时开启中ing

kookeey严选代理

节点搭建 海外IP 海外IP代理 跨境网络专线

数字揭秘丨什么?!Altair EDEM竟然可以用来解答高考物理压轴的电磁力学题?

Altair RapidMiner

AI 制造业 电磁仿真 EDEM 离散元仿真

苹果公司透露Siri新发音引擎的内部原理_Apple_Roland Meertens_InfoQ精选文章