2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Amazon Polly 推出神经文本转语音和新闻播音员语音风格

  • 2019-09-23
  • 本文字数:3005 字

    阅读完需:约 10 分钟

Amazon Polly 推出神经文本转语音和新闻播音员语音风格

从 Robbie the Robot 到 Jarvis,科幻作家早已懂得,让人造角色的声音尽可能逼真是多么重要。语言是人类互动的核心,除了说话沟通,它还有助于我们表达感觉和情绪:谁能忘记《2001 太空漫游》中 HAL 9000 令人难以忘怀的最后一幕?


在现实世界中,情况当然更加复杂。早在“人工智能”这个词出现前的几十年,科学家就在设计试图模仿人声的系统。1937 年,亦即在举办开创性的达特茅斯研讨会之前约 20 年,Homer Dudley 发明了声码器,这是用电子元件合成人声的首次尝试:此视频介绍了有关这台令人惊艳的设备的声音样本和额外信息。


从那时起,我们取得了长足进步! 在 AWS re:Invent 2016 大会上,我们宣布推出 Polly,这是一种将文本转换为逼真语音的托管服务,借助该服务,客户可以创建能够说话的应用程序,并构建全新类别的支持语音功能的产品。无需具备机器学习专业知识:只需调用 API 即可完成任务! 从那时起,该团队一直定期添加新语音,目前共有 29 种语言和 59 种语音。


今天,我们很高兴地宣布 Polly 推出两大新功能:神经文本转语音,以及开创性的新闻播音员语音风格。


神经文本转语音 (NTTS) 功能简介


通过一种新的机器学习方法,NTTS 可以显著提高语音质量。它增加了自然性和表现力,这是合成逼真语音的两个关键因素,能使语音越来越接近人声。以下示例呈现了可预期的语音质量。


迄今为止,NTTS 支持 11 种语音,包括实时模式和批处理模式:


  • 所有 3 种英国英语语音:Amy、Emma 和 Brian。

  • 所有 8 种美国英语语音:Ivy、Joanna、Kendra、Kimberly、Salli、Joey、Justin 和 Matthew。

  • 何不前往 AWS 控制台快速测试一下?


新闻播音员语音风格简介


语音质量当然重要,但要让合成语音听起来更逼真、更迷人,还要从其他许多方面做出努力。如何在语音风格方面下功夫? 毋庸置疑,人耳可以分辨出新闻广播、体育广播、大学课程等不同语音;事实上,大多数人会在正确的语境中采用正确的语音风格,这无疑有助于清楚表达他们的意思。


借助 NTTS,我们得以在合成语音中应用语音风格,您现在可以使用 Polly 的新闻播音员语音风格。示例如下。


无论是新闻报道还是博客文章,这一功能都会使语音听起来更加逼真,《环球邮报》等客户如今已在使用此功能。借助 Polly 和新闻播音员语音风格,他们的读者(或者现在应该称之为听众?)可以享受用优质语音读出的文章,听起来就像他们期望在电视或广播中听到的那样。结合 Amazon Translate,他们还可以收听自动翻译为他们能理解的语言的文章。


迄今为止,新闻播音员语音风格适用于两种美国英语语音(Joanna 和 Matthew),包括实时模式和批处理模式。同样,您可以前往 AWS 控制台快速测试一下,其中提供的是与上面相同的新闻播音员语音风格的语音剪辑。


使用具有 NTTS 语音和新闻播音员语音风格的 Polly API 非常简单。请允许我向您展示如何开始使用这两项功能。


使用 NTTS 语音和新闻播音员语音风格


我们不妨让 Polly 读一段文本:读一下 2006 年发布 Amazon Simple Storage Service (S3) 时的这段文本怎么样?


“Earlier today we rolled out Amazon S3, our reliable, highly scalable, and low-latency data storage service.Using SOAP and REST interfaces, developers can easily store any number of blocks of data in S3.Each block can be up to 5 GB in length, and is associated with a user-defined key and additional key-value metadata pairs.Further, each block is protected by an ACL (Access Control List) allowing the developer to keep the data private, share it for reading, or share it for reading and writing, as desired.The system was designed to provide a data availability factor of 99.99%; all data is transparently stored in multiple locations”。


我将使用批处理模式,以便在 S3 中保存声音文件并方便您取用:我明确更改了权限以使这些文件公开,但无需担心,默认情况下您自己的文件是完全私有的。


我们先来试听一下 Matthew 标准语音。


$ aws polly start-speech-synthesis-task      --voice-id Matthew --text file://s3.txt      --output-s3-bucket-name "jsimon-polly" --output-format mp3      --query "SynthesisTask.TaskId""e3db409c-419d-4a31-a3a7-72c1e712fe23"$ wget https://jsimon-polly.s3.amazonaws.com/e3db409c-419d-4a31-a3a7-72c1e712fe23.mp3 -O matthew-standard.mp3
复制代码


Matthew,请给我们介绍一下 S3。


现在,我们听一下相同语音的 NTTS 版本:只需将“engine”参数设置为“neural”。


$ aws polly start-speech-synthesis-task      --voice-id Matthew --engine neural --text file://s3.txt      --output-s3-bucket-name "jsimon-polly" --output-format mp3      --query "SynthesisTask.TaskId""e3902335-c1e6-450b-b6e9-f913d6d52055"$ wget https://jsimon-polly.s3.amazonaws.com/e3902335-c1e6-450b-b6e9-f913d6d52055.mp3 -O matthew-neural.mp3
复制代码


您应该即刻会注意到 NTTS 改进了语音质量。当然,Polly 已经正确识别出技术术语缩写和数字等。


现在,我们来增加一些趣味,应用新闻播音员语音风格。这要求我们使用 SSML 标记语言。我们只需附上如下文本:


<speak><amazon:domain name="news">Earlier today we rolled out Amazon S3, our reliable, highly scalable, and low-latency data storage service.Using SOAP and REST interfaces, developers can easily store any number of blocks of data in S3.Each block can be up to 5 GB in length, and is associated with a user-defined key and additional key-value metadata pairs.Further, each block is protected by an ACL (Access Control List) allowing the developer to keep the data private, share it for reading, or share it for reading and writing, as desired.The system was designed to provide a data availability factor of 99.99%; all data is transparently stored in multiple locations.</amazon:domain></speak>
复制代码


让我们重新合成这段文本,同时确保将文本类型设置为 SSML。


$ aws polly start-speech-synthesis-task       --voice-id Matthew --engine neural       --text file://s3.ssml --text-type ssml       --output-s3-bucket-name "jsimon-polly" --output-format mp3       --query "SynthesisTask.TaskId""25c18bda-b32b-4485-a45f-eb9b757a513b"$ wget https://jsimon-polly.s3.amazonaws.com/25c18bda-b32b-4485-a45f-eb9b757a513b.mp3 -O matthew-neural-newscaster.mp3
复制代码


我相信您立即就能分辨出来! 这听起来不就像是新闻播报员在读这段文本吗?


如果您想了解 Joanna 语音,下面是几段内容相同的语音剪辑:标准语音、神经语音,以及新闻播音员语音风格的神经语音。


现已推出!


如您所见,这些新功能非常易于使用,现已在美国东部(弗吉尼亚北部)、美国西部(俄勒冈)和欧洲(爱尔兰)推出。从您首次请求转换语音(标准语音或 NTTS 语音)开始,免费套餐在前 12 个月每月为您提供 100 万个字符的 NTTS 语音。


我们期待您的反馈! 请将反馈发布到 AWS 论坛的 Polly 版块,或者将其发送给您常用的 AWS Support 联系人。


本文转载自博客 AWS。


原文链接:


https://amazonaws-china.com/cn/blogs/china/amazon-polly-introduces-neural-text-to-speech-and-newscaster-style/


2019-09-23 13:411238
用户头像

发布了 1946 篇内容, 共 164.1 次阅读, 收获喜欢 81 次。

关注

评论

发布
暂无评论
发现更多内容

云原生主题学习月|成为社区领学员,解锁专属奖励及超多数量社区学员奖品!

亚马逊云科技 (Amazon Web Services)

云原生 培训与认证

深究用户模式锁的使用场景(异变结构、互锁、旋转锁)

C++后台开发

数据结构 多线程 linux开发 C++开发

天翼云Serverless边缘容器下沉服务 促进企业聚焦业务创新

天翼云开发者社区

企业数字营销和运营如何效果更好?瓴羊Quick BI成为了不错的选择

小偏执o

亚信科技亮相南京软博会,数智赋能百行千业

亚信AntDB数据库

AntDB aisware antdb AntDB数据库

老工程师荐读!PCB设计避坑指南

华秋PCB

PCB PCB设计

嘉为科技张敏:一文讲清场景工程方法论及运维组织能力内化

嘉为蓝鲸

运维 数字化

跨越速运如何构建实时统一的运单分析

StarRocks

#数据库

ZooKeeper 避坑实践:如何调优 jute.maxbuffer

阿里巴巴云原生

zookeeper 阿里云 云原生

面试官:说说电商系统订单超时自动取消怎么实现?你有几种方案?

程序员小毕

程序员 面试 程序人生 后端 架构师

通过飞书审批 Bytebase 工单

Bytebase

数据库 sql DevOps SQL审核 SQL审批

数字先锋| 一朵云,将温暖传递千家万户

天翼云开发者社区

图数据技术护航网络安全

Neo4j 图无处不在

网络安全 neo4j 图数据库 知识图谱 图算法

开源共建 | TIS整合数据同步工具ChunJun,携手完善开源生态

袋鼠云数栈

大数据 开源 数据同步工具

元器选型攻略之 电阻

元器件秋姐

元器件知识 元器件科普 电阻 电阻定义 常见电阻

Kotlin伴生对象(Companion Object)

子不语Any

android kotlin 11月月更

Kotlin作用域函数[Scope Function](下)

子不语Any

android kotlin 11月月更

Neo4j CEO Emil Eifrem 解读图数据平台引领数据库未来十年的发展

Neo4j 图无处不在

neo4j 图数据库 知识图谱 图可视化引擎 图数据

云原生主题学习月|共同学习全球领先的亚马逊云科技云原生课程,组团共学拿奖励~

亚马逊云科技 (Amazon Web Services)

云原生 培训与认证

天翼云混合云容灾技术解析

天翼云开发者社区

焱融科技为国家重点实验室打造海量高性能存储

焱融科技

云计算 分布式系统 高性能 文件存储

可视化:如何选择数据可视化图表?

2D3D前端可视化开发

数据可视化 可视化大屏 可视化图表 可视化工具 sovitchart

微服务治理的3种方式

穿过生命散发芬芳

微服务治理 11月月更

老板让我在Linux中使用traceroute排查服务器网络问题,幸好我收藏了这篇文章!

wljslmz

Linux 网络故障 11月月更 traceroute

Kotlin作用域函数[Scope Function](上)

子不语Any

android kotlin 11月月更

玩转云端| 数据库安全服务,为数据库资产构建“最后一道防线”!

天翼云开发者社区

企业内部统一的移动平台,实现安全高效的业务移动化

BeeWorks

嘉为科技吴文豪:重塑运维系统,跨越烟囱式建设的陷阱

嘉为蓝鲸

运维 #WeOps

制造业的敏捷分析,还需要使用瓴羊Quick BI

对不起该用户已成仙‖

Amazon Polly 推出神经文本转语音和新闻播音员语音风格_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章