Amazon Polly – 支持47种语音与24种语言的文本到语音转换服务_语言 & 开发_亚马逊云科技 (Amazon Web Services）

在准备写下这篇文章时，我的思绪不禁回到了自己的孩提时代（那时候大部分时间都用在了看电视上）。上世纪六十到七十年代，出现了大批热门的计算机与机器人语音产品。一瞬间，哈尔-9000、B9（来自〈迷失太空〉）、初代《星际旅行》中的计算机以及罗茜（来自〈摩登家庭〉）等形象再次涌现在我眼前。那个时候，人们都热衷于这种机械生成的语音——声音精准、清晰且缺乏人类应有的情感。

时间快速推进，如今我们已经拥有大量出色的计算机生成语音应用及用例可供选择，业界将其称为文本到语音或者简称 TTS 功能。娱乐、游戏、公共发布系统、电子学习、电话、辅助应用及设备乃至个人助手都已经开始将其引入。其中大部分应用能够很好地对接移动环境，但本地处理及存储型方案则表现平平。

你好， Polly

为了解决此类用例的实际需求（当然也包括其它大家能够想到的场景），我们推出了Polly，这项云服务能够将文本转化为逼真的语音，并允许大家将其用于您的工具及应用程序当中。Polly 目前支持总计 47 种男声/女声表达并涵盖 24 种语言（暂不支持中文），而更多语言及语音选项亦在路线图规划之中。

Polly 的设计目标在于解决语音生成工作中的大部分常见挑战。举例来说，我们以“live”一词为例，“I live in Seattle”代表我生活在西雅图，而“Live from New York”则代表由纽约发回的现场直播，二者在意义上显然存在差别。Polly 能够理解这种同一词汇在不同语境下的含义，并给出完全不同的发音。类似的例子还有“St.”。根据语言类别及上下文背景的不同，其可以代表（或者应该发音为）“Street（街道）”或者“saint（圣）”。Polly 同样能够准确识别二者间的差别。另外，Polly 亦能够处理单位、分数、缩写、货币、日期、时间以及其它复杂的语言成分与表达方式。

为了实现这一目标，我们与以 Polly 支持的目标语言为母语的语言专家们进行合作。我们要求每位参与者利用其选定的语种提供大量单词与短语发音，并将音频拆分为声音单元，即双音素。

Polly 在处理普通文本时拥有良好表现。大家只需要提交文本，Polly 即可顺利完成接下来的工作，即以音频文件或者流媒体的方式给出精准、自然且与人类相似的语音表达。对于其它更为复杂的应用，大家可以使用SSML（即语音合成标记语言）为 Polly 提供更多附加信息。举例来说，如果您的文本内容中包含多种语言（例如英语与法语混杂），则可利用 SSML 作出标记以纠正发音。

在本文中我无法直接提供相关语音片段，因此感兴趣的朋友可以直接访问Polly Console（https://console.aws.amazon.com/polly）并亲自加以尝试。大家只需要输入文本内容并点击Listen to speech（听取语音）即可：

大家也可以将生成的音频保存在 MP3 文件并将其运用于您的应用程序当中。

以下为完全展开的语言与地区菜单：

技术细节

通过 Console 使用 Polly 当然非常便利，不过大家也可以采取其它方式以实现更具动态的使用途径。大家可以在文本或者 SSML 当中调用SynthesizeSpeech API 函数。大家可以直接将输出结果以流媒体形式直接交付至用户，或者生成 MP3 或 Ogg 文件以备需要时播放。Polly 能够以 MP3 或者 Vorbis 格式生成高质量（最高采样率为 22 kHz）音频，亦可以 PCM 格式生成电话质量级（8 kHz）音频。

大家也可以利用 AWS 命令行界面（CLI）生成音频。例如：

Polly 会对全部闲置数据进行加密，并通过 SSL 连接进行音频传输。所提交文本与提交者间的关联将被移除，以加密形式存储最多 6 个月，并被用于维护及改进 Polly 功能。

价格与上线时间

大家每月可以利用 Polly 处理 500 万字而无需支付任何费用。在此之后，每个字的处理价格为 0.000004 美元，或者折合为音频生成约为每分钟 0.004 美元。本篇博文的语音转换价格约为 0.018 美元，而《哈克贝利-费恩历险记》全文的语音转换亦仅需约 2.4 美元。

Polly目前已经在美国东部（北弗吉尼亚州）、美国西部（俄勒冈州）、美国东部（俄亥俄州）以及欧洲（爱尔兰）服务区上线，大家可以从今天开始加以使用。

本文转载自 AWS 技术博客。

原文链接：https://amazonaws-china.com/cn/blogs/china/polly-text-to-speech-in-47-voices-and-24-languages/

发布

暂无评论

创作场景

Amazon Polly – 支持 47 种语音与 24 种语言的文本到语音转换服务

你好， Polly

技术细节

价格与上线时间

评论

AI in Game，大模型能力与实时音视频技术融合，交出AI应用新答卷

云电脑显卡性能终极对决：ToDesk云电脑/顺网云/海马云，谁才是4K游戏之王？

不同数据场景下的聚类算法

Web前端入门：JavaScript 运算符 == 和 === 有什么区别？

FlagOS 新里程：开源面向多种硬件架构的统一AI 编译器 FlagTree

联想重磅发布三大硬核数据网络新品，打造"一横五纵"战略智能底座

技术流必备！京东商品列表 API 接口深度解读

一文彻底玩转Open Harmony三方库之从入门到实战，轻松拿捏lithe_refresh

人工智能三人行-热评：美国通过新法案，10年内禁止监管AI

SIGGRAPH 2025 | 快手可灵团队提出3D感知的电影级文本到视频生成框架CineMaster

Disruptor—核心源码实现分析（二）

华南会议｜AI驱动仿真未来 2025 Altair区域技术交流会华南站，报名开启！

诚迈科技携HongZOS亮相开源鸿蒙开发者大会，加速生态繁荣与产业跃迁

京东商品详情 API 接口全攻略：从入门到精通

议程公布，火热预约！明晚19:00，人工智能通识教育先行探索教学研讨会

决胜 Next.js 面试：深入剖析缓存机制

赋能未来教育！卓翼飞思携无人智能教科研一体化方案亮相高博会

快收藏！一个技巧从此不再搞混缓存穿透和缓存击穿

格灵深瞳发布视觉基础模型Glint-MVT，“分割一切”直接拿下SOTA

最全Java面试题及答案整理（2025最新版）

AI赋能引爆短剧全球化风潮，腾讯云媒体处理助力短剧平台出海吸金

智启未来 | 拓维信息携旗下开鸿智谷受邀参加开源鸿蒙开发者大会2025

离线声音合成应用 RWKV Talk：多语言、多音色、支持声音克隆；马斯克：AI 将替代传统搜索丨日报

应该如何理解“数据驱动”？

什么是信息化？什么是数字化？这两者有什么联系和区别？

《算法导论(第4版)》阅读笔记：p156-p161

世界人工智能大会招募丨 WAIC 2025 FUTURE TECH 创新企业招募倒计时 15 天！让世界看见你的硬核 AI 创新

人工智能三人行-热评：英伟达能守住中国市场的最后阵地吗？

30k 的Java面试题，哭着也要背完！（附答案）

以正合，以奇胜，曙光信创公有云的兵法之道

人工智能三人行-热评：国内主流智能体开发平台一览

创作场景

Amazon Polly – 支持 47 种语音与 24 种语言的文本到语音转换服务

你好， Polly

技术细节

价格与上线时间

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载

推荐阅读