大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

谷歌 Text-to-Speech 普遍可用,同时发布 Speech-to-Text 更新

  • 2018-09-09
  • 本文字数:1914 字

    阅读完需:约 6 分钟

谷歌宣布了 Cloud Text-to-Speech 普遍可用,允许开发人员在设备或应用程序中添加自然发声的语音。此外,谷歌还发布了 Cloud Speech-to-Text 的一组更新,增加了更多功能和增强的可用性和可靠性。

Cloud Text-to-Speech 最早于今年 3 月发布,之后客户要求为 WaveNet 语音提供更多语言支持——这是一种通过模仿人类声音让语音听起来更自然的技术。谷歌预计将增加 17 种新的 WaveNet 语音,让用户可以使用更多语言构建应用程序。目前,Cloud Text-to-Speech 支持 14 种语言和变体,共有 56 种语音,包括 30 种标准语音和 26 种 WaveNet 语音。

谷歌 Cloud Text-to-Speech 利用了多种技术,包括 WaveNet——一种用于生成原始音频波形的深度神经网络,能够生成更好听、更逼真的语音。此外,谷歌还提供与 Text-to-Speech 转换相配套的音频配置文件(测试版),让用户能够针对不同类型硬件的回放进行优化。谷歌在发布公告中表示:

你现在可以指定音频是通过电话线、耳机还是扬声器进行播放,我们将为回放提供音频优化。例如,如果你的应用程序产生的音频主要通过耳机收听,就可以通过专为耳机优化的 Cloud Text-to-Speech API 创建合成语音。

来源: https://cloud.google.com/blog/products/ai-machine-learning/announcing-updates-to-cloud-speech-to-text-and-general-availability-of-cloud-text-to-speech  

在 7 月份的 Google Cloud Next 大会上,谷歌发布了 Cloud Speech-to-Text 的新功能,现在可以在测试服务中使用这些功能。开发人员可以通过语言自动检测使用多种语言,通过说话者分类(diarization)和多通道识别分离不同的说话者,以及更高的词级置信度来构建应用程序。

谷歌 Text-to-Speech 主要是一种转录服务,通过解析声音来记录人类所说的内容。此外,这项服务可以正确地在文本输出中添加逗号和句点等标点符号。现在,谷歌将通过新的多声道识别功能进一步发展该服务,用于转录来自多个发言者的音频,包括使用 Cloud Natural Language 进行情感分析。当无法通过通道分离音频样本时,开发人员可以使用说话者分类的功能,输入说话者数量作为 API 参数——并且通过机器学习,如发布公告所述:

Cloud Speech-to-Text 将使用说话者数量来标记每个单词。随着接受到越来越多的数据,附加到每个单词的说话者标签不断被更新,Cloud Speech-to-Text 在识别说话者以及他们的讲话内容方面将会变得越来越准确。

来源: https://cloud.google.com/blog/products/ai-machine-learning/announcing-updates-to-cloud-speech-to-text-and-general-availability-of-cloud-text-to-speech  

除了说话者分类和多声道识别功能外,Cloud Speech-to-Text 还可以接受多种语言并进行自动检测。开发人员可以使用该功能的语音和命令功能,在每个查询中将最多四个语言代码发送到 Cloud Speech-to-Text。随后,API 将自动确定目标语言,并返回目标语言的转录文本。另一个功能是单词级置信度分数,开发人员可以突出显示特定单词,然后在必要的时候根据置信度分数向用户显示并让用户重复这些单词。

谷歌 Text-to-Speech 服务并不是公共云中唯一可用的服务,亚马逊在 AWS 上提供了 Polly ,可以列出 54 种可用语音,而微软也提供了他们的 Text to Speech 服务预览版,提供 45 种语言的 75 种语音。此外,与谷歌 Speech-to-Text 将与 AWS 的 Amazon Transcribe 展开竞争,这是一项功能丰富且通用的服务。而微软的 Speech to Text 服务也仍然只提供了预览版。除了它们之间的竞争,这些服务的用户也表现出了一些喜好,并对它们展开了讨论。在 Hacker News 的一个有关谷歌文本和语音服务的帖子中,一位用户表示:

几乎所有主要的云服务提供商都以一定的价格提供文本转语音服务,那为什么还要构建自己的系统呢,除非云服务提供商的定价占了总成本很大的比例。为什么不继续使用谷歌的这项服务?我们可以等到谷歌把价格提高了再决定后续该怎么做。毕竟,它只是一个 API 调用而已。

Mike Wheatley 最近在 Silicon Angle 的一篇文章中称,谷歌将通过云端文本转语音服务瞄准三个主要市场:

1. 呼叫中心的语音响应系统,Cloud Text-to-Speech 可以为之提供实时的自然语言对话。

2. 物联网领域,特别是汽车信息娱乐系统、电视和机器人等产品,让这些类型的设备能够与 3. 用户交流。播客和有声读物等应用程序,可将文本转换为语音。

开发人员可以尝试使用 Speech-to-Text 和 Cloud Text-to-Speech 服务。有关 Speech-to-Text 服务的定价信息,请参阅定价页面。Text-to-Speech 服务的定价细节也可在相应的定价页面上找到。

查看英文原文 Google Announces General Availability of Cloud Text-to-Speech and Updates to Cloud Speech-to-Text

2018-09-09 19:004573
用户头像

发布了 731 篇内容, 共 480.8 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

扩散模型的通用指导手册

Zilliz

影响LED显示屏清晰度的三大要素

Dylan

广告 LED显示屏 体育

Star History 月度开源精选|2023 年 2 月

Bytebase

GitHub 开源项目 OpenKruise

从 3 个层级出发,做好 DevSecOps“安全左移”经济账

极狐GitLab

DevOps DevSecOps 代码安全 极狐GitLab 安全左移

太强了!阿里架构师把自己会的都总结到了这份1737页实战开发手册中

Java

数据库开发工具界的ChatGPT来了

NineData

数据库 sql AI ChatGPT NineData

面试官:还有比Redis更骚的分布式锁的实现方式吗?

Java Spring Boot 分布式锁 etcd

华为云GaussDB以技术创新引领金融行业分布式转型

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

依靠这份PDF面试资料文档,各种美团,阿里等大厂offer拿到手软

Java你猿哥

Java 后端 ssm 面经 八股文

flomo 浮墨笔记向飞书收购 “幕布”,不卖永久会员、不融资的“反骨”逻辑

B Impact

对话 Fork 创始人:帮云服务厂商精准获客,我们是如何做到的?

万事ONES

云计算 研发管理 研发管理工具

行云管家堡垒机六大功能详细介绍看这里!

行云管家

互联网 网络安全 堡垒机

高效稳定的通用增量 Checkpoint 详解之二:性能分析评估

Apache Flink

大数据 flink 实时计算

Selenium自动化测试

测吧(北京)科技有限公司

测试

10Wqps 超高并发 API网关 架构演进之路

Java你猿哥

Java 架构 微服务 SSM框架 api 网关

项目经理问我Tomcat 与 Undertow 怎么抉择?此文教她选

Java你猿哥

Java jdk Spring Boot ssm

超越想象,博睿数据3D数字展厅上线

博睿数据

可观测性 智能运维 博睿数据 3D展厅

基于Pub/Sub模式的阿里云IoT同步调用详解——设备管理运维类

阿里云AIoT

物联网 API

阿里云助力元戎启行 加速自动驾驶应用落地

云布道师

自动驾驶 阿里云 弹性计算

系统架构设计:进程缓存和缓存服务,如何抉择?

Java 架构设计 缓存服务 进程缓存

浅析synchronized底层实现与锁升级过程

Java JVM synchronized

难以置信!四面斩获字节offer,全靠这份“算法最优解”宝典

Java 数据结构 面试 算法 LeetCode

经过阿里四面而形成的10万字java面试题及答案文档到底有多牛?

Java你猿哥

Java 阿里巴巴 后端 面经 八股文

好用的油猴Safari浏览器插件:Tampermonkey 中文版

真大的脸盆

Mac 油猴 油猴插件 脚本管理 脚本插件

NutUI-React 京东移动端组件库 2月份上新!欢迎使用!

京东科技开发者

前端 React 组件库 开源组件 企业号 3 月 PK 榜

【低代码实践】京东科技活动平台:魔笛介绍

京东科技开发者

低代码 企业号 3 月 PK 榜 活动平台

真香!腾讯T4梳理的Java核心宝典(框架+原理+笔记+导图)

Java 程序员

用图技术搞定附近好友、时空交集等 7 个典型社交网络应用

NebulaGraph

推荐算法 图数据库 社交网络

阿里云IoT物模型-属性,服务,事件通信的topic和payload详解——设备管理运维类

阿里云AIoT

物联网

国内首发|焱融科技 YRCloudFile 支持 NVIDIA GPUDirect Storage(GDS)

焱融科技

人工智能 分布式存储 分布式文件存储 全闪存储 GPT-4

第三方私有云管理平台选择哪家好?理由有哪些?

行云管家

云计算 私有云 云管平台 云管理

谷歌Text-to-Speech普遍可用,同时发布Speech-to-Text更新_DevOps & 平台工程_Steef-Jan Wiggers_InfoQ精选文章