【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

谷歌 Text-to-Speech 普遍可用,同时发布 Speech-to-Text 更新

  • 2018-09-09
  • 本文字数:1914 字

    阅读完需:约 6 分钟

谷歌宣布了 Cloud Text-to-Speech 普遍可用,允许开发人员在设备或应用程序中添加自然发声的语音。此外,谷歌还发布了 Cloud Speech-to-Text 的一组更新,增加了更多功能和增强的可用性和可靠性。

Cloud Text-to-Speech 最早于今年 3 月发布,之后客户要求为 WaveNet 语音提供更多语言支持——这是一种通过模仿人类声音让语音听起来更自然的技术。谷歌预计将增加 17 种新的 WaveNet 语音,让用户可以使用更多语言构建应用程序。目前,Cloud Text-to-Speech 支持 14 种语言和变体,共有 56 种语音,包括 30 种标准语音和 26 种 WaveNet 语音。

谷歌 Cloud Text-to-Speech 利用了多种技术,包括 WaveNet——一种用于生成原始音频波形的深度神经网络,能够生成更好听、更逼真的语音。此外,谷歌还提供与 Text-to-Speech 转换相配套的音频配置文件(测试版),让用户能够针对不同类型硬件的回放进行优化。谷歌在发布公告中表示:

你现在可以指定音频是通过电话线、耳机还是扬声器进行播放,我们将为回放提供音频优化。例如,如果你的应用程序产生的音频主要通过耳机收听,就可以通过专为耳机优化的 Cloud Text-to-Speech API 创建合成语音。

来源: https://cloud.google.com/blog/products/ai-machine-learning/announcing-updates-to-cloud-speech-to-text-and-general-availability-of-cloud-text-to-speech  

在 7 月份的 Google Cloud Next 大会上,谷歌发布了 Cloud Speech-to-Text 的新功能,现在可以在测试服务中使用这些功能。开发人员可以通过语言自动检测使用多种语言,通过说话者分类(diarization)和多通道识别分离不同的说话者,以及更高的词级置信度来构建应用程序。

谷歌 Text-to-Speech 主要是一种转录服务,通过解析声音来记录人类所说的内容。此外,这项服务可以正确地在文本输出中添加逗号和句点等标点符号。现在,谷歌将通过新的多声道识别功能进一步发展该服务,用于转录来自多个发言者的音频,包括使用 Cloud Natural Language 进行情感分析。当无法通过通道分离音频样本时,开发人员可以使用说话者分类的功能,输入说话者数量作为 API 参数——并且通过机器学习,如发布公告所述:

Cloud Speech-to-Text 将使用说话者数量来标记每个单词。随着接受到越来越多的数据,附加到每个单词的说话者标签不断被更新,Cloud Speech-to-Text 在识别说话者以及他们的讲话内容方面将会变得越来越准确。

来源: https://cloud.google.com/blog/products/ai-machine-learning/announcing-updates-to-cloud-speech-to-text-and-general-availability-of-cloud-text-to-speech  

除了说话者分类和多声道识别功能外,Cloud Speech-to-Text 还可以接受多种语言并进行自动检测。开发人员可以使用该功能的语音和命令功能,在每个查询中将最多四个语言代码发送到 Cloud Speech-to-Text。随后,API 将自动确定目标语言,并返回目标语言的转录文本。另一个功能是单词级置信度分数,开发人员可以突出显示特定单词,然后在必要的时候根据置信度分数向用户显示并让用户重复这些单词。

谷歌 Text-to-Speech 服务并不是公共云中唯一可用的服务,亚马逊在 AWS 上提供了 Polly ,可以列出 54 种可用语音,而微软也提供了他们的 Text to Speech 服务预览版,提供 45 种语言的 75 种语音。此外,与谷歌 Speech-to-Text 将与 AWS 的 Amazon Transcribe 展开竞争,这是一项功能丰富且通用的服务。而微软的 Speech to Text 服务也仍然只提供了预览版。除了它们之间的竞争,这些服务的用户也表现出了一些喜好,并对它们展开了讨论。在 Hacker News 的一个有关谷歌文本和语音服务的帖子中,一位用户表示:

几乎所有主要的云服务提供商都以一定的价格提供文本转语音服务,那为什么还要构建自己的系统呢,除非云服务提供商的定价占了总成本很大的比例。为什么不继续使用谷歌的这项服务?我们可以等到谷歌把价格提高了再决定后续该怎么做。毕竟,它只是一个 API 调用而已。

Mike Wheatley 最近在 Silicon Angle 的一篇文章中称,谷歌将通过云端文本转语音服务瞄准三个主要市场:

1. 呼叫中心的语音响应系统,Cloud Text-to-Speech 可以为之提供实时的自然语言对话。

2. 物联网领域,特别是汽车信息娱乐系统、电视和机器人等产品,让这些类型的设备能够与 3. 用户交流。播客和有声读物等应用程序,可将文本转换为语音。

开发人员可以尝试使用 Speech-to-Text 和 Cloud Text-to-Speech 服务。有关 Speech-to-Text 服务的定价信息,请参阅定价页面。Text-to-Speech 服务的定价细节也可在相应的定价页面上找到。

查看英文原文 Google Announces General Availability of Cloud Text-to-Speech and Updates to Cloud Speech-to-Text

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2018-09-09 19:002848
用户头像

发布了 731 篇内容, 共 432.3 次阅读, 收获喜欢 1997 次。

关注

评论

发布
暂无评论
发现更多内容

如何用装饰者模式代理final方法

程序员万金游

spring aop #java #程序员 #Spring #后端

一种通过延迟事务提升数据库性能的方法

天翼云开发者社区

数据库

KubeCon China 2023 | 华为ICT开源产业与生态发展团队参会精彩回顾

科技热闻

最强大的iOS应用源码保护工具:Ipa Guard,保护你的商业机密代码

雪奈椰子

什么是API商品数据接口?该怎么使用?

Noah

API 安全 API 文档 API 开发

Spring Boot 中常见且必备的注解解析

Liam

Java 程序员 Spring Boot 后端 注解

[分组聚合]基于Lucene8进行多值字段分组聚合(多属性字段)

alexgaoyh

lucene Spring Boot 分组聚合 单字段 多属性

全面解读 SQL 优化 - 统计信息

KaiwuDB

sql 优化 KaiwuDB

DxO PureRAW for Mac(RAW照片处理器)v3.6.0永久激活版

mac

苹果mac Windows软件 DxO PureRAW raw智能照片处理工具

三个要点,掌握Spring Boot单元测试

互联网工科生

Spring Boot 分层架构 单元测试 JUnit Mockito

深圳华秋电子有限公司与共熵服务中心缔结战略合作伙伴关系

华秋电子

合作伙伴

供应链透明度的代币开发

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 NFT开发

一种提升SQL改写效率的方法

天翼云开发者社区

数据库

语音识别技术的现状及发展趋势

来自四九城儿

阿里云易立:以云原生之力,实现大模型时代基础设施能力跃升 | KubeCon 主论坛分享

阿里巴巴云原生

阿里云 容器 云原生 KubeCON

与创新者同行!Doris Summit Asia 2023 完整议程公开,首届线下峰会邀你报名!

SelectDB

大数据 数据分析 Doris 峰会 数据库、

文心一言 VS 讯飞星火 VS chatgpt (102)-- 算法导论9.3 8题

福大大架构师每日一题

福大大架构师每日一题

4点策略调优!智能外呼助力汽车行业盘活客户价值

中关村科金

智能外呼系统

探索古彝文AI识别技术:助力中国传统文化的传承与发扬

颜淡慕潇

人工智能 算法 AI识别技术 前言技术

JAVA OOM异常最佳实践

Yestodorrow

Java 运维 监控 可观测性 系统性能

EOS系统合约链账户介绍

BSN研习社

<em> 和 <strong> 标签的区别

Lee Chen

html 前端

What's new in Pika v3.5.1

apache/dubbo-go

redis redis sentinel Pika

华秋DFM新功能丨可焊性检查再次升级,抢先体验!

华秋电子

支持信创系统的数据库审计系统有哪些?用哪家好?

行云管家

数据库 信创 数据安全 国产化 数据库审计

长沙企业采购云管平台选哪家厂商?联系电话多少?

行云管家

云计算 云服务 云管理平台 云管平台

前端首屏优化 | 提升首屏的 8 个很简单的手段

Yestodorrow

可观测性 网站性能

基于Java开发的企业人力资源管理系统(招聘、绩效、考勤、酬薪管理)

金陵老街

得物API元数据中心探索与思考

得物技术

API管理 元数据中心 自动解析

Topaz Video AI for mac(视频增强和修复工具) 3.5.2完整激活版

mac

苹果mac Windows软件 Topaz Video AI 视频增强修复工具

首单立减7元华为负一屏买电影票又便宜又快

最新动态

谷歌Text-to-Speech普遍可用,同时发布Speech-to-Text更新_DevOps & 平台工程_Steef-Jan Wiggers_InfoQ精选文章