Google发力智能识别：Cloud Speech API正式发布

Google 在近期的博客帖子中，宣布它们的Cloud Speech API 正式发布。Cloud Speech API 允许开发人员添加预先训练好的机器学习模型，用于视频、图像和文本分析中的识别任务，并可实现动态翻译。Cloud Speech API 曾于去年夏天以测试版发布。

Cloud Speech API 使用了基于神经网络的语音识别技术，该技术源自于 Google 自身的语音产品 Google Assistant 和 Google Home。Cloud Speech API 服务当前支持超过 80 种语言及其变种。它采用两种语音输入模式：

实时数据流模式，在用户说话的同时，就以提示的方式给出说话的文本内容。
批处理模式，实现将录制的语音转录为文本的功能。

通过对背景噪声的过滤，该服务在有噪音的环境中也能正常工作。此外，通过在词典中新添单词或短语，该服务也可以从单词和短语提示中进行学习。

Google 在正式发布中添加了一些新特性，并从如下方面改进了性能：

提高了长语音转写为文本的准确性；
更快的处理速度，在批处理场景中比前期版本要快三倍；
扩展了支持的文件格式，现在支持 WAV、Opus 和 Speex。

在近期的 Google Cloud Next 2017 大会上，Google 的产品经理 Dan Aharon 做了一个演讲，其中介绍了Cloud Speech API 的一些用例，包括使用移动设备的人机交互，以及Web 和IoT 应用。该服务也已用于生成客户服务业务中的语音分析。

图片来源： https://www.youtube.com/watch?v=7w_w01EGC7U 的截图。

Aharon 还探讨了推动语音应用发展背后的原因，以及为什么说语音应用现在达到了一个拐点：

语音更快速（可达每分钟 150 个单词，输入只能达到每分钟 20 到 40 个单词）；

易于应用（无需操作各层的用户界面）；

更便捷（操作无需占用双手）；

现在超过 20% 的 Android 应用搜索是使用语音完成的；

Google Home、Google Pixel 和 Amazon Echo 等“随时倾听”（Always Listening）设备正成为主流应用。

Google 还演示了一些用户场景，以此展现了 Cloud Speech API 的功能。给出的第一个例子是一个名为“Azar”的移动设备上的聊天应用。用户可以使用 Azar 与他人开展实时视频聊天。Azar 不仅提供视频流和音频流，用户还可以选取语言进行语音转录。迄今为止，Azar 已实现了超过 150 亿次的配对聊天，具备了大规模提供服务的能力。

图片来源： https://www.youtube.com/watch?v=7w_w01EGC7U 的截图。

Google 演示的另一个用例关注的是客户服务。现在很多企业在通过电话提供客户服务时，首先会给出一个提示，告知用户为实现满意的客户服务，之后进行的对话将会被录音。但是企业是如何处理这些录音数据的？InteractiveTel 的 CTO Gary Graves指出，通常只有在与客户发生争执时才会复审这些录音。但是在 Graves看来，这种做法会令汽车经销商等企业失去不少商机：

不仅可使我们的汽车经销商客户完成更多销售量，而且会转变工作心态，因为经销商中的每个员工都要负起责任。经销商需要部署对记录或监控的解决方案，并且让员工知道已部署了这样的方案。但是目前对信息的使用是响应式的，即只有在存在问题时才会借助于这些信息。如果使用了 Cloud Speech 服务，就可以从这些对话信息中挖掘出可用的情报，经销商可以授权销售人员提供更主动的服务，提升客户服务的层级。

InteractiveTel 的产品为汽车经销商提供了对通话进行转录和情感分析的解决方案，可以将实时进行的电话通话提交使用了 Google Speech API 的 InteractiveTel 平台。由此，可为汽车经销商的销售团队创建切实可行的问题洞察，并根据每次通话确定客户的情感。

图片来源： https://www.youtube.com/watch?v=7w_w01EGC7U 的截图。

在 Google Cloud Next 2017 大会上，Graves 代表 InteractiveTel演示了他们的技术是如何提供实时语音转录为文字、关键字检测及情感分析等功能。Graves 认为，即便客户不愿意提供合同信息，依然可以大量捕获客户对产品的需求，这些需求不再依赖于单个销售人员在销售体系中准确地捕获。

图片来源： https://www.youtube.com/watch?v=7w_w01EGC7U 的截图。

查看英文原文： Google Invests In Cognitive: Cloud Speech API Reaches General Availability

创作场景

Google 发力智能识别：Cloud Speech API 正式发布