Google Cloud Vision API:改变应用程序对于图像的理解方

  • 张天雷

2015 年 12 月 15 日

话题:Google语言 & 开发架构

文本搜索是当前最主要的搜索方式,它通过输入的文本来搜索与文本信息关联最大的网页、图片、新闻、音乐、地图等内容。可是目前对于图片和视频的搜索来说,现在还是一个难点,主要的原因是图像识别技术在有效性和高效性方面还不能很好地满足用户需求。但是,最近 Google 发布了一款强大的图像识别工具 Cloud Vision API,通过这个工具或许可以给图片搜索带来一些新的改变。对于开发者们来说,这将会是一个非常有用的工具,有了它,开发者们就可以让自己的应用程序或者机器人更好地理解图像上的信息。

Cloud Vision API 已经搭载了像 TensorFlow 这样的机器学习平台,可以帮助由开发者所开发的应用程序高效地学习和预测图像的内容。Cloud Vision API 将一些成熟的机器学习模型封装为一个易于使用的 REST API。它可以快速地将图片分为数千种类别(例如:“船”、“狮子”、“艾菲尔铁塔”),并能够识别图片中人脸的情感,还可以识别多种语言的文字。借助这款 API,开发者可以构建出一个带各种标签的图库元数据,也能够通过图片情感分析策划出新的营销方案。

Google Cloud Vision API 在图像识别中拥有众多吸引人的功能:

实体检测:通过挑选出图像中主要的实体(如一辆汽车,一只猫),开发者可以使用 API 在对象类别中轻松地建立元数据,还可以构建新的应用场景,例如基于图片的搜索和推荐。

字符识别:通过检索图像中的文本信息,Google Cloud Vision API 可以提供自动语言识别的功能,并支持各种语言。

安全检测:通过检测图像中的不当内容,并搭载 Google 安全搜索使得开发者能够轻容纳基于众包的内容。

面部检测:通过检测图像中是否存在人脸,以及相关的面部特征(如眼睛、鼻子和嘴巴的位置),Google Cloud Vision API 提供分析 8 种情绪(高兴、悲伤等)的可能性。目前 Google Cloud Vision API 还不支持人脸识别,也没有在任何谷歌服务器上存储面部检测信息。

地标检测:Google Cloud Vision API 不仅可以确定自然的或人造的地标,同时也可以确定地标的经度和纬度。

标志检测:通过识别一副图像中的产品标识,Cloud Vision API 可以识别产品品牌 LOGO。

目前,用户可以通过将图像作为请求的一部分来调用 API。Google 表示下一阶段 Cloud Vision API 将集成 Google 云存储服务,使它的应用更为广泛。

为了展示 Cloud Vision API 的作用,Cloud Vision API 的工程师给出了一个简单的例子,如下图所示,图中展示了通过 Cloud Vision API 识别的目标的类别,以及相应的概率。

水果类识别

运动类识别

地址识别

在图像识别领域,亚马逊和微软已经走了很远。大家可能注意到微软在之前推出过进行年龄和情感识别的工具,这些都出自于微软专注于人工智能领域的“牛津计划”。Google 当然也不想落后,之前,Google 也推出过一些进行预测的 API 产品,但性能都不是十分令人满意,而且没有涉及到图像识别方面。因此,Cloud Vision API 的推出对 Google 来说也算是一次大的突破。


感谢董志南对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

Google语言 & 开发架构