10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

谷歌用于图像识别的机器学习模型已移植至 TensorFlow 并已开源

  • 2016-11-03
  • 本文字数:964 字

    阅读完需:约 3 分钟

随着 announcement 宣布将用于图像识别的 TensorFlow 模型,以及对新老方法的精确度和性能进行比较评测的测试方法开源,谷歌 Google 在过去几年中迈上了一段全新的旅程。2014 年的 Inception V1 ,2015 年的 Inception V2 ,以及最新发布的 Inception V3 模型逐渐完善,分别以 89.6%、91.8%,以及 93.9% 准确度的成绩位居 ImageNet 2012 图像分类测试的前五名。在使用 BLEU -4 指标衡量机器生成的注解的测试中,通过将一种自然语言的语句翻译成另一种语言并对准确度进行比较,基于TensorFlow 的方法相比原本最先进的 DistBelief 模型也取得了领先两分的成绩。

在从原有实现中移植模型,并对其进行完善的过程中,最重要的问题之一在于对图像中的对象进行分类,以及对对象进行描述并将一张图像中的对象与另一张图像中的对象进行关联。为了解决这一问题,该模型在分类操作之外增加了一个微调操作,可以让模型提取用于描述对象细节的有用信息。通过将图像分类操作拆分为多个步骤,首先识别其他操作中确定的对象,并增加形容和预处理操作,并为要处理的注解提供必要的结构,使其在语句结构上更为准确,更类人。

该模型有一个范例:识别铁轨上的火车图像,随后识别火车为黄色夹杂着蓝色。最终合成的结果识别为:黄蓝相间的火车正行驶在铁轨上。虽然在本例中模型能否确定静态图片中对象是运动中的或静止的并不重要,但所输入图像的注解在训练数据中将类似图像中的对象描述为运动中的或静止的,这很重要。

该模型可将之前学习到的图像注解中的不同元素组合在一起,针对更多图像创建全新的注解,新的图像中可以包含多个已分类对象,但所有对象并未包含在同一个训练数据集中。在这个范例中,该模型自行创建出一个之前并不存在的注解。

在对原有模型的实现与新的模型进行性能评测对比发现,在通过Nvidia K20 GPU 运行DistBelief 以及全新的基于TensorFlow 的Inception V3 进行的性能对比中,TensorFlow 的训练时间(0.7 秒)仅为DistBelief(3.0 秒)的25%。除了基于TensorFlow 的Inception V3 图像分类模型,谷歌还提到了即将发布 Inception-ResNet-v2 模型,但并未谈到有关该模型的性能评测信息。虽然未使用训练数据集,但他们会通过人工生成的图像注解作为最基础的训练数。

查看 **** 英文原文 Google Machine Learning Models for Image Captioning Ported to TensorFlow and Open-Sourced

2016-11-03 19:005817
用户头像

发布了 283 篇内容, 共 119.5 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

帮你整理好了,AI 网关的 8 个常见应用场景

阿里巴巴云原生

阿里云 微服务 云原生

HarmonyOS NEXT AI基础语音服务-文章播报

zhousg

Java的IO模型、Netty原理详解

卷福同学

Java Netty nio 面试‘

Mac磁盘克隆工具 DoYourClone注册码

Rose

Automation Anywhere财报公布

财见

众合云科VI设计斩获法国双面神等国际权威大奖

财见

什么是 OLAP 数据库?企业如何选择适合自己的分析工具

镜舟科技

数据分析 StarRocks 查询性能 OLAP 数据库 MPP架构

必读文章3-所有的无用,都是有用的

玄兴梦影

学习 成长 能力提升 工作 阅读

HarmonyOS NEXT AI基础视觉服务-背景替换

zhousg

Screen Studio for Mac(屏幕录制软件)v3.1.1激活版

Rose

极速启动,SAE 弹性加速全面解读

阿里巴巴云原生

阿里云 云原生

(网页直接编辑DWG)在线CAD配置属性的使用教程

WEB CAD SDK

Go 语言常见错误——并发编程实践

FunTester

StarRocks 存算分离在京东物流的落地实践

StarRocks

数据库 OLAP 存算分离 StarRocks 湖仓一体

HarmonyOS NEXT AI基础视觉服务-文字识别

zhousg

HarmonyOS NEXT AI基础视觉服务-人脸对比

zhousg

迈向群体智能 | 智源发布首个跨本体具身大小脑协作框架与开源具身大脑

智源研究院

精度调优|conv+depth2space 替换 resize 指导

地平线开发者

自动驾驶 算法工具链 地平线征程6

飞凯材料拟收购JNC株式会社旗下重要资产及相关专利,深化液晶产业布局

财见

HarmonyOS NEXT AI基础视觉服务-人脸识别

zhousg

大模型应用联网搜索:重塑智能时代的交互与决策

阿里巴巴云原生

阿里云 云原生

必收藏!借助京东商品列表 API,搭建电商数据中枢

tbapi

京东API 京东商品数据采集 京东商品列表接口

征程 6E mipi tx 系列之方案介绍

地平线开发者

自动驾驶 系统软件 算法工具链 地平线征程6

HarmonyOS NEXT AI基础语音服务-语音输入

zhousg

揭秘自动驾驶的"眼睛"——目标检测技术

JustYan

人工智能 自动驾驶 少儿编程

【HarmonyOS 5】初学者如何高效的学习鸿蒙?

GeorgeGcs

鸿蒙 入门 初学者 开源鸿蒙 学习思路

《2024年专利指数》报告:中国在欧洲的专利申请量创历史新高

财见

《Operating System Concepts》阅读笔记:p491-p494

codists

操作系统

CompletableFuture原理及应用场景详解

卷福同学

Java 面试 CompletableFuture

阿里云下一代可观测时序引擎-MetricStore 2.0

阿里巴巴云原生

阿里云 云原生

赛博威智慧导购平台,融合AI激活一线导购效能,破局增长瓶颈

赛博威科技

#智慧导购 #数字营销 #赛博威

谷歌用于图像识别的机器学习模型已移植至TensorFlow并已开源_AI&大模型_Dylan Raithel_InfoQ精选文章