写点什么

谷歌用于图像识别的机器学习模型已移植至 TensorFlow 并已开源

  • 2016-11-03
  • 本文字数:964 字

    阅读完需:约 3 分钟

随着 announcement 宣布将用于图像识别的 TensorFlow 模型,以及对新老方法的精确度和性能进行比较评测的测试方法开源,谷歌 Google 在过去几年中迈上了一段全新的旅程。2014 年的 Inception V1 ,2015 年的 Inception V2 ,以及最新发布的 Inception V3 模型逐渐完善,分别以 89.6%、91.8%,以及 93.9% 准确度的成绩位居 ImageNet 2012 图像分类测试的前五名。在使用 BLEU -4 指标衡量机器生成的注解的测试中,通过将一种自然语言的语句翻译成另一种语言并对准确度进行比较,基于TensorFlow 的方法相比原本最先进的 DistBelief 模型也取得了领先两分的成绩。

在从原有实现中移植模型,并对其进行完善的过程中,最重要的问题之一在于对图像中的对象进行分类,以及对对象进行描述并将一张图像中的对象与另一张图像中的对象进行关联。为了解决这一问题,该模型在分类操作之外增加了一个微调操作,可以让模型提取用于描述对象细节的有用信息。通过将图像分类操作拆分为多个步骤,首先识别其他操作中确定的对象,并增加形容和预处理操作,并为要处理的注解提供必要的结构,使其在语句结构上更为准确,更类人。

该模型有一个范例:识别铁轨上的火车图像,随后识别火车为黄色夹杂着蓝色。最终合成的结果识别为:黄蓝相间的火车正行驶在铁轨上。虽然在本例中模型能否确定静态图片中对象是运动中的或静止的并不重要,但所输入图像的注解在训练数据中将类似图像中的对象描述为运动中的或静止的,这很重要。

该模型可将之前学习到的图像注解中的不同元素组合在一起,针对更多图像创建全新的注解,新的图像中可以包含多个已分类对象,但所有对象并未包含在同一个训练数据集中。在这个范例中,该模型自行创建出一个之前并不存在的注解。

在对原有模型的实现与新的模型进行性能评测对比发现,在通过Nvidia K20 GPU 运行DistBelief 以及全新的基于TensorFlow 的Inception V3 进行的性能对比中,TensorFlow 的训练时间(0.7 秒)仅为DistBelief(3.0 秒)的25%。除了基于TensorFlow 的Inception V3 图像分类模型,谷歌还提到了即将发布 Inception-ResNet-v2 模型,但并未谈到有关该模型的性能评测信息。虽然未使用训练数据集,但他们会通过人工生成的图像注解作为最基础的训练数。

查看 **** 英文原文 Google Machine Learning Models for Image Captioning Ported to TensorFlow and Open-Sourced

2016-11-03 19:005968
用户头像

发布了 283 篇内容, 共 123.9 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

Centos7下安装Dogtail GUI自动化测试工具并打开sniff工具过程中遇到的问题解决方法

Python centos 自动化测试 sniff dogtail

直播报名 | 金融机构如何通过标签画像实现精细化客户运营?

索信达控股

Python从零到壹丨详解图像平滑的两种非线性滤波方法

华为云开发者联盟

Python 人工智能 华为云 华为云开发者联盟 企业号 3 月 PK 榜

寻找机器人:为什么我们不应该“隐藏人类”

开源雨林

开源 聊天机器人 ChatGPT

备战两个月斩获阿里offer,这份《Java高分面试指南》也太顶了

Java java面试 Java八股文 Java面试题 Java面试八股文

字典数据结构 FST(Finite State Transducer)

alexgaoyh

Java Trie FST dat 字典数据结构

龙蜥白皮书精选:面向 DPU 场景的软硬协同协议栈

OpenAnolis小助手

开源 云原生 内核 SMC协议栈 TCP应用

如何使用openEuler用户软件仓(EUR)

openEuler

Linux 操作系统 openEuler rpm 软件包

分享5个我不能没有的Vue.js库

引迈信息

前端 低代码 开发工具 Vue 3

99%都不知道的ins保存小技巧,快收藏起来!

frank

ins

全球化趋势下,如何建设稳定高效的技术能力?

阿里技术

全球化技术

MySQL 底层之 MVCC、回滚段、一致性读、锁定读

程序知音

聊聊游戏业务怎么用高斯Redis

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

2023年深圳.NET线下技术沙龙要开始了!名额有限,报名从速

MASA技术团队

.net MASA

API Gateway vs Load Balancer:选择适合你的网络流量管理组件

API7.ai 技术团队

华为云开年采购季火热进行中,四大福利玩法大放送

极客天地

中建信息举办2022年度核心生态伙伴高峰论坛

极客天地

MegEngine 使用小技巧:借助 DataLoader 获取分批数据

MegEngineBot

深度学习 开源 模型训练 数据预处理 MegEngine

三天吃透Kafka面试八股文

程序员大彬

Java Kafka Producer

cost量化分析

GreatSQL

MySQL 运维 :MySQL 数据库 greatsql greatsql社区

还不知道如何在java中终止一个线程?快来,一文给你揭秘

程序那些事

线程 多线程 「Java 25周年」 程序那些事 java

「金三银四」这些面试题,看看你会答几道?

王中阳Go

Go 后端 面试题 简历优化 就业辅导

FTP VS镭速传输,小文件传输技术内有乾坤

镭速

软件测试/测试开发 | Spring Boot 集成 Swagger

测试人

软件测试 springboot 测试发开

Redis实现分布式锁的几种方案

GreatSQL

greatsql greatsql社区

20个叹为观止的JavaScript一行代码

我爱娃哈哈😍

JavaScript 前端 程序員

关于DAPP系统开发操作及功能丨智能合约项目系统开发方案

I8O28578624

开源工具系列5:DependencyCheck

HummerCloud

再见ChatGPT!又一值得国内程序员注册体验的AI生产力工具问世!

程序员小毕

AI 工具 后端 架构师 java程序员

删库跑路现场还原

Yestodorrow

系统稳定性

MySQL 8.0数据字典有什么变化

GreatSQL

MySQL MySQL 运维 :MySQL 数据库 greatsql greatsql社区

谷歌用于图像识别的机器学习模型已移植至TensorFlow并已开源_AI&大模型_Dylan Raithel_InfoQ精选文章