写点什么

谷歌用于图像识别的机器学习模型已移植至 TensorFlow 并已开源

  • 2016-11-03
  • 本文字数:964 字

    阅读完需:约 3 分钟

随着 announcement 宣布将用于图像识别的 TensorFlow 模型,以及对新老方法的精确度和性能进行比较评测的测试方法开源,谷歌 Google 在过去几年中迈上了一段全新的旅程。2014 年的 Inception V1 ,2015 年的 Inception V2 ,以及最新发布的 Inception V3 模型逐渐完善,分别以 89.6%、91.8%,以及 93.9% 准确度的成绩位居 ImageNet 2012 图像分类测试的前五名。在使用 BLEU -4 指标衡量机器生成的注解的测试中,通过将一种自然语言的语句翻译成另一种语言并对准确度进行比较,基于TensorFlow 的方法相比原本最先进的 DistBelief 模型也取得了领先两分的成绩。

在从原有实现中移植模型,并对其进行完善的过程中,最重要的问题之一在于对图像中的对象进行分类,以及对对象进行描述并将一张图像中的对象与另一张图像中的对象进行关联。为了解决这一问题,该模型在分类操作之外增加了一个微调操作,可以让模型提取用于描述对象细节的有用信息。通过将图像分类操作拆分为多个步骤,首先识别其他操作中确定的对象,并增加形容和预处理操作,并为要处理的注解提供必要的结构,使其在语句结构上更为准确,更类人。

该模型有一个范例:识别铁轨上的火车图像,随后识别火车为黄色夹杂着蓝色。最终合成的结果识别为:黄蓝相间的火车正行驶在铁轨上。虽然在本例中模型能否确定静态图片中对象是运动中的或静止的并不重要,但所输入图像的注解在训练数据中将类似图像中的对象描述为运动中的或静止的,这很重要。

该模型可将之前学习到的图像注解中的不同元素组合在一起,针对更多图像创建全新的注解,新的图像中可以包含多个已分类对象,但所有对象并未包含在同一个训练数据集中。在这个范例中,该模型自行创建出一个之前并不存在的注解。

在对原有模型的实现与新的模型进行性能评测对比发现,在通过Nvidia K20 GPU 运行DistBelief 以及全新的基于TensorFlow 的Inception V3 进行的性能对比中,TensorFlow 的训练时间(0.7 秒)仅为DistBelief(3.0 秒)的25%。除了基于TensorFlow 的Inception V3 图像分类模型,谷歌还提到了即将发布 Inception-ResNet-v2 模型,但并未谈到有关该模型的性能评测信息。虽然未使用训练数据集,但他们会通过人工生成的图像注解作为最基础的训练数。

查看 **** 英文原文 Google Machine Learning Models for Image Captioning Ported to TensorFlow and Open-Sourced

2016-11-03 19:005855
用户头像

发布了 283 篇内容, 共 120.9 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

火山引擎推出一站式小程序监控方案

字节跳动终端技术

走进RocketMQ(一)整体架构与设计

白裤

Java RocketMQ RocketMQ整体架构 RocketMQ设计

那些高级前端是如何回答面试题的

Geek_02d948

JavaScript 前端

设计模式第八讲:观察者模式和中介者模式详解

C++后台开发

数据结构 设计模式 后端开发 Linux服务器开发 C++开发

JS词法环境和执行上下文

hellocoder2029

JavaScript 前端

用es6的class类单例模式封装canvas环形进度条

咖啡教室

Window 的 PHP XAMPP 安装 mongodb 的扩展

HoneyMoose

fastposter v2.12.0 ChatGPT都推荐的海报生成器

物有本末

fastposter 海报生成器 海报生成

前端一面必会面试题(边面边更)

coder2028

JavaScript 前端

2023年:我成了半个外包

Java 架构

秒懂算法 | 基于朴素贝叶斯算法的垃圾信息的识别

TiAmo

机器学习 算法 过滤算法

大模型时代的异构计算平台

Baidu AICLOUD

大模型训练 异构计算

会声会影2023官方试用版更新下载功能详细介绍

茶色酒

会声会影2023

Vue模板是怎样编译的

yyds2026

Vue 前端

使用一个文件集中管理你的 Nuget 依赖版本号

newbe36524

C# Docker Kubernetes

Node.js实现大文件断点续传

coder2028

JavaScript 前端

Jmeter安装配置详细教程

Jmeter 性能测试 接口测试

Pycharm+PyQt5+Python3.5开发环境配置(详细教程)

Python pycharm 环境安装 PyQt PyQt5

Continuous profiling 拯救了 Victoria Metrics

golang 性能优化 可观测性 Prometheus 性能分析

Corel VideoStudio会声会影2023中文语言版本

茶色酒

会声会影2023

python+requests+excel+unittest+ddt接口自动化数据驱动并生成html报告(优化版)

Python 单元测试 自动化测试 unittest 测试框架

基于selenium的UI自动化实践

Python 自动化测试 selenium

一文读透react精髓

xiaofeng

前端 React

产品经理,项目经理,FTO

laofo

DevOps cicd 敏捷开发 研发效能 持续交付

开发一款wordpress插件并发布到官方插件库完全指南,小白也可以

咖啡教室

LeetCode题解:633. 平方数之和,双指针,JavaScript,详细注释

Lee Chen

JavaScript 算法 LeetCode

会声会影2023简体中文试用版下载

茶色酒

会声会影2023

字节前端二面高频vue面试题整理

yyds2026

Vue 前端

CDR2023新功能抢先看

茶色酒

cdr2023

Selenium启动IE11常见问题解决方法

自动化测试 selenium IE

2023-02-23:请用go语言调用ffmpeg,解码mp4文件并保存为YUV420P格式文件。

福大大架构师每日一题

golang ffmpeg 福大大

谷歌用于图像识别的机器学习模型已移植至TensorFlow并已开源_AI&大模型_Dylan Raithel_InfoQ精选文章