写点什么

谷歌用于图像识别的机器学习模型已移植至 TensorFlow 并已开源

  • 2016-11-03
  • 本文字数:964 字

    阅读完需:约 3 分钟

随着 announcement 宣布将用于图像识别的 TensorFlow 模型,以及对新老方法的精确度和性能进行比较评测的测试方法开源,谷歌 Google 在过去几年中迈上了一段全新的旅程。2014 年的 Inception V1 ,2015 年的 Inception V2 ,以及最新发布的 Inception V3 模型逐渐完善,分别以 89.6%、91.8%,以及 93.9% 准确度的成绩位居 ImageNet 2012 图像分类测试的前五名。在使用 BLEU -4 指标衡量机器生成的注解的测试中,通过将一种自然语言的语句翻译成另一种语言并对准确度进行比较,基于TensorFlow 的方法相比原本最先进的 DistBelief 模型也取得了领先两分的成绩。

在从原有实现中移植模型,并对其进行完善的过程中,最重要的问题之一在于对图像中的对象进行分类,以及对对象进行描述并将一张图像中的对象与另一张图像中的对象进行关联。为了解决这一问题,该模型在分类操作之外增加了一个微调操作,可以让模型提取用于描述对象细节的有用信息。通过将图像分类操作拆分为多个步骤,首先识别其他操作中确定的对象,并增加形容和预处理操作,并为要处理的注解提供必要的结构,使其在语句结构上更为准确,更类人。

该模型有一个范例:识别铁轨上的火车图像,随后识别火车为黄色夹杂着蓝色。最终合成的结果识别为:黄蓝相间的火车正行驶在铁轨上。虽然在本例中模型能否确定静态图片中对象是运动中的或静止的并不重要,但所输入图像的注解在训练数据中将类似图像中的对象描述为运动中的或静止的,这很重要。

该模型可将之前学习到的图像注解中的不同元素组合在一起,针对更多图像创建全新的注解,新的图像中可以包含多个已分类对象,但所有对象并未包含在同一个训练数据集中。在这个范例中,该模型自行创建出一个之前并不存在的注解。

在对原有模型的实现与新的模型进行性能评测对比发现,在通过Nvidia K20 GPU 运行DistBelief 以及全新的基于TensorFlow 的Inception V3 进行的性能对比中,TensorFlow 的训练时间(0.7 秒)仅为DistBelief(3.0 秒)的25%。除了基于TensorFlow 的Inception V3 图像分类模型,谷歌还提到了即将发布 Inception-ResNet-v2 模型,但并未谈到有关该模型的性能评测信息。虽然未使用训练数据集,但他们会通过人工生成的图像注解作为最基础的训练数。

查看 **** 英文原文 Google Machine Learning Models for Image Captioning Ported to TensorFlow and Open-Sourced

2016-11-03 19:005928
用户头像

发布了 283 篇内容, 共 122.9 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

一文读懂Penpad 以 Fair Launch 方式推出的首个资产 PEN

股市老人

App前端开发跨平台框架比较:React Native、Flutter、Xamarin等

天津汇柏科技有限公司

App app定制开发 软件开发定制

SpringBoot混淆代码,防止反编译代码泄露

源字节1号

开源 软件开发 前端开发 后端开发 小程序开发

如何将Word一键转PPT?收好这3个办公提效神器!

彭宏豪95

效率 PPT 在线白板 办公软件 AI工具

我正在使用React Native (Expo) 开源一个精美的电商购物应用。

Geek_9da61c

产品设计 软件开发 开源中国 品牌设计

大模型基础应用框架(ReACT\SFT\RAG)创新及零售业务落地

京东零售技术

人工智能 算法 大模型 agent ChatGPT

一文读懂Penpad 以 Fair Launch 方式推出的首个资产 PEN

股市老人

华为云低代码Astro企业应用 Astro Pro上线啦!

低代码 华为云 公测

自定义限速功能实践——Map版本

FunTester

华为云时习知&成都大学附属医院,打造“互联网+医疗”标杆

轶天下事

Git 安全远程访问:SSH 密钥对生成、添加和连接步骤解析

小万哥

git 程序人生 编程语言 软件工程 后端开发

一文读懂Penpad 以 Fair Launch 方式推出的首个资产 PEN

加密眼界

百度AI,能否“投”出未来?

自象限

百度 AI

华为智慧教室3.0的晨光,点亮教育智能化变革

脑极体

AI

融云 IM 史无前例五折优惠!

融云 RongCloud

一文读懂Penpad 以 Fair Launch 方式推出的首个资产 PEN

BlockChain先知

AIGC 周报(2.26~3.03)

AIGC Weekly 周报

人工智能 AI AI应用 openai AIGC

带你全方位体验 Amazon Connect

亚马逊云科技 (Amazon Web Services)

牛市初期,Penpad 以 Fair Launch 方式推出首个资产 PEN

石头财经

技术管理者如何避免被裁掉(1)

芃篙君

管理

作业12

大肚皮狒狒

无惧“高基数”数据挑战,TDengine 携手树根互联

TDengine

tdengine 时序数据库

HttpMessageConverter添加java8 LocateTime时间转换

智慧源点

企业架构设计原则之理念领先性

凌晞

架构设计原则

万字长文讲解关于LowCode你需要知道的一切

canonical

DDD 低代码 软件架构 可逆计算 Nop平台

再聊对架构决策记录的一些思考

疯狂架构

架构设计实战 架构决策记录 ADR

编程究竟难在哪?

算法的秘密

谷歌用于图像识别的机器学习模型已移植至TensorFlow并已开源_AI&大模型_Dylan Raithel_InfoQ精选文章