10 月 23 - 25 日,QCon 上海站即将召开,现在大会已开始正式报名,可以享受 8 折优惠 了解详情
写点什么

谷歌用于图像识别的机器学习模型已移植至 TensorFlow 并已开源

  • 2016-11-03
  • 本文字数:964 字

    阅读完需:约 3 分钟

随着 announcement 宣布将用于图像识别的 TensorFlow 模型,以及对新老方法的精确度和性能进行比较评测的测试方法开源,谷歌 Google 在过去几年中迈上了一段全新的旅程。2014 年的 Inception V1 ,2015 年的 Inception V2 ,以及最新发布的 Inception V3 模型逐渐完善,分别以 89.6%、91.8%,以及 93.9% 准确度的成绩位居 ImageNet 2012 图像分类测试的前五名。在使用 BLEU -4 指标衡量机器生成的注解的测试中,通过将一种自然语言的语句翻译成另一种语言并对准确度进行比较,基于TensorFlow 的方法相比原本最先进的 DistBelief 模型也取得了领先两分的成绩。

在从原有实现中移植模型,并对其进行完善的过程中,最重要的问题之一在于对图像中的对象进行分类,以及对对象进行描述并将一张图像中的对象与另一张图像中的对象进行关联。为了解决这一问题,该模型在分类操作之外增加了一个微调操作,可以让模型提取用于描述对象细节的有用信息。通过将图像分类操作拆分为多个步骤,首先识别其他操作中确定的对象,并增加形容和预处理操作,并为要处理的注解提供必要的结构,使其在语句结构上更为准确,更类人。

该模型有一个范例:识别铁轨上的火车图像,随后识别火车为黄色夹杂着蓝色。最终合成的结果识别为:黄蓝相间的火车正行驶在铁轨上。虽然在本例中模型能否确定静态图片中对象是运动中的或静止的并不重要,但所输入图像的注解在训练数据中将类似图像中的对象描述为运动中的或静止的,这很重要。

该模型可将之前学习到的图像注解中的不同元素组合在一起,针对更多图像创建全新的注解,新的图像中可以包含多个已分类对象,但所有对象并未包含在同一个训练数据集中。在这个范例中,该模型自行创建出一个之前并不存在的注解。

在对原有模型的实现与新的模型进行性能评测对比发现,在通过Nvidia K20 GPU 运行DistBelief 以及全新的基于TensorFlow 的Inception V3 进行的性能对比中,TensorFlow 的训练时间(0.7 秒)仅为DistBelief(3.0 秒)的25%。除了基于TensorFlow 的Inception V3 图像分类模型,谷歌还提到了即将发布 Inception-ResNet-v2 模型,但并未谈到有关该模型的性能评测信息。虽然未使用训练数据集,但他们会通过人工生成的图像注解作为最基础的训练数。

查看 **** 英文原文 Google Machine Learning Models for Image Captioning Ported to TensorFlow and Open-Sourced

2016-11-03 19:005796
用户头像

发布了 283 篇内容, 共 118.9 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

【交付高质量,用户高增长】-用户增长质量保证方法论 | 京东云技术团队

京东科技开发者

质量管理 测试 测试 单元测试 质量保证 企业号10月PK榜

体验提升-一个“小技巧”彻底解决锦礼商品可见不可售 | 京东云技术团队

京东科技开发者

算法 过滤算法 企业号10月PK榜

GLB/GLTF在线纹理编辑

3D建模设计

GLTF glb 材质 纹理 贴图

体验用深信服XDR+GPT工作的一天!事关每一位安全运营人员

科技热闻

产品经理的API文档阅读指南

Noah

产品经理 API接口文档

白皮书商业计划书编写 了解白皮书在区块链稳定币开发中的作用

区块链软件开发推广运营

数字藏品开发 dapp开发 区块链开发 链游开发 NFT开发

营销黑科技再升级:百度营销擎舵数字人4.0 带来哪些惊喜?

极客天地

Redis魔法:点燃分布式锁的奇妙实现

互联网工科生

分布式锁 redis 底层原理

AI & Web3 盛会「EDGE」在港闭幕,融云国际影响力持续提升

融云 RongCloud

AI 技术 edge 峰会 web3

技术分享| 二进制部署MySQL

anyRTC开发者

数据库 音视频 私有云 ​MySQL

搞流式计算,大厂也没有什么神话

字节跳动云原生计算

flink 云原生 流式计算

基于 P-Tuning v2 进行 ChatGLM2-6B 微调实践 | 京东云技术团队

京东科技开发者

人工智能’ ChatGLM2-6B 企业号10月PK榜

GPT-4 即将超越拐点;5.5G 手机或明年上半年商用;AI 音乐或将成行业标配丨 RTE 开发者日报 Vol.65

声网

产品经理视角 | API接口知识小结

Noah

产品经理 API接口文档 API产品经理

循环数组,一个可以释放无锁队列的力量

华为云开发者联盟

后端 开发 华为云 华为云开发者联盟

记一次Redis Cluster Pipeline导致的死锁问题

vivo互联网技术

dubbo 死锁 redis cluster pipeline Arthas

FISCO BCOS | 构建第一个区块链应用程序

BSN研习社

区块链 FISCO BCOS 区块链开发

DApp钱包OP链智能合约质押挖矿系统开发源码丨案例丨演示

l8l259l3365

CogVLM:智谱AI 新一代多模态大模型

极客天地

云起无垠参编中国信通院《软件供应链安全能力中心建设指南》正式发布

云起无垠

即时通讯音视频开发(二十):一文读懂视频的颜色模型转换和色域转换

JackJiang

网络编程 即时通讯 IM

渲染软件大盘点!快来看看你适合哪款吧!

Finovy Cloud

渲染 渲染软件

深度学习之目标定位

矩视智能

机器视觉 深度学习、

【信创】 JED on 鲲鹏(ARM) 调优步骤与成果 | 京东云技术团队

京东科技开发者

数据库 信创 arm 企业号10月PK榜

云上第一课开播在即!和明星学长一起走进云安全

科技热闻

Mac电脑屏幕分辨率修改 SwitchResX正式激活版

胖墩儿不胖y

Mac软件 屏幕分辨率工具 分辨率调整软件

【论文解读】人工智能时代的科学发现

合合技术团队

人工智能 数据 科学

再创新高!深开鸿OpenHarmony社区代码贡献量超过200万行!

极客天地

@Scope 注解失效了?咋回事

江南一点雨

Java spring

谷歌用于图像识别的机器学习模型已移植至TensorFlow并已开源_AI&大模型_Dylan Raithel_InfoQ精选文章