2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

谷歌用于图像识别的机器学习模型已移植至 TensorFlow 并已开源

  • 2016-11-03
  • 本文字数:964 字

    阅读完需:约 3 分钟

随着 announcement 宣布将用于图像识别的 TensorFlow 模型,以及对新老方法的精确度和性能进行比较评测的测试方法开源,谷歌 Google 在过去几年中迈上了一段全新的旅程。2014 年的 Inception V1 ,2015 年的 Inception V2 ,以及最新发布的 Inception V3 模型逐渐完善,分别以 89.6%、91.8%,以及 93.9% 准确度的成绩位居 ImageNet 2012 图像分类测试的前五名。在使用 BLEU -4 指标衡量机器生成的注解的测试中,通过将一种自然语言的语句翻译成另一种语言并对准确度进行比较,基于TensorFlow 的方法相比原本最先进的 DistBelief 模型也取得了领先两分的成绩。

在从原有实现中移植模型,并对其进行完善的过程中,最重要的问题之一在于对图像中的对象进行分类,以及对对象进行描述并将一张图像中的对象与另一张图像中的对象进行关联。为了解决这一问题,该模型在分类操作之外增加了一个微调操作,可以让模型提取用于描述对象细节的有用信息。通过将图像分类操作拆分为多个步骤,首先识别其他操作中确定的对象,并增加形容和预处理操作,并为要处理的注解提供必要的结构,使其在语句结构上更为准确,更类人。

该模型有一个范例:识别铁轨上的火车图像,随后识别火车为黄色夹杂着蓝色。最终合成的结果识别为:黄蓝相间的火车正行驶在铁轨上。虽然在本例中模型能否确定静态图片中对象是运动中的或静止的并不重要,但所输入图像的注解在训练数据中将类似图像中的对象描述为运动中的或静止的,这很重要。

该模型可将之前学习到的图像注解中的不同元素组合在一起,针对更多图像创建全新的注解,新的图像中可以包含多个已分类对象,但所有对象并未包含在同一个训练数据集中。在这个范例中,该模型自行创建出一个之前并不存在的注解。

在对原有模型的实现与新的模型进行性能评测对比发现,在通过Nvidia K20 GPU 运行DistBelief 以及全新的基于TensorFlow 的Inception V3 进行的性能对比中,TensorFlow 的训练时间(0.7 秒)仅为DistBelief(3.0 秒)的25%。除了基于TensorFlow 的Inception V3 图像分类模型,谷歌还提到了即将发布 Inception-ResNet-v2 模型,但并未谈到有关该模型的性能评测信息。虽然未使用训练数据集,但他们会通过人工生成的图像注解作为最基础的训练数。

查看 **** 英文原文 Google Machine Learning Models for Image Captioning Ported to TensorFlow and Open-Sourced

2016-11-03 19:005903
用户头像

发布了 283 篇内容, 共 122.4 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

用户可控的统一风格迁移框架 - 亚马逊科学研究院

qife122

深度学习 风格迁移

健康展-2025第37届广州国际大健康产业博览会

秋硕展览

亚太移动通信业贡献9,500亿美元GDP

财见

手机秒变PC主控台:ToDesk、AnyDesk、向日葵、网易UU手机远程控制对比

fine

远程

连续动作强化学习中的反事实探索:揭示AI决策背后的可能性

qife122

强化学习 连续动作空间可解释AI 连续动作空间

Burp Suite宏与会话处理实战:突破CSRF令牌防护

qife122

渗透测试 Burp Suite

2025中国机器人展|2025上海国际人形机器人展会

秋硕展览

Lemon AI 打造全栈通用AI智能体

AGICamp

AI应用 agent +AI AI 智能体 AGICamp

Anime.js - 轻量级JavaScript动画库

qife122

前端 动画

面向智能医疗的边缘计算与云计算融合架构的设计与实现

申公豹

人工智能

RocketMQ 在业务消息场景的优势详解

Apache RocketMQ

阿里云 RocketMQ 消息队列

基于YOLOv8的边坡排水沟堵塞检测与识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!

申公豹

yolo

英国拟立法限制iOS与Android垄断地位,强制开放移动生态

qife122

反垄断 英国DMCCA法案

3.99万的人形机器人来了,宇树也开源了自己的核心技术

程序员晚枫

机器人 宇树科技

面向数据科学的AI助手:SageMaker Canvas中的Amazon Q开发者工具

qife122

机器学习 AutoML

LeetCode热题一之两数之和

Hunter熊

Python golang LeetCode 两数之和

利用Transformer模型提升产品检索效果

qife122

机器学习 Transformer

火山引擎DataAgent:AI完成从“数据洞察”到“自主行动”质变

极客天地

亚马逊机器学习大学推出"负责任AI"课程 - 聚焦AI偏见缓解与公平性实践

qife122

机器学习 偏见缓解

ROS系统MoveIt玩转双臂机器人系列(一)--ROS机器人建模

芯动大师

工业互联网的下一站:卡奥斯的AI大模型解法

脑极体

AI

MIAOYUN | 每周AI新鲜事儿(07.18-07.25)

MIAOYUN

云计算 AI AI+ 人工智能 aiinfra AI Infra

AI智能体时代,看华为云AI原生应用引擎2.0——Versatile如何脱颖而出,面向千行万业,打造最佳企业Agent平台

华为云开发者联盟

低精度算术提升机器人定位效率 - 亚马逊科学团队技术创新

qife122

机器人技术 SLAM算法

WAIC 2025 | 北电数智发布新天·智能体平台,加速“更懂行业”的智能体落地

Lily

大数据-53 Kafka 架构精讲:Producer、Broker、Consumer 全流程解析

武子康

Java 大数据 kafka 分布式 后端

【纯干货】三张图深入分析京东开源Genie的8大亮点

京东科技开发者

这个暑期用鸿蒙 5开启缤纷夏日,多款应用福利享不停

最新动态

CI/CD与模型监控平台集成MLOps系统实现的全面路径

申公豹

人工智能

扣子Coze智能体万字教程:从入门到精通,一文掌握AI工作流搭建

极客天地

无监督通用异常检测方法SEAD解析

qife122

机器学习 无监督学习

谷歌用于图像识别的机器学习模型已移植至TensorFlow并已开源_AI&大模型_Dylan Raithel_InfoQ精选文章