写点什么

Google 使用 3 亿张图片大幅度改进图像识别算法

  • 2017-08-03
  • 本文字数:671 字

    阅读完需:约 2 分钟

Google 和 CMU 的研究员使用 3 亿张图片,在图像识别算法的几个指标上取得了长足改进,而往常的训练一般只使用一百万张图片。

很多开发者在训练物体检测算法时会使用包含一百万张图片的 ImageNet 数据集。这个数据集从 2011 年起就没有新图片加入了。然而,在该数据集上训练的神经网络中的参数数量与日俱增,训练模型的 GPU 算力也在增加。卡内基梅隆大学(CMU)中 Google 的研究人员和科学家提出:如果增加训练数据量会如何?

于是,Google 建立了一个内部数据集,含有3 亿张图片,标记为18291 个类别。图片标注的来源包括原始网络信号,网页之间的联系,以及用户的反馈。因为不是由人标注的,所以含有20% 的噪音。

结论是:增大数据量果然有益。虽然图片标记含有噪音,算法的准确率还是提高了3 个百分点。很明显,数据量的增加克服了标记的噪音。研究人员发现算法的表现和数据量呈对数关系上升,如图所示。论文作者认为,现有的模型是基于一百万张图片建立的:如果对模型进行调整,准确率还有上升空间。

研究人员在微软的 COCO 对象检测基准测试上进行了测试,结果喜人:平均正确率 (AP) 从 34.3 上升到 37.4。Google 和 CMU 在 ICCV 会议上发布了算法和评测,并发布了论文《重新审视深度学习时代数据的非理性效果》,可在arxiv 自由获取。

查看英文原文 Researchers Improve State of the Art in Image Recognition Using Data Set With 300 Million Images


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-08-03 19:003622

评论

发布
暂无评论
发现更多内容

华为云数据库稳定可靠-即开即用

与时俱进的时代

华为

IP路由基础、路由器静态路由配置方法、自治系统、缺省路由的配置方法、路由选路规则、缺省路由、备份路由、等价路由、三种查询路由表命令

Python-派大星

10月月更

用户故事地图怎么用?实践才能出真知

敏捷开发

敏捷 敏捷开发 用户故事 用户故事地图

零代码,让业务人员实现应用创造自由

华为云开发者联盟

云计算 后端 低代码 华为云 企业号十月 PK 榜

为什么软件供应链攻击愈演愈烈?

SEAL安全

开源 开源软件 软件供应链安全 软件攻击

广告内容定向分级,保护未成年人身心健康

HarmonyOS SDK

广告sdk

从React源码分析看useEffect

goClient1992

React

软件测试面试真题 | 测试流程大概是什么?

测试人

面试 软件测试 测试开发

C++从入门到精通(第八篇) :IO流

雪芙花

c c++ 10月月更

如何实现车联网的灵活数据采集

EMQ映云科技

车联网 物联网 IoT 数据采集 10月月更

研发效能度量不要“你觉得”,而要这样的度量指标体系!

博文视点Broadview

聊聊机器如何“写“好广告文案?

百度Geek说

AIGC 企业号十月 PK 榜 广告创意

华为云数据库-RDS for MySQL数据库

与时俱进的时代

华为云

华为云文档数据库服务更安全

与时俱进的时代

华为

一文看懂Vue2和Vue3中设置404界面

木偶

Vue 前端 10月月更

前端一面高频react面试题(持续更新中)

beifeng1996

React

实现企业转型,华为云大数据实力领先

IT科技苏辞

C#中关于接口(Interface)的详解(附带案例)

木偶

C# 接口 10月月更

C++从入门到精通(第九篇) :多态

雪芙花

c c++ 10月月更

问:React的setState为什么是异步的?

beifeng1996

React

鸿蒙开发实例 | 为什么选择HarmonyOS?

TiAmo

华为 鸿蒙 10月月更

云服务的智能堪称颠覆,华为云带来多种守护

IT科技苏辞

React源码分析8-状态更新的优先级机制

goClient1992

React

论文解读丨CIKM'22 MARINA:An MLP-Attention Model for Multivariate Time-Series Analysis

华为云开发者联盟

数据库 后端 华为云 企业号十月 PK 榜

路由基础:三层交换机、单臂路由的特点以及配置特点、DHCP报文类型、DHCP工作原理、在路由器上配置DHCP、在交换机上配置DHCP、配置DNS服务器

Python-派大星

10月月更

OSPF基础(一):OSPF工作原理以及优点、OSPF的缺点、OSPF配置方法、DR与BDR的选举原理

Python-派大星

10月月更

华为云大数据,共建智能世界的数据底座

IT科技苏辞

老生常谈React的diff算法原理-面试版

beifeng1996

React

安全、可靠、合规,华为云守护企业网站安全

IT科技苏辞

二叉树常见oj题(持续更新中)

雪芙花

c c++ 10月月更

“科技与狠活”梗爆火,食品安全焦虑问题怎么破?

旺链科技

区块链 产业区块链 食品安全 企业号十月PK榜

Google使用3亿张图片大幅度改进图像识别算法_Google_Roland Meertens_InfoQ精选文章