【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

Google 使用 3 亿张图片大幅度改进图像识别算法

  • 2017-08-03
  • 本文字数:671 字

    阅读完需:约 2 分钟

Google 和 CMU 的研究员使用 3 亿张图片,在图像识别算法的几个指标上取得了长足改进,而往常的训练一般只使用一百万张图片。

很多开发者在训练物体检测算法时会使用包含一百万张图片的 ImageNet 数据集。这个数据集从 2011 年起就没有新图片加入了。然而,在该数据集上训练的神经网络中的参数数量与日俱增,训练模型的 GPU 算力也在增加。卡内基梅隆大学(CMU)中 Google 的研究人员和科学家提出:如果增加训练数据量会如何?

于是,Google 建立了一个内部数据集,含有3 亿张图片,标记为18291 个类别。图片标注的来源包括原始网络信号,网页之间的联系,以及用户的反馈。因为不是由人标注的,所以含有20% 的噪音。

结论是:增大数据量果然有益。虽然图片标记含有噪音,算法的准确率还是提高了3 个百分点。很明显,数据量的增加克服了标记的噪音。研究人员发现算法的表现和数据量呈对数关系上升,如图所示。论文作者认为,现有的模型是基于一百万张图片建立的:如果对模型进行调整,准确率还有上升空间。

研究人员在微软的 COCO 对象检测基准测试上进行了测试,结果喜人:平均正确率 (AP) 从 34.3 上升到 37.4。Google 和 CMU 在 ICCV 会议上发布了算法和评测,并发布了论文《重新审视深度学习时代数据的非理性效果》,可在arxiv 自由获取。

查看英文原文 Researchers Improve State of the Art in Image Recognition Using Data Set With 300 Million Images


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2017-08-03 19:003211

评论

发布
暂无评论
发现更多内容

中国人口红利将转化成工程师红利,但是这到底是谁的红利?是程序员的悲哀还是无奈?

非著名程序员

程序员 工程师 工程师红利 无代码开发

一文彻底掌握二叉查找树(多组动图)

淡蓝色

Java 数据结构 算法

聊一聊 HashMap

江城子

Java hashmap

一个典型的大型互联网应用系统使用了哪些技术方案和手段,主要解决什么问题?请列举描述。

~就这样~

Week4总结

王志祥

极客大学架构师训练营

架构训练营 0 期总结 -- 第四周

互金从业者X

从0-1学习项目方案设计

赵孔磊

分布式系统架构学习总结(第四周)

~就这样~

架构师0期04周命题作业

我在终点等你

系统结构:作业

梅子黄时雨

极客大学架构师训练营

【思考】-产品等级与市场定位匹配

superman

定位 产品定位

从 0 到 1 搭建技术中台之推送平台实践:高吞吐、低延迟、多业务隔离的设计与实现

伴鱼技术团队

kafka 缓存 分布式架构 消息推送 push

揭秘金山云云游戏PaaS服务平台背后的视频编码技术

Geek_116789

week 04 总结

Safufu

架构师0期04周总结

我在终点等你

Redis系列(四):天天用着Redis集群,主从同步该知道吧?集群工作原理是否需要了解下?

z小赵

Java redis 高并发 高并发系统设计

谈一谈年终奖中的那些坑

张小方

程序员 面试 offer 薪资 年终奖

点赞功能,你用 MySQL 还是 Redis ?

Java小咖秀

MySQL redis 分布式 分布式系统 经验

ARTS 第 4 周

乌拉里

慧点OA转战政企市场,钉钉们羡慕么?

人称T客

环信荣登36氪WISE2020企服金榜-智能客服榜首

DT极客

如何构建你自己的 JVM (2) HelloWorld

孤星可

Java JVM 深入理解JVM

计算机操作系统基础(九)---存储管理之段页式存储管理

书旅

php laravel 线程 操作系统 进程

区块链系列教程之:比特币中的共识

程序那些事

比特币 区块链 共识与信任 分叉

一个典型的大型互联网应用系统使用了哪些技术方案和手段(作业)

互金从业者X

k8s 上运行我们的 springboot 服务之——flume同步数据到到clickHouse

柠檬

k8s log Clickhouse SpringBoot 2

一文读懂 TypeScript 泛型及应用

阿宝哥

Java typescript 大前端

架构师训练营第四周感悟

张锐

极客大学

week 04 作业

Safufu

原创 | TDD工具集:JUnit、AssertJ和Mockito (二十四)编写测试-内建扩展

编程道与术

Java 编程 TDD 单元测试 JUnit

系统架构:学习小结

梅子黄时雨

极客大学架构师训练营

Google使用3亿张图片大幅度改进图像识别算法_Google_Roland Meertens_InfoQ精选文章