2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Google 使用 3 亿张图片大幅度改进图像识别算法

  • 2017-08-03
  • 本文字数:671 字

    阅读完需:约 2 分钟

Google 和 CMU 的研究员使用 3 亿张图片,在图像识别算法的几个指标上取得了长足改进,而往常的训练一般只使用一百万张图片。

很多开发者在训练物体检测算法时会使用包含一百万张图片的 ImageNet 数据集。这个数据集从 2011 年起就没有新图片加入了。然而,在该数据集上训练的神经网络中的参数数量与日俱增,训练模型的 GPU 算力也在增加。卡内基梅隆大学(CMU)中 Google 的研究人员和科学家提出:如果增加训练数据量会如何?

于是,Google 建立了一个内部数据集,含有3 亿张图片,标记为18291 个类别。图片标注的来源包括原始网络信号,网页之间的联系,以及用户的反馈。因为不是由人标注的,所以含有20% 的噪音。

结论是:增大数据量果然有益。虽然图片标记含有噪音,算法的准确率还是提高了3 个百分点。很明显,数据量的增加克服了标记的噪音。研究人员发现算法的表现和数据量呈对数关系上升,如图所示。论文作者认为,现有的模型是基于一百万张图片建立的:如果对模型进行调整,准确率还有上升空间。

研究人员在微软的 COCO 对象检测基准测试上进行了测试,结果喜人:平均正确率 (AP) 从 34.3 上升到 37.4。Google 和 CMU 在 ICCV 会议上发布了算法和评测,并发布了论文《重新审视深度学习时代数据的非理性效果》,可在arxiv 自由获取。

查看英文原文 Researchers Improve State of the Art in Image Recognition Using Data Set With 300 Million Images


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-08-03 19:003814

评论

发布
暂无评论
发现更多内容

【LeetCode】分割数组Java题解

Albert

算法 LeetCode 11月月更

Vue插件(plugin)

Augus

vue.js 11月月更

【活动报名】11月19日 | AI GC 的技术与应用构建

亚马逊云科技 (Amazon Web Services)

人工智能 机器学习

Zebec Chain有望成为公链赛道新兴生力军,地平线计划持续进击

西柚子

计算机网络:随机访问介质访问控制之令牌传递协议

timerring

令牌桶 11月月更

Vue基础学习(五)

Studying_swz

Vue 11月月更

1.6k Star!可以优雅的使用Git了。。。

Jackpop

深入Redis数据结构和底层原理

闫同学

redis 缓存 11月月更

Vue基础学习(四)

Studying_swz

Vue 11月月更

CSS的学习笔记(五)

lxmoe

CSS 前端 学习笔记 11月月更

聚焦银行APP用户体验,易观千帆GX指数即将独家首发

易观分析

易观

2022-11-11:设计一个最大栈数据结构,既支持栈操作,又支持查找栈中最大元素。 实现 MaxStack 类: MaxStack() 初始化栈对象 void push(int x) 将元素 x 压

福大大架构师每日一题

Java 算法 福大大

类继承

Maybe_fl

汽车产业“芯事”何解?

易观分析

汽车芯片

Java实现List中集合的元素进行排序

共饮一杯无

Java List 11月月更

网址访问速度免费加速教程:又拍云cdn

程序员余白

网页加速 CDN加速 11月月更

HTML零基础入门教程(一)

异星球的小怪同志

前端 HTML5, CSS3 DW 零基础 11月月更

Zebec Chain有望成为公链赛道新兴生力军,地平线计划持续进击

小哈区块

算法题学习---链表中环的入口结点

桑榆

算法题 11月月更

【愚公系列】2022年11月 微信小程序-app.json配置属性之networkTimeout

愚公搬代码

11月月更

部署和体验Helm(2.16.1版本)

程序员欣宸

Kubernetes Helm 11月月更

定了,2022双11 技术进化开启新未来

阿里技术

双11

opensd开源啦 !这套自动化部署OpenStack工具你值得拥有

openEuler

开源 操作系统 openEuler OpenStack

Java Web(五)Web

浅辄

tomcat javaWeb 11月月更

Git 分支管理策略汇总

AlwaysBeta

git GitHub gitlab 分支管理

Vivado安装和使用

芯动大师

Verilog FPGA系统 vivado 11月月更

运维进阶训练营 -W03H

b1a2e1u1u

运维

SAP UI5 数据绑定中的工厂函数

汪子熙

SAP Fiori SAP UI5 ui5 11月月更

Go-MySQL-Driver,让Go语言拥抱MySQL

闫同学

Go MySQL 11月月更

初探Apollo远程服务配置中心

闫同学

阿波罗 11月月更 apllo 远程配置中心

一款超好用的Json编辑工具

Jackpop

Google使用3亿张图片大幅度改进图像识别算法_Google_Roland Meertens_InfoQ精选文章