写点什么

Google 使用 3 亿张图片大幅度改进图像识别算法

  • 2017-08-03
  • 本文字数:671 字

    阅读完需:约 2 分钟

Google 和 CMU 的研究员使用 3 亿张图片,在图像识别算法的几个指标上取得了长足改进,而往常的训练一般只使用一百万张图片。

很多开发者在训练物体检测算法时会使用包含一百万张图片的 ImageNet 数据集。这个数据集从 2011 年起就没有新图片加入了。然而,在该数据集上训练的神经网络中的参数数量与日俱增,训练模型的 GPU 算力也在增加。卡内基梅隆大学(CMU)中 Google 的研究人员和科学家提出:如果增加训练数据量会如何?

于是,Google 建立了一个内部数据集,含有3 亿张图片,标记为18291 个类别。图片标注的来源包括原始网络信号,网页之间的联系,以及用户的反馈。因为不是由人标注的,所以含有20% 的噪音。

结论是:增大数据量果然有益。虽然图片标记含有噪音,算法的准确率还是提高了3 个百分点。很明显,数据量的增加克服了标记的噪音。研究人员发现算法的表现和数据量呈对数关系上升,如图所示。论文作者认为,现有的模型是基于一百万张图片建立的:如果对模型进行调整,准确率还有上升空间。

研究人员在微软的 COCO 对象检测基准测试上进行了测试,结果喜人:平均正确率 (AP) 从 34.3 上升到 37.4。Google 和 CMU 在 ICCV 会议上发布了算法和评测,并发布了论文《重新审视深度学习时代数据的非理性效果》,可在arxiv 自由获取。

查看英文原文 Researchers Improve State of the Art in Image Recognition Using Data Set With 300 Million Images


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-08-03 19:003706

评论

发布
暂无评论
发现更多内容

Java Web(六)Servlet

浅辄

javaWeb Servlet 11月月更

支持日均亿级交易处理,腾讯云&金蝶“国产数据库联合解决方案”正式发布

科技热闻

API安全问题的原因及挑战

阿泽🧸

API 11月月更

跟着卷卷龙一起学Camera--低延迟05

卷卷龙

ISP camera 11月月更

功能强大的开源网络监控工具:LibreNMS,牛逼!

wljslmz

网络监控 11月月更 LibreNMS

架构误区系列3:单元测试依赖外部环境

agnostic

测试 单元测试

2022-11-12:以下rust语言代码中,结构体S实现了crate::T1::T2的方法,如何获取方法列表?以下代码应该返回[“m1“,“m2“,“m5“],顺序不限。m3是S的方法,但并不属于c

福大大架构师每日一题

rust 福大大

架构误区系列2:exactly once的消息中间件不需要考虑消息重投

agnostic

消息中间件

深入理解客户端篇之OkHttp

邱学喆

websocket 任务调度 连接池 OkHttp3

【C语言】enum 枚举类型

謓泽

11月月更

跟着卷卷龙一起学Camera--低延迟06

卷卷龙

ISP camera 11月月更

AIOps

星际行者

动态路由协议二

初学者

动态路由 11月月更

阿里CTO程立:只有全面Serverless化才能实现真正的深度用云

极客天地

【LeetCode】最短的桥Java题解

Albert

算法 LeetCode 11月月更

综合实验 配置三层 热备 生成树 ospf 和 rip 以及他们之间的重分发等将内网 全通

初学者

网络 11月月更

TSDB助力风电监控

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

常见的数据指标体系

穿过生命散发芬芳

数据指标 11月月更

Kafka资料

Joseph295

极客时间运维进阶训练营第三周作业

忙着长大#

极客时间

mysql的一些基础知识

我是一个茶壶

MySQL 安全 11月月更

算法题学习---链表中倒数最后k个结点

桑榆

算法题 11月月更

SQL语句对基本表的修改表结构和数据完整性

乔乔

11月月更

数据预处理和特征工程-数据预处理-特征选择-方差过滤

烧灯续昼2002

Python 机器学习 算法 sklearn 11月月更

【愚公系列】2022年11月 微信小程序-app.json配置属性之debug

愚公搬代码

11月月更

跟着卷卷龙一起学Camera--噪声与去噪01

卷卷龙

ISP camera 11月月更

对苹果产品一个非常好的评价

星际行者

探知数字化研发2 - 企业架构篇

薛飞

研发管理 数字化 企业构架

Java Web(七)Request&Response

浅辄

javaWeb Request Response 11月月更

【设计模式】以国足的例子来解释代理模式,希望自己不要被退钱

游坦之

设计模式 11月月更

万万没想到,除了香农计划,Python3.11竟还有这么多性能提升!

Python猫

Python

Google使用3亿张图片大幅度改进图像识别算法_Google_Roland Meertens_InfoQ精选文章