【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

Google 使用 3 亿张图片大幅度改进图像识别算法

  • 2017-08-03
  • 本文字数:671 字

    阅读完需:约 2 分钟

Google 和 CMU 的研究员使用 3 亿张图片,在图像识别算法的几个指标上取得了长足改进,而往常的训练一般只使用一百万张图片。

很多开发者在训练物体检测算法时会使用包含一百万张图片的 ImageNet 数据集。这个数据集从 2011 年起就没有新图片加入了。然而,在该数据集上训练的神经网络中的参数数量与日俱增,训练模型的 GPU 算力也在增加。卡内基梅隆大学(CMU)中 Google 的研究人员和科学家提出:如果增加训练数据量会如何?

于是,Google 建立了一个内部数据集,含有3 亿张图片,标记为18291 个类别。图片标注的来源包括原始网络信号,网页之间的联系,以及用户的反馈。因为不是由人标注的,所以含有20% 的噪音。

结论是:增大数据量果然有益。虽然图片标记含有噪音,算法的准确率还是提高了3 个百分点。很明显,数据量的增加克服了标记的噪音。研究人员发现算法的表现和数据量呈对数关系上升,如图所示。论文作者认为,现有的模型是基于一百万张图片建立的:如果对模型进行调整,准确率还有上升空间。

研究人员在微软的 COCO 对象检测基准测试上进行了测试,结果喜人:平均正确率 (AP) 从 34.3 上升到 37.4。Google 和 CMU 在 ICCV 会议上发布了算法和评测,并发布了论文《重新审视深度学习时代数据的非理性效果》,可在arxiv 自由获取。

查看英文原文 Researchers Improve State of the Art in Image Recognition Using Data Set With 300 Million Images


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2017-08-03 19:003220

评论

发布
暂无评论
发现更多内容

解析基础设施即代码:重新定义云管理

SEAL安全

DevOps 云原生 IaC

淘系接口推荐:淘宝天猫实时商品数据采集接口

tbapi

淘宝商品API接口 淘宝商品详情数据采集

探索元宇宙:数字化未来的新前沿

天津汇柏科技有限公司

元宇宙

向量数据库落地实践

京东科技开发者

听说测试“有手就行 ”?华为20年测试老兵干货分享!

华为云开发者联盟

物联网 华为云 华为云开发者联盟 DTSE Tech Talk 企业号2024年4月PK榜

AI数字人直播系统源码交付,数字人产业迎来普及化!

青否数字人

数字人

解密数仓的SQL ON ANYWHERE技术

华为云开发者联盟

大数据 华为云 SQL语句 华为云开发者联盟 企业号2024年4月PK榜

AI数字人克隆系统源码部署--赋能直播带货!

青否数字人

数字人

MySQL的多层SP中Cursor的m_max_cursor_index相关BUG分析

GreatSQL

DBeaverUE for Mac(数据库管理软件)v24.0.1旗舰激活版

iMac小白

Bigasoft Video Downloader Pro for Mac v3.27中文版

iMac小白

淘系接口推荐:淘宝天猫实时商品详情页面数据采集接口

tbapi

数据挖掘 淘宝商品详情数据接口 淘宝API接口 天猫商品详情数据接口

对 NGINX、Kong 和 Amazon 的 API 管理解决方案进行基准测试:它们能否交付实时 API?

NGINX开源社区

nginx SaaS API GigaOm Kong Cloud

漫谈测试策略

阿里技术

效率 测试 质量 测试策略

QLab Pro for Mac(音频剪辑软件)v5.3.7激活版

iMac小白

什么是单元测试,和集成测试有什么区别?

派大星

单元测试 Java 面试题 互联网大厂面试

万字长文,聊聊我在京东锦礼成长的这一年

京东零售技术

后端 技术人生 企业号 4 月 PK 榜

Animate 2024 for mac(An2024)v24.0.2中文激活版

iMac小白

NetShred X for Mac 强大缓存清理工具

iMac小白

昆仑万维发布面向人工智能时代的六条人才宣言

新消费日报

Bigasoft Audio Converter for Mac(音频转换器)v5.8.0.8857中文激活版

iMac小白

AnyRec Screen Recorder for Mac(Mac专业的屏幕录制软件)v1.1.22激活版

iMac小白

开发者手机AI来袭

Laval小助手

Web Components实践:如何搭建一个框架无关的AI组件库

京东科技开发者

Penpad Season 2 质押突破350ETH,还有望获Scroll生态空投

鳄鱼视界

MarsEdit for Mac v5.1.4激活版 博客写作软件

iMac小白

云起无垠入选《网络安全优质初创企业推荐(2024版)》研究报告

云起无垠

Final Draft for Mac 剧本文字处理软件

iMac小白

蚂蚁可信智能获“2023 吴文俊人工智能科技进步一等奖”

可信AI进展

人工智能

淘系接口推荐:淘宝天猫实时商品评论数据采集接口

tbapi

淘宝商品评论接口 淘宝评论API 淘宝商品评论采集

京东中台化底层支撑框架技术分析及随想

京东科技开发者

Google使用3亿张图片大幅度改进图像识别算法_Google_Roland Meertens_InfoQ精选文章