在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

Google 使用 3 亿张图片大幅度改进图像识别算法

  • 2017-08-03
  • 本文字数:671 字

    阅读完需:约 2 分钟

Google 和 CMU 的研究员使用 3 亿张图片,在图像识别算法的几个指标上取得了长足改进,而往常的训练一般只使用一百万张图片。

很多开发者在训练物体检测算法时会使用包含一百万张图片的 ImageNet 数据集。这个数据集从 2011 年起就没有新图片加入了。然而,在该数据集上训练的神经网络中的参数数量与日俱增,训练模型的 GPU 算力也在增加。卡内基梅隆大学(CMU)中 Google 的研究人员和科学家提出:如果增加训练数据量会如何?

于是,Google 建立了一个内部数据集,含有3 亿张图片,标记为18291 个类别。图片标注的来源包括原始网络信号,网页之间的联系,以及用户的反馈。因为不是由人标注的,所以含有20% 的噪音。

结论是:增大数据量果然有益。虽然图片标记含有噪音,算法的准确率还是提高了3 个百分点。很明显,数据量的增加克服了标记的噪音。研究人员发现算法的表现和数据量呈对数关系上升,如图所示。论文作者认为,现有的模型是基于一百万张图片建立的:如果对模型进行调整,准确率还有上升空间。

研究人员在微软的 COCO 对象检测基准测试上进行了测试,结果喜人:平均正确率 (AP) 从 34.3 上升到 37.4。Google 和 CMU 在 ICCV 会议上发布了算法和评测,并发布了论文《重新审视深度学习时代数据的非理性效果》,可在arxiv 自由获取。

查看英文原文 Researchers Improve State of the Art in Image Recognition Using Data Set With 300 Million Images


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-08-03 19:003895

评论

发布
暂无评论
发现更多内容

MeetUp 议题征集!龙蜥邀您共同探索智能可观测运维技术

OpenAnolis小助手

操作系统 系统运维 Meetup 龙蜥社区

未来云计算标杆:华为云耀云服务器X实例打造智能安全的数字化解决方案

轶天下事

2024IT市场权威榜单发布!腾讯云TBDS斩获两大奖项!

腾讯云大数据

TBDS

一文了解龙蜥社区&芯片厂商研发合作模式

OpenAnolis小助手

操作系统 龙蜥社区 合作模式

中小企业上云如何选?华为云这款帮你一键完成性能飞跃提升

YG科技

云耀X实例:下一代柔性算力新物种,双倍性能加速跃级体验

YG科技

助力中小企业一键上云部署,新一代柔性算力云耀X实例展实力

YG科技

云手机和模拟器的区别:云手机优势大更防封

Ogcloud

本地手机模拟器 云手机 海外云手机 云手机群控

加速一键智能上云,云耀X实例显真功夫

平平无奇爱好科技

业界首款柔性算力新物种,当属华为云新上市的云耀X实例

轶天下事

云耀X实例:柔性算力新物种,性能超越独享型实例

YG科技

参与征文赢面试绿通!InfoQ作者享特别福利!

阿里技术

助力企业数智化上云跃级提升,云耀X实例柔性算力一直加速一直快

YG科技

伍继智能:基于 EMQX Cloud 实现智慧电力运维平台

EMQ映云科技

Koupleless 单进程多应用如何解决兼容问题

SOFAStack

开源 应用架构 蚂蚁集团 兼容

加速企业上云新体验,云耀X实例助力数字化转型开启新风向

平平无奇爱好科技

加速中小企业上云更便捷,新一代柔性算力新物种云耀X实例有妙招

轶天下事

如何让企业上云更省心?云耀X实例一键柔性算力随心配!

轶天下事

MySQL进阶必须掌握的知识点有这些,我没说错吧。

王中阳Go

golang 数据库 算法 面试题 大厂面经

华为云这款产品性能超越独享实例,企业数字化升级首选!

平平无奇爱好科技

加速企业云上降本增效,提升性能首选云耀X实例

轶天下事

一键智能加速跃级体验,云耀X实例带你进入全新智能时代

YG科技

引领柔性算力新风潮,加速企业数智转型首选服务器就是它

YG科技

Logstash 业务日志接入可观测最佳实践

观测云

Logstash

什么是网络钓鱼攻击

德迅云安全杨德俊

华为云新一代柔性算力服务器,加速企业轻松上云数智化转型

平平无奇爱好科技

下一代柔性算力云耀X实例,加速企业上云一键部署新趋势

轶天下事

🐬记一次MySQL执行修改语句超时问题

不在线第一只蜗牛

MySQL 数据库

Google使用3亿张图片大幅度改进图像识别算法_Google_Roland Meertens_InfoQ精选文章