Flickr公布百万图像供研究者使用_大数据_张天雷



 写点什么

近日，雅虎洛杉矶研究院的人机交互研究员 David Ayman Shamma 在雅虎研究院网站新闻上发布了Flickr 图片数据集，内有百万张基于Creative Common 许可的图片，以供研究者使用。David 是雅虎人机交互研究组的高级经理和组长，同时也是雅虎研究院在Flickr 的科研联络人。

在官网上对于数据集进行描述和结识的文章中，David 表示，信息时代的摄影在不停的发生变化，从古老的C-41 逐步演变成为完全不同的形式。粗略估计当前全世界的照片中，有10% 的来自过去一年，这还是三年之前给出的估计。图片服务网站Flickr 以Creative Common 许可为基础，成了人们分享照片的便捷途径。

当前学术界大部分的图像研究，还只能使用小规模数据集进行算法的测试。因此雅虎研究院联手Flickr 给全世界的研究人员提供一个更为宏伟的平台。因此Flickr 迅速得到了学术界的青睐，每张图片的原始数据，元数据，分享方式、分享网络，都可以为现有的研究问题如计算机视觉、社会网络研究等带来解答，同时也将孕育新的研究萌芽，比如现在机器学习领域的深度学习。

Flickr 此次公布的数据集中，包括近 1 亿张图片和 70 万部视频，它们全部来自 Flickr，并且受 Creative Common 许可保护。数据集大概有 12GB，包括图片 id、jpeg 格式图片的下载地址，视频的下载地址以及标题、描述、相机类型、标签等元数据。指的一提的是，其中大概 5 千万图片有地理信息标记，而且关于图片的评论，点赞以及分享数据都可以通过 Flickr 的 API 进一步得到。

更令人非常佩服的是，与以往的数据分享机构简单的发布原始数据这种方式不同，雅虎研究院非常认真的要进一步拥抱学术界，David 表示，由于 1 亿张图片的处理需要大量的计算能力和时间，并不是随便一个研究机构都能办到，雅虎研究院联合位于伯克利的国际计算科学研究所（ICSI）以及劳伦斯利弗莫尔国家实验室，会基于这些图片和视频提取业界常用的视觉和音频特征，然后放到亚马逊云服务（整个处理过的数据在 50TB 左右），供全世界的研究人员使用。

此外，David 还对研究方向给出了一些建议，如不借助图片的经纬度信息来给出拍摄地点的 MediaEval Placing 任务，物体定位、概念识别和抽取等任务。

目前数据集的下载需要向雅虎研究院提交申请，审核后可以下载。

感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ）或者腾讯微博（ @InfoQ ）关注我们，并与我们的编辑和其他读者朋友交流。

公众号推荐：

AGI 概念引发热议。那么 AGI 究竟是什么？技术架构来看又包括哪些？AI Agent 如何助力人工智能走向 AGI 时代？现阶段营销、金融、教育、零售、企服等行业场景下，AGI应用程度如何？有哪些典型应用案例了吗？以上问题的回答尽在《中国AGI市场发展研究报告 2024》，欢迎大家扫码关注「AI前线」公众号，回复「AGI」领取。

发布

暂无评论

创作场景

Flickr 公布百万图像供研究者使用

公众号推荐：

评论

LED显示屏只显示一半怎么办

Lasso for mac(窗口管理器) 1.5.6中文版

文件传输软件常见问题解决办法大全

关于低代码解放程序员这件事儿

软件开发项目文档清单(多套实际案例)

告别传统人肉运维，实现360°可观测！奇点云数据存算引擎DataKun R2.0发布

腾讯云ES：一站式配置，TKE容器日志采集与分析就是这么简单

Photoshop 2023 (ps 2023) for Mac v24.6/25.0beta激活版

【智领信创】用友 U8 cloud &亚信科技 AntDB联合产品强势来袭，0元购活动惠及陕、鲁

HA3 SQL样本实验：一种混合计算查询的全新样本解决方案

基于昇腾，安擎又双叒叕推新品！

预设成功

TooKit助力开发者上云

简明易懂的介绍：Selenium是什么？

镭速-解析极速文件传输软件

构建以人为本的全面预算管理模式

袋鼠云数栈 DataOps 数据生产力实践，实现数据流程的自动化和规范化

推动多云管理平台发展的因素简单分析

HarmonyOS系统级推送服务，打造消息通知新体验

瓴羊Quick BI跻身Gartner魔力象限挑战者行列

山东布谷网络科技详解直播打赏源码，让功能更灵活

文心一言 VS 讯飞星火 VS chatgpt （73）-- 算法导论7.1 4题

2023年广州国际智能窗帘及智能门窗遮阳展会

MES系统在机器人行业生产管理种的运用

IPQ5018-IPQ4019-IPQ6010-support WIFI technology-MESH-FAST ROAMING

2023年-广州国际睡眠家居产品及睡眠展会

企业如何挑选适合自己需求的文件传输软件

好玩有趣的HTML标签

如何优雅地处理RabbitMQ中的消息丢失

Rust“巨坑”？真相来了！

龙蜥社区系统运维 MeetUp

创作场景

Flickr 公布百万图像供研究者使用

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载