50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

继学术搜索之后,谷歌重磅推出数据集搜索!

  • 2018-09-16
  • 本文字数:2401 字

    阅读完需:约 8 分钟

谷歌 Scholar 自推出以来已经成为很多科研工作者搜索学术资料的必备神器,在前段时间的谷歌重返中国风波中,也有相当多开发者和科研工作者表示希望谷歌 Scholar 也能快点进入中国市场。今天,谷歌继 Google Scholar(Google 学术搜索)之后,又为数据工作者和科研人员推出了一款重磅产品——Google Dataset Search(Google 数据集搜索)。虽然我们依然无法知道谷歌搜索到底什么时候才能重新回到中国,但好产品即使需要“梯子”也得先用起来!

在当今世界,数据成了诸多学科领域的科学家和数据记者的命脉。网络上有成千上万的数据存储库,提供了数百万个数据集,世界各地的地方和国家政府也会公布他们的数据。为了能够轻松访问这些数据,谷歌启动了 Dataset Search 项目,让科学家、数据记者、数据爱好者或其他人能够快速找到他们想要的数据,或者仅仅为了满足他们的求知欲。

Google Dataset Search 传送门: https://toolbox.google.com/datasetsearch

什么是 Dataset Search?

数据集搜索使用户能够查找网上数以千计的存储区中存储的数据集,从而让这些数据集可供大众使用,让人人受益。

数据集和相关数据往往分布在网上的多个数据存储区中。在大多数情况下,搜索引擎既无法提供这些数据库相关信息的链接,也不会将这些信息编入索引,这会导致数据寻找变得无比繁琐,或者在某些情况下无法实现。

Google 为用户提供了能够同时搜索多个存储区的单个界面,希望借此改变用户发布和运用数据的方式。

Ggogle 表示,这个项目能够带来下列好处:

  1. 形成数据共享生态系统,鼓励数据发布者依照最佳做法来存储和发布数据;
  2. 为科学家提供相应平台,方便大众引用他们创建的数据集,展现他们的研究成果所带来的影响力。

Dataset Search 与 Google Scholar 的工作方式类似,可以让用户找到托管在任何位置的数据集,无论是发布者的网站、数字图书馆还是个人主页。谷歌为数据提供者制定了一个指南,通过某种方式来描述他们的数据,这样,谷歌(和其他搜索引擎)可以更好地理解他们的数据。指南要求描述有关数据集的一些重要信息:数据集的创建者、发布时间、数据的收集方式、数据的使用条款等等。然后,谷歌会收集并链接这些信息,分析可能存在的相同数据集的不同版本,并尝试找与描述或讨论数据集相关的资料。谷歌所采用的方法是基于一种数据集描述开放标准(schema.org),数据发布者可以通过这种方式描述他们的数据集。数据集提供者可以采用这一通用标准,以便让更多的数据集成为这个强大生态系统的一部分。

Google 数据指南基于数据集的开放标准(schema.org),任何发布数据的人都可以通过这种标准方式来描述他们的数据集。以下是一个数据集定义的示例,完整数据集定义参见: http://schema.org/Dataset 。  

在这个 Dataset Search 版本中,用户可以找到环境科学和社会科学领域的大多数数据集引用,以及来自其他学科领域的数据,包括政府提供的数据和新闻机构(如 ProPublica)提供的数据。随着越来越多的数据存储库使用 schema.org 标准来描述他们的数据集,用户在 Dataset Search 中找到的数据集的种类和覆盖范围将会越来越多。

Dataset Search 支持多种语言,后续将推出更多的语言支持。只需输入要查找的内容,就可以访问到数据提供者发布的数据集。

例如,如果想要分析每日的天气记录,可以在 Dataset Search 中尝试搜索:

可以看到来自 NASA 和 NOAA 的数据,以及来自哈佛大学 Dataverse 和大学间政治与社会研究联盟(ICPSR)等学术资料库的数据。NOAA 首席数据官 Ed Kearns 是这个项目的坚定支持者,他让 NOAA 的很多数据集都可以在 Dataset Search 中搜索到。他说,“一直以来,这种类型的搜索是开放数据和科学社区众多研究人员的梦想。NOAA 的一个使命是与他人共享我们的数据,对于 NOAA 来说,这个工具是让更广泛的用户社区能够更容易访问到我们数据集的关键”。

Dataset Search 是谷歌为了更好地将数据集纳入到谷歌产品而采取的一系列举措之一。最近,谷歌的搜索引擎可以更容易的搜索到表格数据,这也是使用了相同的元数据和链接的表格数据,直接在搜索中提供这些结果。虽然这个工具更多关注的是新闻机构和数据记者,但无论是查找科学数据、政府数据还是新闻机构提供的数据,Dataset Search 都能助你一臂之力。

这个搜索工具依赖数据发布者提供的元数据。谷歌希望更多人能够使用开放标准来描述他们的数据,让其他用户能够找到他们需要的数据。如果数据发布者在搜索结果中看不到已发布的数据,可以访问谷歌的开发者网站,上面提供了提问和提供反馈的链接。

Google Dataset Search 使用尝鲜

目前 Google Dataset Search 已经支持多种语言,中英文均不在话下。

最近 Google 联手哈佛发布了一款 AI 工具用于预测地震余震位置,那么我们就来分析一下地震数据,可以在 Google Dataset Search 的搜索栏中输入 earthquake,结果如下图所示:

左侧会呈现出所有与关键词有关的数据来源,右侧则会显示每一个数据来源的详细信息,包括数据集名称、数据集更新日期、提供者、支持的下载格式和说明。

下面我们再试试输入中文的“地震”,得到的搜索结果如下:

可能因为日本也属于地震多发地区,且“地震”二字在日语汉字和中文中是一样的,因此搜索结果中排在前面的是来自日本的地震数据集,不过左侧往下拉还是能看到不少中文数据集。比如下面这个中国地震灾后恢复重建财政支出的数据集。

目前 Google Dataset Search 仍然处于测试阶段,虽然已有中文界面且支持中文搜索,但中国大陆的用户想要使用依然需要“梯子”科学上网,直接打开是无法访问页面的噢!如果使用中遇到任何问题,可以通过页面右上角按钮向开发人员反馈,或者查看以下链接中的数据集搜索常见问题寻找解答: https://productforums.google.com/forum/#!topic/webmasters/nPq4BW6iPIA

查看英文原文: https://www.blog.google/products/search/making-it-easier-discover-datasets/

2018-09-16 19:002284
用户头像

发布了 731 篇内容, 共 479.5 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

香蕉P图已经 Out 了!纳米 AI “P 视频” 才是王炸,视频生成到剪辑一站式搞定,丝滑出片!

阿星AI工作室

学习 AI 产品经理 大模型 AI工具

让数据真正用起来:qData 数据中台开放12大模块,赋能业务创新与智能分析

千桐科技

大数据平台 qData 开源数据中台 Java数据中台 千数平台

欢迎马恩岛政府加入Have I Been Pwned数据泄露查询平台

qife122

网络安全 政府合作

不再是答题机器,天润融通Agent正成为零售电商的“金牌导购”

天润融通

当低代码遇上AI,有趣,实在有趣

引迈信息

企业为何仍困在“数据孤岛”?——从iPaaS重构信息流的实践路径

谷云科技RestCloud

数据库 数据孤岛 集成平台 ipaas ipaasapi

一文看清:各类机器人在不同领域的应用与发展

Techinsight

工作坊是什么意思,如何开展?AI白板助力远程在线教学

职场工具箱

效率工具 可视化 在线白板 办公软件 工作坊

一键部署?华为云Solution as Code如何成为AI秘籍?

白洞计划

AI

KubeBlocks for ClickHouse 容器化之路

小猿姐

云原生 k8s Clickhouse

AI提示词增强丨用EARS语法进行产品原子化拆解

阿星AI工作室

AI 产品经理 大模型 提示词 提示词工程

一键部署?华为云Solution as Code如何成为AI秘籍?

脑极体

AI

谙流 ASK 技术解析(一):秒级扩容

AscentStream

消息队列 消息队列架构

Oracle到ClickHouse:异构数据库ETL的坑与解法

谷云科技RestCloud

数据库 oracle 数据同步 ETL Click house

雅菲奥朗SRE知识墙分享(六): 『混沌工程的定义与实践』

雅菲奥朗

运维 SRE 混沌工程

解码鸿蒙有礼:华为砸下真金白银,花钱赚吆喝还是格局再打开?

最新动态

Genie 3:世界模型的新前沿 - 实时交互环境生成技术突破

qife122

人工智能 实时生成

flywa报错Detected resolved migration not applied to database: 20221103.10000

刘大猫

人工智能 算法 数据分析 智慧城市 智慧家居

Stack Exchange知识开放共享:现已在Snowflake Marketplace提供高质量AI训练数据

qife122

AI训练数据 知识共享

大数据-89 Spark应用必备:进程通信、序列化机制与RDD执行原理

武子康

Java 大数据 flink spark 分布式

来WAVE SUMMIT,文心快码升级亮点抢先看!

Comate编码助手

开发者大会 AI 编程 文心快码 文心快码Zulu 百度WAVE SUMMIT

KubeBlocks for MSSQL 高可用实现

小猿姐

云原生 k8s mssql

新华三的网络杠杆,撬动AI智算新天地

脑极体

AI

让AI成为企业新生产力!天润融通AI Agent实战营上海站圆满举办

天润融通

雅菲奥朗SRE知识墙分享(七): 『可观测性的定义与实践』

雅菲奥朗

运维 可观测性 SRE

Claude用不了?火山引擎为开发者上线“搬家”方案

火山引擎开发者社区

火山引擎

CAD【xplode】和【explode】功能的区别

极客天地

文心快码已支持Kimi-K2-0905模型

Comate编码助手

编程 大模型 kimi

KubeBlocks for MSSQL Always On AG 揭秘

小猿姐

云原生 k8s 容器化 mssql

网易个人邮箱数据库升级:可靠性与稳定性双突破

老纪的技术唠嗑局

oceanbase 网易邮箱

连锁门店可用性监测和进程监测最佳实践

观测云

可用性监测

继学术搜索之后,谷歌重磅推出数据集搜索!_语言 & 开发_Natasha Noy_InfoQ精选文章