谷歌 BigQuery 增加了新的公开数据集

  • Alex Giamas
  • 谢丽

2017 年 1 月 9 日

话题:Google大数据语言 & 开发架构AI

Stack Overflow近日宣布,通过谷歌BigQuery提供它的数据集。开发人员可以使用平常的 SQL 语句查询完整的 Stack Overflow 数据集,包括帖子、投票、标签和徽章。使用 BigQuery 的REST API,开发人员可以根据需要使用他们自选的工具导出数据。BigQuery 上的数据集支持联合查询,开发人员使用普通的 SQL 就可以跨领域获得有用的见解。

除了 Stack Overflow 的数据集以外,BigQuery 还支持对Hacker News数据集GitHub 数据集的访问,这两个数据集连同 Stack Overflow 数据集可以提供有用的见解。BigQuery 近日还围绕纽约市的数据增加了三个数据集,分别是关于机动车碰撞城市自行车旅行及 311 非紧急市政服务电话请求。BigQuery 之前已经有一个数据集,其中包含 2009 年到 2015 年纽约市的每一次出租车和豪华轿车旅行,上述三个数据集对此是一个补充。

当前,BigQuery 还有其他可用的数据集,其中包括气象信息部分数据远至 1763 年)、医疗数据、350 万数字化图书、一个包含元数据并标注了 900 万 URL 的图像数据集、美国国税局及美国职棒大联盟的数据。还有一个数据集包含了世界各地的新闻和事件,每 15 分钟更新一次。该数据集是由GDELT 项目提供的。此外,BigQuery 还包含Personal Genome 项目提供的Genomics 数据集Wikipedia页面访问量数据以及将近 20 亿条Reddit 评论

感兴趣的读者可以通过BigQuery 控制台获取 Stack Overflow 数据集,也可以通过reddit 社区参与进一步的讨论。

查看英文原文Google BigQuery Adds New Public Datasets

Google大数据语言 & 开发架构AI