谷歌 BigQuery 现在允许查询所有 GitHub 开源项目了

  • Sergio De Simone
  • 谢丽

2016 年 7 月 12 日

话题:开源GoogleGitHub大数据语言 & 开发

谷歌GitHub宣布,谷歌 BigQuery现在为 GitHub 上 280 多万个托管开源项目提供了一个完整的快照。这让用户可以使用 SQL 查询托管在 GitHub 上的将近 20 亿个开源文件。

GitHub 的 BigQuery 数据集以GitHub Archive 项目为基础,该项目旨在获取 GitHub 特定时点的快照,以便存储用来进行进一步的分析。借助 GitHub 的 BigQuery 数据集,现在随时可以通过任意类似 SQL 的查询查询 GitHub Archive 项目的内容。

GitHub 开源项目经理 Arfon Smith 举了一个例子,新的 BigQuery 数据集可以用来找出哪个 Go 程序包最常用,或者哪一所美国学校的开源贡献者最多。他还指出,总体上,该数据集还有利于研究人员研究开源社区或者最新的开发趋势。

谷歌开发大使 Felipe Hoffa 另外添加了几个有关潜在用途的示例,比如找出使用给定开源库的每个项目,或者分析其使用方式,以便收集有用的数据,确定那个库的未来发展方向。

在 Medium 上发表的一篇博文中,Hoffa 列出了一些由谷歌工程师及其他开发人员创建的查询。这些查询可以用来分析Go 程序,找出最常用的 Java 导入最常用的 angular 指令以及最常用的 emacs 程序包

GitHub 的 BigQuery 数据集包含大约 1.5TB 的数据,每小时自动更新。下面是基本的使用步骤:

谷歌每月免费提供1TB 的数据处理,但是,正如谷歌开发大使给我们的提醒,在主数据集(bigquery-public-data:github_repos.contents)上执行一个查询就会用完这 1TB 的免费数据。因此,他建议使用 23GB 的官方摘录数据(bigquery-public-data:github_repos.sample_contents)或者谷歌提供的任意专注于流行语言的摘录数据,诸如 Go、Ruby、JavaScript、PHP、Python 和 Java。BigQuery 还可以用来创建自定义数据集,但在这种情况下,用户需要支付存储费用。

谷歌 BigQuery 公共数据集是谷歌根据一项特别计划通过 BigQuery 提供的一系列数据集,用户只需要为他们执行的查询付费,但不用为数据集存储付费。谷歌 BigQuery 公共数据集提供的其他数据集包括美国人名、Hacker News 自 2006 年以来的故事和评论、1029 年和 2016 年之间的全球气候数据,等等。

查看英文原文Google BigQuery Now Allows to Query All Open-Source Projects on GitHub

开源GoogleGitHub大数据语言 & 开发