写点什么

谷歌 BigQuery 现在允许查询所有 GitHub 开源项目了

  • 2016-07-12
  • 本文字数:943 字

    阅读完需:约 3 分钟

谷歌 GitHub 宣布,谷歌BigQuery 现在为GitHub 上280 多万个托管开源项目提供了一个完整的快照。这让用户可以使用SQL 查询托管在GitHub 上的将近20 亿个开源文件。

GitHub 的 BigQuery 数据集以 GitHub Archive 项目为基础,该项目旨在获取 GitHub 特定时点的快照,以便存储用来进行进一步的分析。借助 GitHub 的 BigQuery 数据集,现在随时可以通过任意类似 SQL 的查询查询 GitHub Archive 项目的内容。

GitHub 开源项目经理 Arfon Smith 举了一个例子,新的 BigQuery 数据集可以用来找出哪个Go 程序包最常用,或者哪一所美国学校的开源贡献者最多。他还指出,总体上,该数据集还有利于研究人员研究开源社区或者最新的开发趋势。

谷歌开发大使Felipe Hoffa 另外添加了几个有关潜在用途的示例,比如找出使用给定开源库的每个项目,或者分析其使用方式,以便收集有用的数据,确定那个库的未来发展方向。

在Medium 上发表的一篇博文中,Hoffa 列出了一些由谷歌工程师及其他开发人员创建的查询。这些查询可以用来分析 Go 程序,找出最常用的Java 导入最常用的angular 指令以及最常用的emacs 程序包

GitHub 的 BigQuery 数据集包含大约 1.5TB 的数据,每小时自动更新。下面是基本的使用步骤:

谷歌每月免费提供 1TB 的数据处理,但是,正如谷歌开发大使给我们的提醒,在主数据集(bigquery-public-data:github_repos.contents)上执行一个查询就会用完这1TB 的免费数据。因此,他建议使用23GB 的官方摘录数据(bigquery-public-data:github_repos.sample_contents)或者谷歌提供的任意专注于流行语言的摘录数据,诸如Go、Ruby、JavaScript、PHP、Python 和Java。BigQuery 还可以用来创建自定义数据集,但在这种情况下,用户需要支付存储费用。

谷歌BigQuery 公共数据集是谷歌根据一项特别计划通过BigQuery 提供的一系列数据集,用户只需要为他们执行的查询付费,但不用为数据集存储付费。谷歌BigQuery 公共数据集提供的其他数据集包括美国人名、Hacker News 自2006 年以来的故事和评论、1029 年和2016 年之间的全球气候数据,等等。

查看英文原文 Google BigQuery Now Allows to Query All Open-Source Projects on GitHub

2016-07-12 19:004710
用户头像

发布了 1008 篇内容, 共 445.6 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

如何通过Java将Word转换为PDF

Geek_249eec

Java PDF word

【iOS逆向与安全】iOS插件开发光速入门

小陈

Wallys/DR9074E-Qualcomm Atheros QCN9074(QCN9024)/ 4x4 MU-MIMO Dual Band Wireless Module

Cindy-wallys

QCN9074 QCN9024

域内用户Hash获取方式总结

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

26个月89场Java岗面试,0至3年程序员的入职门槛到底是什么?

钟奕礼

Java 程序员 java面试 java编程

面试官:两个JVM的面试题就能证明,你连拿15K都不配

钟奕礼

Java 程序员 java面试 java编程

在不确定性的2022年寻找确定性|这些ToB赛道值得关注

ToB行业头条

用低代码赋能数字化 快速打造项目管理系统

力软低代码开发平台

react源码分析:实现react时间分片

flyzz177

React

一步登顶还是步步维艰?Java资深架构师撰下的“阿里P7成神之路”

钟奕礼

Java 程序员 java面试 java编程

借助云的力量,重塑企业的现在和未来|re:Invent 2022 Adam Selipsky 主题演讲精华全收录

亚马逊云科技 (Amazon Web Services)

亚马逊云科技

Java 编程入门第一课:HelloWorld

千锋IT教育

MegPeak——让你更懂你的处理器

MegEngineBot

深度学习 开源 处理器 MegEngine MegPeak

react源码分析:组件的创建和更新

flyzz177

React

收到7个offer,用同一个技术套路了多位面试官

钟奕礼

Java java程序员 java面试 java编程

挤破脑袋要进阿里、腾讯的java程序员,去B站不香吗?

钟奕礼

Java 程序员 java面试 java编程

SAP MM 使用两个STO实现免关税跨国公司间转储(III)

SAP虾客

乐观锁思想在JAVA中的实现——CAS

JAVA旭阳

Java Java并发

SAP IDoc状态70 - This IDoc is saved as the original of an edited document.

SAP虾客

如何使用 vue + intro 实现后台管理系统的引导

千锋IT教育

NineData,领先的多云数据管理平台

NineData

数据库 数据复制 数据备份 多云管理 SQL开发

从零开始学习Java系列教程之Windos下dos命令行使用详解前言

千锋IT教育

java程序员培训零基础怎么学

小谷哥

react源码分析:深度理解React.Context

flyzz177

React

Industrial wifi6 Wireless AP/DR AP6018 S AIPQ6010 2T2R 2.4G&5G high power Radio AP

Cindy-wallys

IPQ6010 high power 2.4G&5G

SAP MM 采购订单的Document Flow

SAP虾客

含泪复盘!项目踩坑回炉改造血泪史(附芯片PCB/原理图)

华秋PCB

PCB PCB设计

cookie sessionStorage localStorage区别(详解)

达摩

缓存 Web Cookie LocalStorage sessionStorage

模块一作业

程序员小张

「架构实战营」

网易互娱数据成本优化治理实践

网易数帆

数据中台 数据仓库 数据治理 12 月 PK 榜

谷歌BigQuery现在允许查询所有GitHub开源项目了_开源_Sergio De Simone_InfoQ精选文章