写点什么

谷歌 BigQuery 现在允许查询所有 GitHub 开源项目了

  • 2016-07-12
  • 本文字数:943 字

    阅读完需:约 3 分钟

谷歌 GitHub 宣布,谷歌BigQuery 现在为GitHub 上280 多万个托管开源项目提供了一个完整的快照。这让用户可以使用SQL 查询托管在GitHub 上的将近20 亿个开源文件。

GitHub 的 BigQuery 数据集以 GitHub Archive 项目为基础,该项目旨在获取 GitHub 特定时点的快照,以便存储用来进行进一步的分析。借助 GitHub 的 BigQuery 数据集,现在随时可以通过任意类似 SQL 的查询查询 GitHub Archive 项目的内容。

GitHub 开源项目经理 Arfon Smith 举了一个例子,新的 BigQuery 数据集可以用来找出哪个Go 程序包最常用,或者哪一所美国学校的开源贡献者最多。他还指出,总体上,该数据集还有利于研究人员研究开源社区或者最新的开发趋势。

谷歌开发大使Felipe Hoffa 另外添加了几个有关潜在用途的示例,比如找出使用给定开源库的每个项目,或者分析其使用方式,以便收集有用的数据,确定那个库的未来发展方向。

在Medium 上发表的一篇博文中,Hoffa 列出了一些由谷歌工程师及其他开发人员创建的查询。这些查询可以用来分析 Go 程序,找出最常用的Java 导入最常用的angular 指令以及最常用的emacs 程序包

GitHub 的 BigQuery 数据集包含大约 1.5TB 的数据,每小时自动更新。下面是基本的使用步骤:

谷歌每月免费提供 1TB 的数据处理,但是,正如谷歌开发大使给我们的提醒,在主数据集(bigquery-public-data:github_repos.contents)上执行一个查询就会用完这1TB 的免费数据。因此,他建议使用23GB 的官方摘录数据(bigquery-public-data:github_repos.sample_contents)或者谷歌提供的任意专注于流行语言的摘录数据,诸如Go、Ruby、JavaScript、PHP、Python 和Java。BigQuery 还可以用来创建自定义数据集,但在这种情况下,用户需要支付存储费用。

谷歌BigQuery 公共数据集是谷歌根据一项特别计划通过BigQuery 提供的一系列数据集,用户只需要为他们执行的查询付费,但不用为数据集存储付费。谷歌BigQuery 公共数据集提供的其他数据集包括美国人名、Hacker News 自2006 年以来的故事和评论、1029 年和2016 年之间的全球气候数据,等等。

查看英文原文 Google BigQuery Now Allows to Query All Open-Source Projects on GitHub

2016-07-12 19:004589
用户头像

发布了 1008 篇内容, 共 432.7 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

替代 Elasticsearch,TDengine 助力四维图新将存储空间利用率提升 8 倍

TDengine

数据库 tdengine

OpenMLDB:线上线下一致的生产级特征计算平台

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

2020最新互联网数据调查显示,Kotlin-势必取代-Java?

爱好编程进阶

Java 程序员 后端开发

2021金三银四吃透这份Java面试突击手册!成功跳槽涨薪30K

爱好编程进阶

Java 程序员 后端开发

架构实战营 - 总结

李大虾

#架构实战营 「架构实战营」

dubbo实战之二:与SpringBoot集成

爱好编程进阶

Java 程序员 后端开发

16 条 yyds 的代码规范

爱好编程进阶

Java 程序员 后端开发

20万+字,熬夜整理了一份程序员不可或缺的软技能高分原创电子书送给你

爱好编程进阶

Java 程序员 后端开发

(项目实战)如何结合k8s和pipeline的流水线,并通过k8s接口完成镜像升级

爱好编程进阶

Java 程序员 后端开发

21年GitHub标星19

爱好编程进阶

Java 程序员 后端开发

5年Java后台经验程序员,历经6面,跳槽腾讯

爱好编程进阶

Java 程序员 后端开发

Go 语言入门很简单:net/http 包

宇宙之一粟

HTTP Go web 4月月更

curl 的用法指南

爱好编程进阶

Java 程序员 后端开发

Demo:第三章:权限框架spring security oauth2

爱好编程进阶

程序员 后端开发

敏捷开发中如何从容应对需求变更?

华为云开发者联盟

敏捷开发 需求 软件开发 需求变更

17 网站架构的伸缩性设计

爱好编程进阶

Java 程序员 后端开发

SAP 云平台(Cloud Platform)架构概述

汪子熙

云计算 云平台 SAP 云计算架构师 4月月更

30岁码农的一次面试经历:不委屈自己

爱好编程进阶

Java 程序员 后端开发

Choreographer全解析

爱好编程进阶

Java 程序员 后端开发

网易云信 QUIC 应用优化实践

网易云信

音视频开发

Docker Swarm从部署到基本操作

爱好编程进阶

Java 程序员 后端开发

企业知识库建立的目的及意义

小炮

知识库

git(8)Git 与其他系统

爱好编程进阶

Java 程序员 后端开发

2021金三银四巨作!10万字!阿里高工纯手码JDK源码笔记 带你飙向实战

爱好编程进阶

Java 程序员 后端开发

985毕业,半路出家28岁进军Java,坚持了三年现如今年薪36W

爱好编程进阶

Java 程序员 后端开发

ArrayList 与 LinkedList 的方法及其区别

爱好编程进阶

程序员 后端开发

@产品部 -- 腾讯策划部是如何培养用户的《王者荣耀

爱好编程进阶

Java 程序员 后端开发

AOP实战篇 如何轻松实现日志功能,戳这

爱好编程进阶

Java 程序员 后端开发

BATJAndroid高级工程师大厂面试题集合之Java-基础面试知识点

爱好编程进阶

Java 程序员 后端开发

BIO、NIO、AIO 介绍和适用场景分析

爱好编程进阶

Java 程序员 后端开发

GitHub上超火的阿里调优专家的677页Java性能调优笔记,已让我拿下5个offer

爱好编程进阶

Java 程序员 后端开发

谷歌BigQuery现在允许查询所有GitHub开源项目了_开源_Sergio De Simone_InfoQ精选文章