写点什么

谷歌 BigQuery 现在允许查询所有 GitHub 开源项目了

  • 2016-07-12
  • 本文字数:943 字

    阅读完需:约 3 分钟

谷歌 GitHub 宣布,谷歌BigQuery 现在为GitHub 上280 多万个托管开源项目提供了一个完整的快照。这让用户可以使用SQL 查询托管在GitHub 上的将近20 亿个开源文件。

GitHub 的 BigQuery 数据集以 GitHub Archive 项目为基础,该项目旨在获取 GitHub 特定时点的快照,以便存储用来进行进一步的分析。借助 GitHub 的 BigQuery 数据集,现在随时可以通过任意类似 SQL 的查询查询 GitHub Archive 项目的内容。

GitHub 开源项目经理 Arfon Smith 举了一个例子,新的 BigQuery 数据集可以用来找出哪个Go 程序包最常用,或者哪一所美国学校的开源贡献者最多。他还指出,总体上,该数据集还有利于研究人员研究开源社区或者最新的开发趋势。

谷歌开发大使Felipe Hoffa 另外添加了几个有关潜在用途的示例,比如找出使用给定开源库的每个项目,或者分析其使用方式,以便收集有用的数据,确定那个库的未来发展方向。

在Medium 上发表的一篇博文中,Hoffa 列出了一些由谷歌工程师及其他开发人员创建的查询。这些查询可以用来分析 Go 程序,找出最常用的Java 导入最常用的angular 指令以及最常用的emacs 程序包

GitHub 的 BigQuery 数据集包含大约 1.5TB 的数据,每小时自动更新。下面是基本的使用步骤:

谷歌每月免费提供 1TB 的数据处理,但是,正如谷歌开发大使给我们的提醒,在主数据集(bigquery-public-data:github_repos.contents)上执行一个查询就会用完这1TB 的免费数据。因此,他建议使用23GB 的官方摘录数据(bigquery-public-data:github_repos.sample_contents)或者谷歌提供的任意专注于流行语言的摘录数据,诸如Go、Ruby、JavaScript、PHP、Python 和Java。BigQuery 还可以用来创建自定义数据集,但在这种情况下,用户需要支付存储费用。

谷歌BigQuery 公共数据集是谷歌根据一项特别计划通过BigQuery 提供的一系列数据集,用户只需要为他们执行的查询付费,但不用为数据集存储付费。谷歌BigQuery 公共数据集提供的其他数据集包括美国人名、Hacker News 自2006 年以来的故事和评论、1029 年和2016 年之间的全球气候数据,等等。

查看英文原文 Google BigQuery Now Allows to Query All Open-Source Projects on GitHub

2016-07-12 19:004598
用户头像

发布了 1008 篇内容, 共 433.7 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

Java8 之 Lambda 表达式

hepingfly

Lambda java8 新特性

99%的人都能看懂的分布式系统「补偿」机制

华为云开发者联盟

分布式 高可用 系统

Java经典面试题详解,突围金九银十面试季(附详细答案)

Java架构师迁哥

软件开发的 5 条核心原则,让工作事半功倍

沉默王二

程序员 软件开发

极客大学 - 架构师训练营 第二周

9527

双亲委派模型与 Flink 的类加载策略

Apache Flink

flink

阿里架构师不慎泄露内部互联网架构面试题库。你确定不看一下吗?

小Q

Java 学习 架构 面试 阿里

面试官,ThreadLocal 你要这么问,我就挂了!

小傅哥

Java 面试 小傅哥 ThreadLocal 开放寻址

HashMap源码解析

彭阿三

hashmap HashMap底层原理

网易伏羲问鼎全球AI文创大赛:用户可零门槛生产音视频动画

核桃Eason

人工智能 AI 动画 网易

TensorFlow 篇 | TensorFlow 2.x 基于 Keras 的模型构建

Alex

tensorflow keras model

C++的匿名函数(lambda表达式)

良知犹存

c++ 编程开发

聊聊布隆过滤器

大头星

架构师训练营第一期-第二周课后-作业二

极客大学架构师训练营

多端消息推送的设计思考

TaurusCode

Java spring 设计模式 消息推送

架构师训练营第一期-第二周课后-作业一

极客大学架构师训练营

线上医疗未来的发展

anyRTC开发者

ios 音视频 WebRTC RTC 安卓

LeetCode题解:83. 删除排序链表中的重复元素,递归,JavaScript,详细注释

Lee Chen

大前端 LeetCode

架构师 0 期 | 大数据相关技术

刁架构

架构师训练

大作业二:总结

zcj

LeetCode题解:83. 删除排序链表中的重复元素,迭代,JavaScript,详细注释

Lee Chen

大前端 LeetCode

从 LRU Cache 带你看面试的本质

小齐本齐

算法

高难度对话读书笔记—认知篇

wo是一棵草

滴滴开源AgileTC:敏捷测试用例管理平台

滴滴技术

开源 滴滴技术 滴滴开源

iOS造轮子 - UITableView字母索引条

iOSer

ios 面试 UITableView

第二周 框架设计学习总结

蓝黑

极客大学架构师训练营

动图演示:手撸堆栈的两种实现方法!

王磊

Java 数据结构 算法

不一样的面向对象(一)

书旅

php 面向对象

免费CA证书安装配置与背后原理浅析

陈德伟

10个常见的软件架构模式

GuoYaxiang

架构模式 软件架构 架构设计

学习Java的三个阶段(学习目标+知识点),一起努力吧!

Java架构师迁哥

谷歌BigQuery现在允许查询所有GitHub开源项目了_开源_Sergio De Simone_InfoQ精选文章