2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

谷歌 BigQuery 现在允许查询所有 GitHub 开源项目了

  • 2016-07-12
  • 本文字数:943 字

    阅读完需:约 3 分钟

谷歌 GitHub 宣布,谷歌BigQuery 现在为GitHub 上280 多万个托管开源项目提供了一个完整的快照。这让用户可以使用SQL 查询托管在GitHub 上的将近20 亿个开源文件。

GitHub 的 BigQuery 数据集以 GitHub Archive 项目为基础,该项目旨在获取 GitHub 特定时点的快照,以便存储用来进行进一步的分析。借助 GitHub 的 BigQuery 数据集,现在随时可以通过任意类似 SQL 的查询查询 GitHub Archive 项目的内容。

GitHub 开源项目经理 Arfon Smith 举了一个例子,新的 BigQuery 数据集可以用来找出哪个Go 程序包最常用,或者哪一所美国学校的开源贡献者最多。他还指出,总体上,该数据集还有利于研究人员研究开源社区或者最新的开发趋势。

谷歌开发大使Felipe Hoffa 另外添加了几个有关潜在用途的示例,比如找出使用给定开源库的每个项目,或者分析其使用方式,以便收集有用的数据,确定那个库的未来发展方向。

在Medium 上发表的一篇博文中,Hoffa 列出了一些由谷歌工程师及其他开发人员创建的查询。这些查询可以用来分析 Go 程序,找出最常用的Java 导入最常用的angular 指令以及最常用的emacs 程序包

GitHub 的 BigQuery 数据集包含大约 1.5TB 的数据,每小时自动更新。下面是基本的使用步骤:

谷歌每月免费提供 1TB 的数据处理,但是,正如谷歌开发大使给我们的提醒,在主数据集(bigquery-public-data:github_repos.contents)上执行一个查询就会用完这1TB 的免费数据。因此,他建议使用23GB 的官方摘录数据(bigquery-public-data:github_repos.sample_contents)或者谷歌提供的任意专注于流行语言的摘录数据,诸如Go、Ruby、JavaScript、PHP、Python 和Java。BigQuery 还可以用来创建自定义数据集,但在这种情况下,用户需要支付存储费用。

谷歌BigQuery 公共数据集是谷歌根据一项特别计划通过BigQuery 提供的一系列数据集,用户只需要为他们执行的查询付费,但不用为数据集存储付费。谷歌BigQuery 公共数据集提供的其他数据集包括美国人名、Hacker News 自2006 年以来的故事和评论、1029 年和2016 年之间的全球气候数据,等等。

查看英文原文 Google BigQuery Now Allows to Query All Open-Source Projects on GitHub

2016-07-12 19:004663
用户头像

发布了 1008 篇内容, 共 440.9 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

《华为技术认证HCNA网络技术实验指南》参考配置Ⅰ

依旧廖凯

华为 网络 交换机

备战金三银四必备:2021最新Java面试汇总(附答案解析)

比伯

Java 编程 架构 面试 计算机

Linux之旅 - 行程介绍

诚义舅

bash Linux Shell

现在写还来得及吗?

Nydia

翻译:《实用的Python编程》03_00_Overview

codists

Python

2021最新华为面经分享:Java高分面试指南(25分类1000题50w字解析)

比伯

Java 编程 架构 面试 计算机

2021年金三银四Java面试突击大全,吃透这套Java真题合集,突破BAT面试官这道“防线”

Java 架构 面试

第五周笔记

Ashley.

Linux之旅 - 入⻔命令集 - 文件管理(1/2)

诚义舅

bash Linux Shell linux命令

Linux之旅 - 自序

诚义舅

bash Linux Shell

边缘计算云原生开源方案选型比较

远鹏

Kubernetes 边缘计算 kubeedge openyurt superedge

架构设计篇之微服务实战笔记(八)

小诚信驿站

架构 刘晓成 小诚信驿站 28天写作

Linux之旅 - 入⻔命令集

诚义舅

bash Linux 运维 Shell

【LeetCode】至少有K个重复字符的最长子串Java题解

Albert

算法 LeetCode 28天写作 2月春节不断更

Newbe.Claptrap 框架入门,第一步 —— 开发环境准备

newbe36524

Docker 云计算 分布式 微服务 .net core

Newbe.Claptrap 框架入门,第二步 —— 创建项目

newbe36524

Docker 云计算 分布式 微服务 .net core

第五周 第一课笔记

Geek_娴子

第五周 第二课笔记

Geek_娴子

Selenium 项目代码的优化与重构之路,滚雪球学 Python 番外篇

梦想橡皮擦

Python 28天写作 2月春节不断更

2.1 Go语言从入门到精通:Go语言基础语法

xcbeyond

28天写作 基础语法 Go 语言

Elasticsearch Doc Values 和 doc_values

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

2021最全iOS面试题及底层视频分享专栏

ios 面试 音视频 iOS底层 iOS逆向

诊所数字化:实施私域,诊所店员的赋能路径

boshi

数字化医疗 私域运营 七日更 28天写作

成为阿里P7移动架构师到底有多难?带你快速通过字节跳动面试,讲的明明白白!

欢喜学安卓

android 程序员 面试 移动开发

可能是Java Stream的最佳实践(三)

ES_her0

28天写作

状态图与概念模型

克比

安卓开发环境!一份字节跳动面试官给你的Android技术面试指南,终获offer

欢喜学安卓

android 程序员 面试 移动开发

第五周作业

Ashley.

“他者”德意志(二):“走稳路”的德国半导体

脑极体

开发者的福音,go也支持linq了

happlyfox

学习 28天写作 2月春节不断更 Go 语言

LeetCode题解:121. 买卖股票的最佳时机,JavaScript,动态规划,详细注释

Lee Chen

算法 大前端 LeetCode

谷歌BigQuery现在允许查询所有GitHub开源项目了_开源_Sergio De Simone_InfoQ精选文章