2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

谷歌 BigQuery 现在允许查询所有 GitHub 开源项目了

  • 2016-07-12
  • 本文字数:943 字

    阅读完需:约 3 分钟

谷歌 GitHub 宣布,谷歌BigQuery 现在为GitHub 上280 多万个托管开源项目提供了一个完整的快照。这让用户可以使用SQL 查询托管在GitHub 上的将近20 亿个开源文件。

GitHub 的 BigQuery 数据集以 GitHub Archive 项目为基础,该项目旨在获取 GitHub 特定时点的快照,以便存储用来进行进一步的分析。借助 GitHub 的 BigQuery 数据集,现在随时可以通过任意类似 SQL 的查询查询 GitHub Archive 项目的内容。

GitHub 开源项目经理 Arfon Smith 举了一个例子,新的 BigQuery 数据集可以用来找出哪个Go 程序包最常用,或者哪一所美国学校的开源贡献者最多。他还指出,总体上,该数据集还有利于研究人员研究开源社区或者最新的开发趋势。

谷歌开发大使Felipe Hoffa 另外添加了几个有关潜在用途的示例,比如找出使用给定开源库的每个项目,或者分析其使用方式,以便收集有用的数据,确定那个库的未来发展方向。

在Medium 上发表的一篇博文中,Hoffa 列出了一些由谷歌工程师及其他开发人员创建的查询。这些查询可以用来分析 Go 程序,找出最常用的Java 导入最常用的angular 指令以及最常用的emacs 程序包

GitHub 的 BigQuery 数据集包含大约 1.5TB 的数据,每小时自动更新。下面是基本的使用步骤:

谷歌每月免费提供 1TB 的数据处理,但是,正如谷歌开发大使给我们的提醒,在主数据集(bigquery-public-data:github_repos.contents)上执行一个查询就会用完这1TB 的免费数据。因此,他建议使用23GB 的官方摘录数据(bigquery-public-data:github_repos.sample_contents)或者谷歌提供的任意专注于流行语言的摘录数据,诸如Go、Ruby、JavaScript、PHP、Python 和Java。BigQuery 还可以用来创建自定义数据集,但在这种情况下,用户需要支付存储费用。

谷歌BigQuery 公共数据集是谷歌根据一项特别计划通过BigQuery 提供的一系列数据集,用户只需要为他们执行的查询付费,但不用为数据集存储付费。谷歌BigQuery 公共数据集提供的其他数据集包括美国人名、Hacker News 自2006 年以来的故事和评论、1029 年和2016 年之间的全球气候数据,等等。

查看英文原文 Google BigQuery Now Allows to Query All Open-Source Projects on GitHub

2016-07-12 19:004685
用户头像

发布了 1008 篇内容, 共 442.9 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

数据仓库与数据中台最大的区别是什么?终于有人讲明白了

雨果

数据中台 数据仓库

前后端数据接口协作提效实践

百度Geek说

Java 数据 企业号九月金秋榜

BaaS助力区块链技术开启下一轮应用热潮

旺链科技

区块链 产业区块链 企业号九月金秋榜 BaaS平台

2. 字符串、向量和数组

鱼书

c++ 操作系统 8月月更

日拱算法:什么是“煎饼排序”?

掘金安东尼

算法 8月月更

3. Docker镜像详解

鱼书

c++ 8月月更

阿里云高庆瑞:如何快速搭建低成本高弹性的云上应用

阿里云弹性计算

应用 自动化运维 CloudOps 弹性伸缩

HMS Core基于地理位置请求广告,流量变现快人一步

HarmonyOS SDK

广告sdk

给ShardingSphere提了个PR

艾小仙

Java GitHub 程序员 shardingsp

长安链源码分析启动(6)

长安链

锁分类

TimeFriends

8月月更

列存数据仓库怎样做才能更高效

jiangxl

干货 | Dubbo 接口测试原理及多种方法实践总结

霍格沃兹测试开发学社

科普达人丨一图看懂镜像

阿里云弹性计算

镜像 ECS

【高并发】亿级流量场景下如何为HTTP接口限流?看完我懂了!!

冰河

并发编程 多线程 高并发 协程 异步编程

实战 | 电商业务的性能测试(一): 必备基础知识

霍格沃兹测试开发学社

科普达人丨一图看懂安全组

阿里云弹性计算

防火墙 安全组 ECS

STM32+M5311对接 OneNET 项目记录

矜辰所致

stm32 8月月更 M5311

电商出海,独立站小程序化能更好的连接人和应用

Speedoooo

小程序 移动开发 DTC 独立站 移动框架

【小程序项目开发-- 京东商城】uni-app之自定义搜索组件(中)-- 搜索建议

计算机魔术师

8月月更

【Django | allauth】登录_注册_邮箱验证_密码邮箱重置

计算机魔术师

8月月更

从项目经理过渡到ScrumMaster的三个技巧

ShineScrum

Scrum 敏捷 ScrumMaster 项目经理

Flomesh 发布 Pipy 0.50.0

Flomesh

开源一夏 | count(列名)、 count(常量)、 count(*)区别

六月的雨在InfoQ

开源 count MySQL 数据库 MySQL InnoDB 8月月更

Mysql安装教程

楠羽

#开源

锁住它,快告诉我乐观锁与悲观锁的区别?

知识浅谈

8月月更

vivo前端智能化实践:机器学习在自动网页布局中的应用

vivo互联网技术

机器学习 前端 网页布局

【小程序项目开发--京东商城】uni-app之自定义搜索组件(上)-- 组件UI

计算机魔术师

8月月更

数字藏品app开发:nft数字藏品是什么?怎么制作和出售?

开源直播系统源码

数字藏品 数字藏品软件开发 数字藏品源码出售 数字藏品开发 数字藏品系统

流支付时代的Zebec,将打开Web3支付的大门?

西柚子

京东云PostgreSQL在GIS场景的应用分享

京东科技开发者

postgresql 检索 jieba 京东云 信息检索

谷歌BigQuery现在允许查询所有GitHub开源项目了_开源_Sergio De Simone_InfoQ精选文章