写点什么

谷歌 BigQuery 现在允许查询所有 GitHub 开源项目了

  • 2016-07-12
  • 本文字数:943 字

    阅读完需:约 3 分钟

谷歌 GitHub 宣布,谷歌BigQuery 现在为GitHub 上280 多万个托管开源项目提供了一个完整的快照。这让用户可以使用SQL 查询托管在GitHub 上的将近20 亿个开源文件。

GitHub 的 BigQuery 数据集以 GitHub Archive 项目为基础,该项目旨在获取 GitHub 特定时点的快照,以便存储用来进行进一步的分析。借助 GitHub 的 BigQuery 数据集,现在随时可以通过任意类似 SQL 的查询查询 GitHub Archive 项目的内容。

GitHub 开源项目经理 Arfon Smith 举了一个例子,新的 BigQuery 数据集可以用来找出哪个Go 程序包最常用,或者哪一所美国学校的开源贡献者最多。他还指出,总体上,该数据集还有利于研究人员研究开源社区或者最新的开发趋势。

谷歌开发大使Felipe Hoffa 另外添加了几个有关潜在用途的示例,比如找出使用给定开源库的每个项目,或者分析其使用方式,以便收集有用的数据,确定那个库的未来发展方向。

在Medium 上发表的一篇博文中,Hoffa 列出了一些由谷歌工程师及其他开发人员创建的查询。这些查询可以用来分析 Go 程序,找出最常用的Java 导入最常用的angular 指令以及最常用的emacs 程序包

GitHub 的 BigQuery 数据集包含大约 1.5TB 的数据,每小时自动更新。下面是基本的使用步骤:

谷歌每月免费提供 1TB 的数据处理,但是,正如谷歌开发大使给我们的提醒,在主数据集(bigquery-public-data:github_repos.contents)上执行一个查询就会用完这1TB 的免费数据。因此,他建议使用23GB 的官方摘录数据(bigquery-public-data:github_repos.sample_contents)或者谷歌提供的任意专注于流行语言的摘录数据,诸如Go、Ruby、JavaScript、PHP、Python 和Java。BigQuery 还可以用来创建自定义数据集,但在这种情况下,用户需要支付存储费用。

谷歌BigQuery 公共数据集是谷歌根据一项特别计划通过BigQuery 提供的一系列数据集,用户只需要为他们执行的查询付费,但不用为数据集存储付费。谷歌BigQuery 公共数据集提供的其他数据集包括美国人名、Hacker News 自2006 年以来的故事和评论、1029 年和2016 年之间的全球气候数据,等等。

查看英文原文 Google BigQuery Now Allows to Query All Open-Source Projects on GitHub

2016-07-12 19:004730
用户头像

发布了 1008 篇内容, 共 448.3 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

阿里Java开发手册:编程规约、异常日志、单元测试、安全规 约、MySQL 数据库、工程结构、设计规约!

程序员高级码农

Java 程序员 java 技术提升

城市感知网络体系,构筑全域数字化新基石

脑极体

AI

TikTok直播卡顿怎么解决?教你几个方法!

Ogcloud

SD-WAN tiktok直播 tiktok直播网络 tiktok网络 sd-wan专线

PMC必须要懂的四个关键流程:生产、库存、交期全过程解析!

积木链小链

制造业 智能制造 中小企业 生产管理

越来越多企业为AI焦虑,联想的“超级智能体”来得正是时候

Alter

《算法导论(第4版)》阅读笔记:p14-p16

codists

算法

AI实践探索:辅助生成测试用例

小巫debug日记

测试用例 AI编程

这款AI助手竟能自动生成行程+前端代码?

VyrnSynx

CodeBuddy首席试玩官

从AI助手到个性化数字分身:WeClone & Second Me打造本地化、私有化的个性化AI代理系统

汀丶人工智能

人工智能

现代框架对SEO的深度影响

溪抱鱼

国际化 SEO SEO工具

室内LED全彩显示屏P3与P5

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家 户内led显示屏 规格说明

莫想到有一天得重新写个 etcd client

八苦-瞿昙

Apollo 可观测性最佳实践

观测云

Apollo

需求分析不好做?这门华为新课免费试听!

YG科技

闺蜜机行业市场销量涨超42%,小度科技持续领跑行业

科技大数据

使用LLaMA-Factory快速训练自己的专用大模型

我再BUG界嘎嘎乱杀

人工智能 AI 大模型

什么是AI大模型?看deepseek用通俗易懂的语言解释

我再BUG界嘎嘎乱杀

人工智能 AI AI大模型 大模型 大语言模型

Ava:6 分钟语音聊天免费生成 MBTI 报告;字节发布图像理解与生成统一模型 Mogao丨日报

RTE开发者社区

用 CodyBuddy 帮我写自动化运维脚本

悟空聊架构

AI 悟空聊架构 CodeBuddy首席试玩官

uniapp开发HarmonyOS NEXT应用之项目结构详细解读

幽蓝计划

阿里云 SLS 多云日志接入最佳实践:链路、成本与高可用性优化

阿里巴巴云原生

阿里云 云原生

常见应用层DDoS攻击

天翼云开发者社区

安全 DDoS

从0到上线,CodeBuddy 如何帮我快速构建旅游 App?

VyrnSynx

CodeBuddy首席试玩官

100台电脑局域网搭建攻略和设备配置指南

Ogcloud

局域网 企业组网 局域网组建 局域网搭建 企业网络搭建

连锁药店如何安全访问总部运营系统?贝锐花生壳带来解决方案

贝锐

内网穿透 ERP

YashanDB 知识库|STATISTICS_LEVEL 设置为 ALL,性能掉到冰点?一条参数搞清楚根因

数据库砖家

数据库

什么是DDoS攻击?

天翼云开发者社区

安全 DDoS

11.多用组合和少继承

杨充

AI工具如何一键生成图表?5个流行的图表生成软件盘点!

职场工具箱

人工智能 图表 AI软件 AIGC 可视化工具

uniapp跨平台开发HarmonyOS NEXT应用初体验

幽蓝计划

鸿蒙跨平台开发

手动开发?给我一条提示词,CodeBuddy能做的你都做不到!

VyrnSynx

CodeBuddy首席试玩官

谷歌BigQuery现在允许查询所有GitHub开源项目了_开源_Sergio De Simone_InfoQ精选文章