大数据与机器学习周报 第 16 期:谷歌 BigQuery 现在允许查询所有 GitHub 开源项目了

阅读数:406 2016 年 7 月 18 日

话题:大数据语言 & 开发架构机器学习

业界新闻

  1. 《谷歌 BigQuery 现在允许查询所有 GitHub 开源项目了》:谷歌和 GitHub 宣布,谷歌 BigQuery 现在为 GitHub 上 280 多万个托管开源项目提供了一个完整的快照。这让用户可以使用 SQL 查询托管在 GitHub 上的将近 20 亿个开源文件

  2. 《eBay 收购 SalesPredict,看中其机器学习能力》:SalesPredict 成立于 2012 年,它主要帮助创业公司分析潜在的盈利机会,eBay 表示将会利用这些技术来对自己的顾客进行预测

  3. 《牛津大学开发新软件可以让普通汽车自动驾驶》:Oxbotica 是一家英国企业,它是从牛津大学分拆出来的,该公司正在开发新的软件系统,它可以将普通汽车变成无人驾驶汽车

技术干货

  1. 《Apache Kylin 在美团数十亿数据 OLAP 场景下的实践》:美团各业务线存在大量的 OLAP 分析场景,需要基于 Hadoop 数十亿级别的数据进行分析,直接响应分析师和城市 BD 等数千人的交互式访问请求,对 OLAP 服务的扩展性、稳定性、数据精确性和性能均有很高要求。本文主要介绍美团的具体 OLAP 需求,如何将 Kylin 应用到实际场景中,以及目前的使用方式和现状

  2. 《如果你还在停服迁移数据,那你就 out 啦!!》:很多数据库提供的原生迁移工具只能进行全量数据拷贝,为了保证迁移数据一致性,要求业务在数据迁移之前需停止服务。所以这种传统的迁移方案对业务影响极大。为降低数据迁移门槛,阿里云数据传输 DTS 推出不停服迁移功能。使用不停服迁移功能,可实现整个数据迁移过程中,业务停服时间降低到分钟级别

深度观点

  1. 《探秘 Facebook 数据中心,人工智能硬件系统 Big Sur 一瞥》:Big Sur 是由大量芯片 GPUs 组成的计算机服务器。Facebook 将其 AI 系统进行开源,有助于整个产业加速发展

  2. 《深度访谈:华为开源数据格式 CarbonData 项目,实现大数据即席查询秒级响应》:CarbonData 是一种低时延查询、存储和计算分离的轻量化文件存储格式。那么相比 SQL on Hadoop 方案、传统 NoSQL 或相对 ElasticSearch 等搜索系统,CarbonData 具有什么样的优势呢?CarbonData 的技术架构是什么样子的?未来有什么样的规划?我们采访了 CarbonData 项目的技术负责人为大家解惑

  3. 《阿里云机器学习平台》:作者以机器学习的概念入手展开了此次分享,演讲中他重点介绍了阿里云机器学习平台的基础架构和产品特点,并结合阿里内部的芝麻信用分、推荐系统等场景讲解了 PAI 平台的具体应用方案