大数据与机器学习周报 第 18 期:Apache Spark 2.0 正式版发布下载

  • 丁涛

2016 年 8 月 1 日

话题:大数据语言 & 开发架构机器学习

业界新闻

  1. 《Apache Spark 2.0 正式版发布下载》:两个月前,Databricks 发布了 Apache Spark 2.0 的技术预览版,如下表所见,目前我们有 10% 的集群都在使用这个版本,根据客户使用新版的经验及反馈意见,新版得以发布,Databricks 很开心能成为 Spark 2.0 的首个商业供应商

  2. 《甲骨文宣布 93 亿美元收购 ERP 云服务商 NetSuite》:甲骨文对外宣布,已与云软件服务提供商 NetSuite 签订了最终协议。根据协议,甲骨文将以每股 109 美元现金收购 NetSuite,总额约为 93 亿美元。该交易预计将在今年完成

技术干货

  1. 《优酷蓝鲸近千节点的 Redis 集群运维经验总结》:Redis 是时下比较流行的 Nosql 技术。在优酷我们使用 Redis Cluster 构建了一套内存存储系统,项目代号蓝鲸。到目前为止集群有 700+ 节点,即将达到作者推荐的最大集群规模 1000 节点。集群从 Redis Cluster 发布不久就开始运行,到现在已经将近两年时间。在运维集群过程中遇到了很多问题,记录下来希望对他人有所帮助

  2. 《从小数据分析到大数据平台,这十几年来大数据开源技术是如何演进的?》:在 QCon 2016 北京站上,Druid 开源项目的负责人,同时也是一家位于旧金山的技术公司共同创始人的 Fangjin Yang 杨仿今老师分享了题为 《Evolution of Open Source Data Infrastructure》的主题演讲,在演讲里杨老师详细的介绍了开源大数据的过去,现在的形态以及未来几年发展的趋势和方向

  3. 《MongoDB 在 58 同城百亿量级数据下的应用实践》:58 同城作为中国最大的生活服务平台,涵盖了房产、招聘、二手、二手车、黄页等核心业务。58 同城发展之初,大规模使用关系型数据库(SQL Server、MySQL 等),随着业务扩展速度增加,数据量和并发量演变的越来越有挑战,此阶段 58 的数据存储架构也需要相应的调整以更好的满足业务快速发展的需求

  4. 为什么 Uber 工程师将 Postgres 数据库换成 MySQL?:早期的 Uber 架构是由 Python 编写的,使用的是 Postgres 数据库存储。从那时起,Uber 的架构就一直在变化,变成微服务模型和新的数据平台。具体的说,很多我们以前使用 Postgres 的地方现在改用 Schemaless,这是 Uber 基于 MySQL 构建的一个数据库分片层

深度观点

  1. 《易观 CTO 郭炜:从 0 到 N 建立高性价比的大数据平台》:其实,每一个大数据平台都不是凭空而起的,每个企业刚刚开始数据分析的时候,也不是上来就是一个大数据开源平台 Hadoop、Spark 这样一个存储的。今天分享的内容,其实是根据企业发展的不同阶段,针对业务的需求来选择不同的大数据架构,配置不同规模的数据处理人员,根据企业不同的时间点,帮助企业从 0 到 N,建立高性价比的大数据平台

  2. 《谷歌大脑与 Open AI 合著论文:机器视觉的一个致命缺陷》:计算机视觉很厉害,但是,只要稍加修改,比如使用美图软件加一个滤镜,计算机视觉就错误频出。MIT 报道把这一缺陷称为计算机视觉的“阿喀琉斯之踵”,认为这是目前视觉领域的一个致命缺陷。如果计算机视觉要得到应用,比如用人脸识别侦察罪犯,但却连“美图秀秀”都搞不定的话,那确实是一个比较严重的问题

大数据语言 & 开发架构机器学习