Spark

Apache Spark 3.0 新特性在 FreeWheel 核心业务数据团队的应用与实战
本篇文章作者想分享一下 Spark 3.0 在 FreeWheel 大数据团队升级背后的故事和相关的实战经验。




数据湖与数据仓库的新未来:阿里提出湖仓一体架构
近几年,随着数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论始终不断。数据仓库和数据湖的区别到底是什么?本文作者来自阿里巴巴计算平台部门,在深度参与阿里巴巴大数据 / 数据中台领域建设之后,将对数据湖和数据仓库的来龙去脉进行深入剖析,阐述两者融合演进的新方向——湖仓一体。



基于 Spark 的大规模推荐系统特征工程
本次分享题目为基于 Spark 的大规模推荐系统特征工程及优化,主要内容包括:大规模推荐系统;Spark SQL 应用与 FESQL;基于 LLVM 的 Spark 优化。


Delta Engine 原生执行引擎重磅发布;收购 Redash;Koalas 1.0 发布 | Spark+AI 峰会亮点一览
在 Spark+AI 峰会首日主题演讲中,Databricks 带来了一系列重磅发布。



Flink 完美搭档:数据存储层上的 Pravega
本文将从大数据架构变迁历史,Pravega 简介,Pravega 进阶特性以及车联网使用场景这四个方面介绍 Pravega,重点介绍 DellEMC 为何要研发 Pravega,Pravega 解决了大数据处理平台的哪些痛点以及与 Flink 结合会碰撞出怎样的火花。


选择适合自己的 OLAP 引擎
本文主要介绍了主流开源的 OLAP 引擎:Hive、Sparksql、Presto、Kylin、Impala、Druid、Clickhouse 等,逐一介绍了每一款开源 OLAP 引擎,包含架构、优缺点、使用场景等,希望可以给大家有所启发。


嫌 OSS 查询太慢?看我们如何将速度提升 10 倍!
本文详细对比了用来构建数据湖方案的 JuiceFS 和 OSS 的性能。JuiceFS 为 OSS 提速,Spark 查询提升 11 倍,写入提升 8 倍

Spark 3.0 新特性抢先看
关于 Spark 3.0 新特性的解读,我们邀请王耿亮老师在今年 9 月 11 日 ArchSummit 全球架构师峰会(深圳站)上详细介绍,包括 Delta Lake 新功能介绍、设计思路细节、用户在使用过程中遇到的坑(案例),以及解决方法。





通过计算存储分离实现高性能弹性化的 Spark 部署 | QCon
的弹性化对其在云上实现灵活部署有着重要的意义:易失性的云主机部署,节点失效成为常态;存储计算分离,有限的本地存储加上大量的远端存储(块存储、对象存储)。







