Spark

关注
收录了Spark频道下的 147 篇内容
  • 全部
  • 文章
  • 视频
  • 电子书
Apache Spark 3.0新特性在FreeWheel核心业务数据团队的应用与实战
Apache Spark 3.0 新特性在 FreeWheel 核心业务数据团队的应用与实战

本篇文章作者想分享一下 Spark 3.0 在 FreeWheel 大数据团队升级背后的故事和相关的实战经验。

深入浅出Spark(四):存储系统
深入浅出 Spark(四):存储系统

Spark 存储系统如何为任务的执行提供基础保障?

深入浅出Spark(三):Spark调度系统之“权力的游戏”
深入浅出 Spark(三):Spark 调度系统之“权力的游戏”

本期“权力的游戏”将带您走进 Spark 调度系统,笔者将竭尽全力与您一起揭开 Spark 调度系统的神秘面纱。

深入浅出Spark(二):血统(DAG)
深入浅出 Spark(二):血统(DAG)

如果说 RDD 是 Spark 对于分布式数据模型的抽象,那么 DAG 就是 Spark 对于分布式计算模型的抽象。

数据湖与数据仓库的新未来:阿里提出湖仓一体架构
数据湖与数据仓库的新未来:阿里提出湖仓一体架构

近几年,随着数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论始终不断。数据仓库和数据湖的区别到底是什么?本文作者来自阿里巴巴计算平台部门,在深度参与阿里巴巴大数据 / 数据中台领域建设之后,将对数据湖和数据仓库的来龙去脉进行深入剖析,阐述两者融合演进的新方向——湖仓一体。

深入浅出Spark(一):内存计算的由来
深入浅出 Spark(一):内存计算的由来

作为系列的第一篇,本文作者将从 Spark 的起源探索其背后的原理,并对一些开发过程中的常见问题提供解决方法。

Apache Spark + AI开源社区进展&实际案例分享 | 大咖说
Apache Spark + AI 开源社区进展 & 实际案例分享 | 大咖说

的积极性也水涨船高。应用到生产,单单模型和算法好是远远不够的。的大规模应用。及周边生态系统进行了一系列的工作。

基于Spark的大规模推荐系统特征工程
基于 Spark 的大规模推荐系统特征工程

本次分享题目为基于 Spark 的大规模推荐系统特征工程及优化,主要内容包括:大规模推荐系统;Spark SQL 应用与 FESQL;基于 LLVM 的 Spark 优化。

像原设计者一样深入理解Spark
像原设计者一样深入理解 Spark

本文是对 Spark 组件的一个非常简单的介绍,其主要目的是提供对 Spark 架构的一般理解。

SpaceX软件团队Reddit答网友问:应用级程序用C++编写,测试用Python
SpaceX 软件团队 Reddit 答网友问:应用级程序用 C++ 编写,测试用 Python

“面试造火箭,入职拧螺丝”这个梗不适合 Space X,因为他们入职就真的可以造火箭了。

Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
Spark 3.0 重磅发布!开发近两年,流、Python、SQL 重大更新全面解读

Spark 3.0 开发历时近两年终于发布,都有哪些重要功能?

Flink 完美搭档:数据存储层上的 Pravega
Flink 完美搭档:数据存储层上的 Pravega

本文将从大数据架构变迁历史,Pravega 简介,Pravega 进阶特性以及车联网使用场景这四个方面介绍 Pravega,重点介绍 DellEMC 为何要研发 Pravega,Pravega 解决了大数据处理平台的哪些痛点以及与 Flink 结合会碰撞出怎样的火花。

K8s和YARN都不够好,全面解析Facebook自研流处理服务管理平台
K8s 和 YARN 都不够好,全面解析 Facebook 自研流处理服务管理平台

本文阐述了 Facebook 流处理服务管理平台 Turbine 的架构设计考量及实现。

选择适合自己的 OLAP 引擎
选择适合自己的 OLAP 引擎

本文主要介绍了主流开源的 OLAP 引擎:Hive、Sparksql、Presto、Kylin、Impala、Druid、Clickhouse 等,逐一介绍了每一款开源 OLAP 引擎,包含架构、优缺点、使用场景等,希望可以给大家有所启发。

嫌 OSS 查询太慢?看我们如何将速度提升 10 倍!
嫌 OSS 查询太慢?看我们如何将速度提升 10 倍!

本文详细对比了用来构建数据湖方案的 JuiceFS 和 OSS 的性能。JuiceFS 为 OSS 提速,Spark 查询提升 11 倍,写入提升 8 倍

Spark 3.0 新特性抢先看
Spark 3.0 新特性抢先看

关于 Spark 3.0 新特性的解读,我们邀请王耿亮老师在今年 9 月 11 日 ArchSummit 全球架构师峰会(深圳站)上详细介绍,包括 Delta Lake 新功能介绍、设计思路细节、用户在使用过程中遇到的坑(案例),以及解决方法。

Fiber 简明入门指南
Fiber 简明入门指南

Fiber,让人工智能的分布式计算变得简单。

Spark SQL在字节跳动数据仓库领域的优化实践
Spark SQL 在字节跳动数据仓库领域的优化实践

本文介绍 Spark SQL 在字节跳动数据仓库领域的优化实践。

架构的百年大计
架构的百年大计

本文讲述了关于知识共享、师徒制和构建(及改造)系统的方方面面。

Apache Spark 2.4 和未来 | QCon
Apache Spark 2.4 和未来 | QCon

支持等。查询语言等。听众受益:的主要新功能有总体了解。了解下一个版本的主要新功能。

通过计算存储分离实现高性能弹性化的 Spark 部署 | QCon
通过计算存储分离实现高性能弹性化的 Spark 部署 | QCon

的弹性化对其在云上实现灵活部署有着重要的意义:易失性的云主机部署,节点失效成为常态;存储计算分离,有限的本地存储加上大量的远端存储(块存储、对象存储)。

估值62亿美元,Databricks会成为企业AI平台的黑马吗?
估值 62 亿美元,Databricks 会成为企业 AI 平台的黑马吗?

Ali Ghodsi:“这是我经历过的最容易的一次融资”。

Spark诞生头十年:Hadoop由盛转衰,统一数据分析大行其道
Spark 诞生头十年:Hadoop 由盛转衰,统一数据分析大行其道

2019 年是 Spark 诞生的第 10 个年头,统一数据分析的理念始终植根于 Spark 的各个发展阶段。

Spark Streaming源码分析:DStream的内置和运行
Spark Streaming 源码分析:DStream 的内置和运行

本文介绍 Spark-Streaming 的流处理模型,DStream 的内部实现以及其如何构建和运行。

架构师(2019年12月)架构师(2019年12月)
架构师(2019 年 12 月)

本期主要内容:真正支配世界的十种算法;敏捷中国十八年目睹之怪现状;混沌工程落地的六个阶段

迁移了几十家企业之后,我们总结了如何在云中构建成功的现代数据分析平台
迁移了几十家企业之后,我们总结了如何在云中构建成功的现代数据分析平台

这样一套强大的数据平台已经成为企业所不可或缺的数字化与 AI 转型基础。

由Decimal操作计算引发的Spark数据丢失问题
由 Decimal 操作计算引发的 Spark 数据丢失问题

本文介绍一次数据质量相关的问题以及排查该问题的过程和解决方案。

  • 用户头像
    关注

    暂无签名

  • 用户头像
    关注

    暂无签名

  • 用户头像
    关注

    Make everything as simple as possible

    中小前端团队 Team Leader 的管理之路
    中小前端团队 Team Leader 的管理之路

    Scott | 宋小菜 前端负责人

    立即下载
    由体验驱动的全链路监控

    刘恒兵(河伯) | 腾讯 前端技术专家/总监,IVWEB团队负责人

    立即下载
    敏捷团队的质量保障赋能

    林冰玉 | ThoughtWorks 资深软件质量咨询师

    立即下载