Spark

关注
收录了Spark频道下的 163 篇内容
  • 全部
  • 文章
  • 视频
  • 电子书
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
第四范式 OpenMLDB: 拓展 Spark 源码实现高性能 Join

OpenMLDB 是针对 AI 场景优化的开源数据库项目,实现了数据与计算一致性的离线 MPP 场景和在线 OLTP 场景计算引擎。

伴鱼数仓演进
伴鱼数仓演进

伴鱼离线数仓建立,与伴鱼的业务一起快速发展,从一条业务线,到多条业务线。在演进的过程中,有很多总结和沉淀的内容。本篇文章主要介绍伴鱼离线数据仓库的发展历史,在发展过程中遇到的各种问题,以及针对问题的解决方案。

Uber数据科学工作台的演变史
Uber 数据科学工作台的演变史

本文将对近三年来数据科学工作台的发展进行回顾和总结。

Apache Kyuubi PPMC燕青:为什么说这是开源最好的时代?
Apache Kyuubi PPMC 燕青:为什么说这是开源最好的时代?

6 月 21 日,Apache 软件基金会宣布,Kyuubi 以全票通过的表现,正式进入 Apache 基金会孵化器。

如何从Pandas迁移到Spark?这8个问答解决你所有疑问
如何从 Pandas 迁移到 Spark?这 8 个问答解决你所有疑问

当你的数据集变得越来越大,迁移到 Spark 可以提高速度并节约时间。

伴鱼实时计算平台 Palink 的设计与实现
伴鱼实时计算平台 Palink 的设计与实现

目前「Palink」项目已经落地并投入使用,很好地满足了伴鱼业务在实时场景的需求。

提效7倍,Apache Spark 自适应查询优化在网易的深度实践及改进
提效 7 倍,Apache Spark 自适应查询优化在网易的深度实践及改进

本文基于 Apahce Spark 3.1.1 版本,讲述 AQE 自适应查询优化的原理,以及网易数帆在 AQE 实践中遇到的痛点和做出的思考。

大数据技术升级脉络及认知陷阱 | InfoQ 大咖说
大数据技术升级脉络及认知陷阱 | InfoQ 大咖说

本期,网易数据科学中心总监余利华现身大咖说,他将结合自身在大数据领域的从业经历,分析大数据技术应用逐步升级的脉络,解读背后的业务需求与认知陷阱。

实时数据仓库的发展、架构和趋势
实时数据仓库的发展、架构和趋势

随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。

大数据+云:Kylin/Spark/Clickhouse/Hudi 的大佬们怎么看?
大数据 + 云:Kylin/Spark/Clickhouse/Hudi 的大佬们怎么看?

在 Kylin 五周年庆典中,来自 Spark,Hudi,Clickhouse 以及 Kylin 等开源社区的大佬,来了一场跨越时差,跨越区域的“云”上对谈。

Spark Shuffle 内部机制(一)
Spark Shuffle 内部机制(一)

Spark Shuffle Write 框架的内部机制与设计

如何用Spark计算引擎执行FATE联邦学习任务?
如何用 Spark 计算引擎执行 FATE 联邦学习任务?

FATE 1.5 LTS 版本支持使用 Spark 作为底层的计算引擎,本文将对其实现细节以及使用进行简单介绍,方便用户在实际的使用过程中进行调优或者排查错误。

数据倾斜?Spark 3.0 AQE专治各种不服
数据倾斜?Spark 3.0 AQE 专治各种不服

Spark3.0 已经发布半年之久,这次大版本的升级主要是集中在性能优化和文档丰富上,其中 46% 的优化都集中在 Spark SQL 上,SQL 优化里最引人注意的非 Adaptive Query Execution 莫属了。

英雄惜英雄-当Spark遇上Zeppelin之实战案例
英雄惜英雄 - 当 Spark 遇上 Zeppelin 之实战案例

我们在之前的文章中提到过《大数据可视化从未如此简单 - Apache Zepplien 全面介绍》一文中介绍了 Zeppelin 的主要功能和特点,并且最后还用一个案例介绍了这个框架的使用。这节课我们用两个直观的小案例来介绍 Zepplin 和 Spark 如何配合使用。

Apache Spark 3.0新特性在FreeWheel核心业务数据团队的应用与实战
Apache Spark 3.0 新特性在 FreeWheel 核心业务数据团队的应用与实战

本篇文章作者想分享一下 Spark 3.0 在 FreeWheel 大数据团队升级背后的故事和相关的实战经验。

深入浅出Spark(四):存储系统
深入浅出 Spark(四):存储系统

Spark 存储系统如何为任务的执行提供基础保障?

深入浅出Spark(三):Spark调度系统之“权力的游戏”
深入浅出 Spark(三):Spark 调度系统之“权力的游戏”

本期“权力的游戏”将带您走进 Spark 调度系统,笔者将竭尽全力与您一起揭开 Spark 调度系统的神秘面纱。

深入浅出Spark(二):血统(DAG)
深入浅出 Spark(二):血统(DAG)

如果说 RDD 是 Spark 对于分布式数据模型的抽象,那么 DAG 就是 Spark 对于分布式计算模型的抽象。

数据湖与数据仓库的新未来:阿里提出湖仓一体架构
数据湖与数据仓库的新未来:阿里提出湖仓一体架构

近几年,随着数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论始终不断。数据仓库和数据湖的区别到底是什么?本文作者来自阿里巴巴计算平台部门,在深度参与阿里巴巴大数据 / 数据中台领域建设之后,将对数据湖和数据仓库的来龙去脉进行深入剖析,阐述两者融合演进的新方向——湖仓一体。

深入浅出Spark(一):内存计算的由来
深入浅出 Spark(一):内存计算的由来

作为系列的第一篇,本文作者将从 Spark 的起源探索其背后的原理,并对一些开发过程中的常见问题提供解决方法。

Apache Spark + AI开源社区进展&实际案例分享 | 大咖说
Apache Spark + AI 开源社区进展 & 实际案例分享 | 大咖说

的积极性也水涨船高。应用到生产,单单模型和算法好是远远不够的。的大规模应用。及周边生态系统进行了一系列的工作。

基于Spark的大规模推荐系统特征工程
基于 Spark 的大规模推荐系统特征工程

本次分享题目为基于 Spark 的大规模推荐系统特征工程及优化,主要内容包括:大规模推荐系统;Spark SQL 应用与 FESQL;基于 LLVM 的 Spark 优化。

像原设计者一样深入理解Spark
像原设计者一样深入理解 Spark

本文是对 Spark 组件的一个非常简单的介绍,其主要目的是提供对 Spark 架构的一般理解。

SpaceX软件团队Reddit答网友问:应用级程序用C++编写,测试用Python
SpaceX 软件团队 Reddit 答网友问:应用级程序用 C++ 编写,测试用 Python

“面试造火箭,入职拧螺丝”这个梗不适合 Space X,因为他们入职就真的可以造火箭了。

Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
Spark 3.0 重磅发布!开发近两年,流、Python、SQL 重大更新全面解读

Spark 3.0 开发历时近两年终于发布,都有哪些重要功能?

Flink 完美搭档:数据存储层上的 Pravega
Flink 完美搭档:数据存储层上的 Pravega

本文将从大数据架构变迁历史,Pravega 简介,Pravega 进阶特性以及车联网使用场景这四个方面介绍 Pravega,重点介绍 DellEMC 为何要研发 Pravega,Pravega 解决了大数据处理平台的哪些痛点以及与 Flink 结合会碰撞出怎样的火花。

K8s和YARN都不够好,全面解析Facebook自研流处理服务管理平台
K8s 和 YARN 都不够好,全面解析 Facebook 自研流处理服务管理平台

本文阐述了 Facebook 流处理服务管理平台 Turbine 的架构设计考量及实现。

  • 用户头像
    关注

    暂无签名

  • 用户头像
    关注

    暂无签名

  • 用户头像
    关注

    InfoQ高级编辑

    WeBank的银行系统弹性架构实践
    WeBank的银行系统弹性架构实践

    董小峰 | 微众银行 资深架构师

    立即下载
    滴滴出行数据应用平台建设实践

    郑秋野 | 滴滴出行 数据平台部/高级专家工程师

    立即下载
    业务逻辑拆分模式探索

    陶文 | 乘法云 CTO

    立即下载