Spark

关注
收录了Spark频道下的 142 篇内容
  • 全部
  • 文章
  • 视频
  • 电子书
深入浅出Spark(一):内存计算的由来
深入浅出 Spark(一):内存计算的由来

作为系列的第一篇,本文作者将从 Spark 的起源探索其背后的原理,并对一些开发过程中的常见问题提供解决方法。

Apache Spark + AI开源社区进展&实际案例分享 | 大咖说
Apache Spark + AI 开源社区进展 & 实际案例分享 | 大咖说

的积极性也水涨船高。应用到生产,单单模型和算法好是远远不够的。的大规模应用。及周边生态系统进行了一系列的工作。

基于Spark的大规模推荐系统特征工程
基于 Spark 的大规模推荐系统特征工程

本次分享题目为基于 Spark 的大规模推荐系统特征工程及优化,主要内容包括:大规模推荐系统;Spark SQL 应用与 FESQL;基于 LLVM 的 Spark 优化。

像原设计者一样深入理解Spark
像原设计者一样深入理解 Spark

本文是对 Spark 组件的一个非常简单的介绍,其主要目的是提供对 Spark 架构的一般理解。

SpaceX软件团队Reddit答网友问:应用级程序用C++编写,测试用Python
SpaceX 软件团队 Reddit 答网友问:应用级程序用 C++ 编写,测试用 Python

“面试造火箭,入职拧螺丝”这个梗不适合 Space X,因为他们入职就真的可以造火箭了。

Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
Spark 3.0 重磅发布!开发近两年,流、Python、SQL 重大更新全面解读

Spark 3.0 开发历时近两年终于发布,都有哪些重要功能?

Flink 完美搭档:数据存储层上的 Pravega
Flink 完美搭档:数据存储层上的 Pravega

本文将从大数据架构变迁历史,Pravega 简介,Pravega 进阶特性以及车联网使用场景这四个方面介绍 Pravega,重点介绍 DellEMC 为何要研发 Pravega,Pravega 解决了大数据处理平台的哪些痛点以及与 Flink 结合会碰撞出怎样的火花。

K8s和YARN都不够好,全面解析Facebook自研流处理服务管理平台
K8s 和 YARN 都不够好,全面解析 Facebook 自研流处理服务管理平台

本文阐述了 Facebook 流处理服务管理平台 Turbine 的架构设计考量及实现。

选择适合自己的 OLAP 引擎
选择适合自己的 OLAP 引擎

本文主要介绍了主流开源的 OLAP 引擎:Hive、Sparksql、Presto、Kylin、Impala、Druid、Clickhouse 等,逐一介绍了每一款开源 OLAP 引擎,包含架构、优缺点、使用场景等,希望可以给大家有所启发。

嫌 OSS 查询太慢?看我们如何将速度提升 10 倍!
嫌 OSS 查询太慢?看我们如何将速度提升 10 倍!

本文详细对比了用来构建数据湖方案的 JuiceFS 和 OSS 的性能。JuiceFS 为 OSS 提速,Spark 查询提升 11 倍,写入提升 8 倍

Spark 3.0 新特性抢先看
Spark 3.0 新特性抢先看

关于 Spark 3.0 新特性的解读,我们邀请王耿亮老师在今年 9 月 11 日 ArchSummit 全球架构师峰会(深圳站)上详细介绍,包括 Delta Lake 新功能介绍、设计思路细节、用户在使用过程中遇到的坑(案例),以及解决方法。

Fiber 简明入门指南
Fiber 简明入门指南

Fiber,让人工智能的分布式计算变得简单。

Spark SQL在字节跳动数据仓库领域的优化实践
Spark SQL 在字节跳动数据仓库领域的优化实践

本文介绍 Spark SQL 在字节跳动数据仓库领域的优化实践。

架构的百年大计
架构的百年大计

本文讲述了关于知识共享、师徒制和构建(及改造)系统的方方面面。

Apache Spark 2.4 和未来 | QCon
Apache Spark 2.4 和未来 | QCon

支持等。查询语言等。听众受益:的主要新功能有总体了解。了解下一个版本的主要新功能。

通过计算存储分离实现高性能弹性化的 Spark 部署 | QCon
通过计算存储分离实现高性能弹性化的 Spark 部署 | QCon

的弹性化对其在云上实现灵活部署有着重要的意义:易失性的云主机部署,节点失效成为常态;存储计算分离,有限的本地存储加上大量的远端存储(块存储、对象存储)。

估值62亿美元,Databricks会成为企业AI平台的黑马吗?
估值 62 亿美元,Databricks 会成为企业 AI 平台的黑马吗?

Ali Ghodsi:“这是我经历过的最容易的一次融资”。

Spark诞生头十年:Hadoop由盛转衰,统一数据分析大行其道
Spark 诞生头十年:Hadoop 由盛转衰,统一数据分析大行其道

2019 年是 Spark 诞生的第 10 个年头,统一数据分析的理念始终植根于 Spark 的各个发展阶段。

Spark Streaming源码分析:DStream的内置和运行
Spark Streaming 源码分析:DStream 的内置和运行

本文介绍 Spark-Streaming 的流处理模型,DStream 的内部实现以及其如何构建和运行。

架构师(2019年12月) 架构师(2019年12月)
架构师(2019 年 12 月)

本期主要内容:真正支配世界的十种算法;敏捷中国十八年目睹之怪现状;混沌工程落地的六个阶段

迁移了几十家企业之后,我们总结了如何在云中构建成功的现代数据分析平台
迁移了几十家企业之后,我们总结了如何在云中构建成功的现代数据分析平台

这样一套强大的数据平台已经成为企业所不可或缺的数字化与 AI 转型基础。

由Decimal操作计算引发的Spark数据丢失问题
由 Decimal 操作计算引发的 Spark 数据丢失问题

本文介绍一次数据质量相关的问题以及排查该问题的过程和解决方案。

Apache Spark 3.0 预览版正式发布,多项重大功能发布
Apache Spark 3.0 预览版正式发布,多项重大功能发布

Apache Spark 3.0 增加了很多令人兴奋的新特性

Apache Arrow Flight:快速数据传输框架
Apache Arrow Flight:快速数据传输框架

这是一个新的通用客户端服务器框架,用于简化大型数据集通过网络接口的高性能传输。

我用Rust徒手重写了一个Spark,并把它开源了
我用 Rust 徒手重写了一个 Spark,并把它开源了

运行快 3 倍、内存利用率仅 1/30,终极目标:替代 Spark

Uber机器学习平台Michelangelo是如何使用Spark模型的?
Uber 机器学习平台 Michelangelo 是如何使用 Spark 模型的?

Michelangelo 是 Uber 的机器学习(ML)平台,可以训练并服务于整个公司范围内生产环境中的数千种模型。

  • 用户头像
    关注

    暂无签名

  • 用户头像
    关注

    暂无签名

  • 用户头像
    关注

    暂无签名

    基于协程的编程方式在移动端研发的思考及最佳实践

    彭玉堂 | 阿里巴巴 无线开发专家

    立即下载
    360多数据源混合查询引擎的前世今生

    刘思源 | 奇虎360 大数据中心资深研发工程师

    立即下载
    QCon 背后的故事

    黄丹( Kitty ) | 极客邦科技 会议主编

    立即下载