在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

开源版 Spark 距离公有云服务有多远

  • 2019-09-14
  • 本文字数:796 字

    阅读完需:约 3 分钟

开源版Spark距离公有云服务有多远

ArchSummit深圳2018大会上,王鹏飞讲师做了《开源版 Spark 距离公有云服务有多远》主题演讲,主要内容如下。


演讲简介


Apache Spark 作为最火的大规模数据处理引擎之一,进步神速,它不仅在互联网公司,在传统行业(如银行)的使用都非常广泛。随着云时代的到来,把 Spark 搬到云上这件事,主要的云服务提供商都在做,比如 AWS/Aliyun 的 EMR、华为云的 MRS,但这种模式有几个缺点:


  1. 对中小规模用户,成本上浪费严重,管控节点开销占比过高;

  2. 和其他云服务接入很生硬,大多数需要用户自己开发;

  3. 集群和作业调优需要用户自己来做,除非够大,否则不会有专业团队贴脸服务。


Serverless 化的 Spark 服务是解决问题的王道,但是开源版本的 Spark 在企业级功能、规模、安全性、成本等方面颇有差距,这次分享主要站在云计算实践者的角度来分析这些差距都是什么和解决办法。

演讲提纲

  • Serverless VS E-MapReduce

  • 规模和可扩展性

  • 用户代码和系统安全

  • 数据湖存储架构

  • 企业级特性

  • 硬件的使用

  • 和 Carbon 存储系统的集成

  • 细节决定成败

听众受益

  • 社区忽略的方面,比如系统承载规模、代码安全、企业级特性往往在云产品上是最大的门槛;

  • 互联网时代的大数据,硬件的使用往往能带来意想不到的价值;

  • 工程问题:开源产品云化最大的“坑”。


讲师介绍


王鹏飞


华为 CloudBU EI 产品部 数据分析域架构师


目前在华为 Cloud BU,任数据分析域架构师,带队研发了数据查询服务。数据查询服务向用户提供完整的 Spark 生态,研发过程中,技术上遇到了很多开源社区和重型 Serverless 服务需求之间的问题,此次演讲会分享给大家。


在大数据领域工作了 9 年,在第一线参与了阿里巴巴 MaxCompute(ODPS)的演进,带队进行查询优化器和执行引擎的研发工作,技术面上撞墙踩坑无数。贴面式服务了阿里金融早期的阿里小贷,也经历了阿里巴巴集团的登月项目,在客户面上也积累了大量经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2018/shenzhen/schedule


2019-09-14 17:021398

评论

发布
暂无评论
发现更多内容

建筑行业全周期区块链产融平台

CECBC

建筑行业

自研消息队列架构设计文档

菠萝吹雪—Code

架构实战营

去中心化、P2P、NAT浅析

IT酷盖

音视频 WebRTC 去中心化

封神总结!蚂蚁金服+滴滴+美团+拼多多+腾讯15万字Java面试题

Java架构之路

Java 程序员 架构 面试 编程语言

架构实战营 模块二 作业

Pitt

架构实战营

网络攻防学习笔记 Day5

穿过生命散发芬芳

5月日更 网络攻防

区块链与物联网融合发展都会有哪些机遇与挑战

CECBC

区块链

入门到精通!阿里码农熬了2晚整理的Java工具,真香

飞飞JAva

Java java工具类

打破思维定式(二)

Changing Lin

5月日更

模块三作业:消息队列详细设计文档

薛定谔的指南针

架构实战营

Java开发项目模板16步快速搭建,拒绝重复性工作!

北游学Java

Java 项目 模板

【死磕JVM】看完这篇我也会排查JVM内存过高了 就是玩儿!

牧小农

JVM;

从简历被拒到收割8个大厂offer,我用了3个月成功破茧成蝶

Java架构之路

Java 程序员 架构 面试 编程语言

进击的速溶咖啡:当中国AI开始玩工业化

脑极体

Vue Router 10 条高级技巧

Thrash

技巧

超级全面的测试用例设计,你确定不来看一看?

程序员阿沐

软件测试 测试用例 测试工程师

Golang实现文件复制的技巧

liuzhen007

Go 语言 5月日更

GitHub首次上线!华为顶级工程师手写的这份网络协议手册全面开源

Java架构之路

Java 程序员 面试 编程语言 计算机

数字资产的发行是全球都无法阻挡的大趋势!

CECBC

数字资产

Dubbo 动态配置中心

青年IT男

dubbo

天时地利人和—一个传奇操作系统的诞生记

兆熊

unix 历史

新手学习微服务,得先看看这篇文章

Java架构师迁哥

算法训练营 - 学习笔记 - 第五周

心在飞

出游时,请继续戴好口罩

石云升

新冠疫苗 5月日更

SpringBoot-技术专题-教你使用Cache缓存组件

码界西柚

spring springboot cache 5月日更

架构设计模块3 - 消息队列架构设计文档

Presley

架构实战营

自研消息队列架构设计文档

贯通

#架构实战营

字节一二三面,面经(已经OC)四月底真实面试经历!

Java大蜗牛

Java 程序员 面试 算法 后端

不要轻言放弃,阿里P8架构师分享十年学习生涯

Java架构师迁哥

太简单了!这套Java异常处理的总结,80%的人都没看过

牛哄哄的java大师

Java

4.2 Go语言从入门到精通:延迟函数 defer

xcbeyond

defer Go 语言 5月日更

开源版Spark距离公有云服务有多远_ArchSummit_王鹏飞_InfoQ精选文章