写点什么

开源版 Spark 距离公有云服务有多远

  • 2019-09-14
  • 本文字数:796 字

    阅读完需:约 3 分钟

开源版Spark距离公有云服务有多远

ArchSummit深圳2018大会上,王鹏飞讲师做了《开源版 Spark 距离公有云服务有多远》主题演讲,主要内容如下。


演讲简介


Apache Spark 作为最火的大规模数据处理引擎之一,进步神速,它不仅在互联网公司,在传统行业(如银行)的使用都非常广泛。随着云时代的到来,把 Spark 搬到云上这件事,主要的云服务提供商都在做,比如 AWS/Aliyun 的 EMR、华为云的 MRS,但这种模式有几个缺点:


  1. 对中小规模用户,成本上浪费严重,管控节点开销占比过高;

  2. 和其他云服务接入很生硬,大多数需要用户自己开发;

  3. 集群和作业调优需要用户自己来做,除非够大,否则不会有专业团队贴脸服务。


Serverless 化的 Spark 服务是解决问题的王道,但是开源版本的 Spark 在企业级功能、规模、安全性、成本等方面颇有差距,这次分享主要站在云计算实践者的角度来分析这些差距都是什么和解决办法。

演讲提纲

  • Serverless VS E-MapReduce

  • 规模和可扩展性

  • 用户代码和系统安全

  • 数据湖存储架构

  • 企业级特性

  • 硬件的使用

  • 和 Carbon 存储系统的集成

  • 细节决定成败

听众受益

  • 社区忽略的方面,比如系统承载规模、代码安全、企业级特性往往在云产品上是最大的门槛;

  • 互联网时代的大数据,硬件的使用往往能带来意想不到的价值;

  • 工程问题:开源产品云化最大的“坑”。


讲师介绍


王鹏飞


华为 CloudBU EI 产品部 数据分析域架构师


目前在华为 Cloud BU,任数据分析域架构师,带队研发了数据查询服务。数据查询服务向用户提供完整的 Spark 生态,研发过程中,技术上遇到了很多开源社区和重型 Serverless 服务需求之间的问题,此次演讲会分享给大家。


在大数据领域工作了 9 年,在第一线参与了阿里巴巴 MaxCompute(ODPS)的演进,带队进行查询优化器和执行引擎的研发工作,技术面上撞墙踩坑无数。贴面式服务了阿里金融早期的阿里小贷,也经历了阿里巴巴集团的登月项目,在客户面上也积累了大量经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2018/shenzhen/schedule


2019-09-14 17:021383

评论

发布
暂无评论
发现更多内容

我敢说 80% 的程序员都掉进了「老鼠赛跑」的陷阱

非著名程序员

读书笔记 程序员 程序人生 提升认知

死磕Java并发编程(3):volatile关键字不了解的赶紧看看

Seven七哥

Java Java并发 volatile

个人知识管理精进指南

非著名程序员

学习 读书笔记 知识管理 认知提升

【SpringBoot】为什么我的 CommandLineRunner 不 run ?

遇见

Java Spring Boot

Nginx代理Oracle数据库连接

遇见

MySQL nginx oracle 反向代理

【SpringBoot】为什么我的定时任务不执行?

遇见

Java Spring Boot 定时任务 debug

回"疫"录(1):口罩危机也许是一种进步

小天同学

疫情 回忆录 现实纪录

如何画一个闹钟

池建强

视觉笔记

关于HSTS - 强制浏览器使用HTTPS与服务器创建连接

遇见

https 安全 浏览器 TLS 证书

写作平台使用感受

小天同学

产品 体验 反馈

敏捷(组织)转型的6个准备条件

Bob Jiang

团队管理 敏捷 组织转型

程序员陪娃看绘本之启示

孙苏勇

程序员 生活 读书 成长 陪伴

Disruptor为何这么快

Rayjun

Java Disruptor

Facebook在用户增长到5亿时的扩容策略

Rayjun

团队管理 扩容

软件工程的史前时代 -- Therac-25 事件

王泰

质量管理 软件工程 软件危机 软件测试

终极 Shell

池建强

Linux Shell

有关Kotlin Companion 我们需要了解到的几个知识点

王泰

Java 编程 kotlin 编程语言

软件世界中的个人英雄与团队协作

王泰

团队管理 软件工程 团队协作

用python爬虫保存美国农业部网站上的水果图片

遇见

Python GitHub 爬虫

揭秘|为何程序员们能一直保持高收入?

丁长老

学习 程序员 写作 高薪

死磕Java并发编程(6):从源码分析清楚AQS

Seven七哥

Java Java并发 并发编程 AQS

Zoom的加密算法,到底有什么问题?

X.F

算法 编码习惯 产品设计 安全 编程语言

dubbo-go 中如何实现路由策略功能

joe

Apache 开源 微服务 dubbo Go 语言

【SpringBoot】给你的 CommandLineRunner 排个序

遇见

Java Spring Boot

回"疫"录(2):不知者无畏

小天同学

疫情 回忆录 现实纪录

过滤数组中重复元素,你知道最优方案吗?

麦洛

数据结构 数组 数组去重

像经营咖啡店一样扩容 Web 系统

Rayjun

Web 扩容

最近的一些人生感悟

小智

人生 哲学

太慢是不行的

池建强

创业 产品

常用手机软件清单

彭宏豪95

效率工具 App 手机 移动应用

理性主义和实证主义

王泰

理性主义 实证主义 哲学 软件工程

开源版Spark距离公有云服务有多远_ArchSummit_王鹏飞_InfoQ精选文章