NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

开源版 Spark 距离公有云服务有多远

  • 2019-09-14
  • 本文字数:796 字

    阅读完需:约 3 分钟

开源版Spark距离公有云服务有多远

ArchSummit深圳2018大会上,王鹏飞讲师做了《开源版 Spark 距离公有云服务有多远》主题演讲,主要内容如下。


演讲简介


Apache Spark 作为最火的大规模数据处理引擎之一,进步神速,它不仅在互联网公司,在传统行业(如银行)的使用都非常广泛。随着云时代的到来,把 Spark 搬到云上这件事,主要的云服务提供商都在做,比如 AWS/Aliyun 的 EMR、华为云的 MRS,但这种模式有几个缺点:


  1. 对中小规模用户,成本上浪费严重,管控节点开销占比过高;

  2. 和其他云服务接入很生硬,大多数需要用户自己开发;

  3. 集群和作业调优需要用户自己来做,除非够大,否则不会有专业团队贴脸服务。


Serverless 化的 Spark 服务是解决问题的王道,但是开源版本的 Spark 在企业级功能、规模、安全性、成本等方面颇有差距,这次分享主要站在云计算实践者的角度来分析这些差距都是什么和解决办法。

演讲提纲

  • Serverless VS E-MapReduce

  • 规模和可扩展性

  • 用户代码和系统安全

  • 数据湖存储架构

  • 企业级特性

  • 硬件的使用

  • 和 Carbon 存储系统的集成

  • 细节决定成败

听众受益

  • 社区忽略的方面,比如系统承载规模、代码安全、企业级特性往往在云产品上是最大的门槛;

  • 互联网时代的大数据,硬件的使用往往能带来意想不到的价值;

  • 工程问题:开源产品云化最大的“坑”。


讲师介绍


王鹏飞


华为 CloudBU EI 产品部 数据分析域架构师


目前在华为 Cloud BU,任数据分析域架构师,带队研发了数据查询服务。数据查询服务向用户提供完整的 Spark 生态,研发过程中,技术上遇到了很多开源社区和重型 Serverless 服务需求之间的问题,此次演讲会分享给大家。


在大数据领域工作了 9 年,在第一线参与了阿里巴巴 MaxCompute(ODPS)的演进,带队进行查询优化器和执行引擎的研发工作,技术面上撞墙踩坑无数。贴面式服务了阿里金融早期的阿里小贷,也经历了阿里巴巴集团的登月项目,在客户面上也积累了大量经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2018/shenzhen/schedule


2019-09-14 17:021094

评论

发布
暂无评论
发现更多内容

架构师训练营大作业二

潘涛

架构师训练营 4 期

【极客大学】模块一作业

冬天的树

架构实战营 模块 1 课后作业

eoeoeo

架构实战营

聪明人的训练(四)

Changing Lin

4月日更

Git命令大全,Git基本了解

Chalk

git 学习 4月日更

3.4 Go语言从入门到精通:包管理工具之Go module

xcbeyond

go modules Go 语言 4月日更

零基础学Tableau系列 | 04—标靶图、甘特图、瀑布图

不温卜火

数据可视化 数据清洗 4月日更

Redis数据结构zset详解:范围查找

程序员架构进阶

redis 源码分析 Zset 28天写作 4月日更

配置中的动态代码

顿晓

配置化开发 Function 4月日更 动态函数

JavaScript 图片转文字,文字转语音

空城机

JavaScript 大前端 4月日更 tesseract 图片转文字

架构实战营-模块一作业

俞立夫

架构实战营

8x Flow 业务建模法(二):再看什么是业务逻辑

胡皓

领域驱动设计 DDD 业务建模 8xFlow 业务逻辑

架构实战营 - 模块一作业

凯迪

架构实战营

go每日一库 [cmd]

happlyfox

Go 语言 4月日更

容器的生命周期状态变化

耳东@Erdong

容器 4月日更

当你的内心归于平静,美好便会悄然而至

小天同学

自我思考 个人感悟 个人总结 4月日更

sql执行顺序优化

大数据技术指南

sql 4月日更

架构实战营-模块1-作业

笑春风

架构实战营

Linux awk命令

一个大红包

4月日更

第一课作业

杰语

[架构实战营][0期]模块1作业

张民

架构实战营

外网访问Ubuntu下的Tomcat

U2647

tomcat ubuntu 4月日更

Hadoop 3.x 版本相对于 Hadoop 2.x的新特性

五分钟学大数据

hadoop 4月日更

华仔训练营第一次作业

方堃

算法训练营 - 学习笔记 - 第一周

心在飞

模块一作业

Presley

像智能手机一样造车,可能吗?

脑极体

架构师训练营大作业一

潘涛

架构师训练营 4 期

第13周课后练习-数据应用(二)

潘涛

架构师训练营 4 期

模块一,学习总结

俞立夫

架构实战营

强化学习—DQN:不讲前世,就论今生

打工人!

深度学习 强化学习 深度强化学习 图解源码分析 DQN

开源版Spark距离公有云服务有多远_ArchSummit_王鹏飞_InfoQ精选文章