【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

开源版 Spark 距离公有云服务有多远

  • 2019-09-14
  • 本文字数:796 字

    阅读完需:约 3 分钟

开源版Spark距离公有云服务有多远

ArchSummit深圳2018大会上,王鹏飞讲师做了《开源版 Spark 距离公有云服务有多远》主题演讲,主要内容如下。


演讲简介


Apache Spark 作为最火的大规模数据处理引擎之一,进步神速,它不仅在互联网公司,在传统行业(如银行)的使用都非常广泛。随着云时代的到来,把 Spark 搬到云上这件事,主要的云服务提供商都在做,比如 AWS/Aliyun 的 EMR、华为云的 MRS,但这种模式有几个缺点:


  1. 对中小规模用户,成本上浪费严重,管控节点开销占比过高;

  2. 和其他云服务接入很生硬,大多数需要用户自己开发;

  3. 集群和作业调优需要用户自己来做,除非够大,否则不会有专业团队贴脸服务。


Serverless 化的 Spark 服务是解决问题的王道,但是开源版本的 Spark 在企业级功能、规模、安全性、成本等方面颇有差距,这次分享主要站在云计算实践者的角度来分析这些差距都是什么和解决办法。

演讲提纲

  • Serverless VS E-MapReduce

  • 规模和可扩展性

  • 用户代码和系统安全

  • 数据湖存储架构

  • 企业级特性

  • 硬件的使用

  • 和 Carbon 存储系统的集成

  • 细节决定成败

听众受益

  • 社区忽略的方面,比如系统承载规模、代码安全、企业级特性往往在云产品上是最大的门槛;

  • 互联网时代的大数据,硬件的使用往往能带来意想不到的价值;

  • 工程问题:开源产品云化最大的“坑”。


讲师介绍


王鹏飞


华为 CloudBU EI 产品部 数据分析域架构师


目前在华为 Cloud BU,任数据分析域架构师,带队研发了数据查询服务。数据查询服务向用户提供完整的 Spark 生态,研发过程中,技术上遇到了很多开源社区和重型 Serverless 服务需求之间的问题,此次演讲会分享给大家。


在大数据领域工作了 9 年,在第一线参与了阿里巴巴 MaxCompute(ODPS)的演进,带队进行查询优化器和执行引擎的研发工作,技术面上撞墙踩坑无数。贴面式服务了阿里金融早期的阿里小贷,也经历了阿里巴巴集团的登月项目,在客户面上也积累了大量经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2018/shenzhen/schedule


2019-09-14 17:021090

评论

发布
暂无评论
发现更多内容

Java入门到架构-优秀书籍

Java入门到架构

Java 架构 入门 书籍

“懂行人”合力共建“强富美高”数字经济助力千载金陵的数字一跃

脑极体

.NET CORE 对象池简述

喵叔

7月日更

低代码“三合一”模式,解决产品研发系统沟通问题!

优秀

低代码

李某逆道而行闭关三月,直接四杀斩获阿里/腾讯/京东/百度等大厂offer

Java架构师迁哥

ES6中扩展运算符的8种用法

devpoint

数组去重 ES6 扩展运算符

Rust从0到1-Cargo-自定义构建

rust build cargo 构建

5分钟速读之Rust权威指南(三十四)面向对象

wzx

rust

业务架构模块7 作业 王者荣耀商城异地多活

好吃不贵

业务架构

云原生领域的一些技术展望

名白

容器 云原生 Service Mesh service

推荐系统提供web服务的2种方式(二十四)

数据与智能

算法 推荐系统 web服务

时间管理:通过折叠时间放大时间价值

石云升

读书笔记 时间管理 7月日更

又曝出程序员删库跑路,业界何时能推出互联网企业和程序员之间的约束准则?|话题

三掌柜

话题讨论 话题 话题王者 话题广场

CodeDay#7 启动 | 北京欢迎你

蚂蚁集团移动开发平台 mPaaS

小程序 webview 移动开发 mPaaS

为什么 FaaS 系统的复杂性不会随着规模的增长而指数增长?

朱峰 Ben

Serverless Faas

2021最新一线大厂Java高级架构师面试题总结,上线3天获22w浏览量

Java 编程 程序员 架构 面试

网络攻防学习笔记 Day61

穿过生命散发芬芳

网络攻防 7月日更

Linux之tail命令

入门小站

Linux

程序员35岁以后就真的要返乡种田了么?如果没田种怎么办?|话题

花花

话题讨论 话题 话题王者 话题广场

🏆 【JVM性能调优】「对象内存分配」虚拟机参数调优分析

洛神灬殇

GC jvm调优 内存分配 7月日更

在线HTML实体转字符串工具

入门小站

工具

08 | 指针系列(二):记住,指针变量也是变量

Nydia

剑指“双碳”目标,浪潮云牵手中科谱光一起做「光谱捕手」

浪潮云

云计算

“Windows 找不到文件...”,怎么处理?

Emotion

windows 系统 找不到系统文件 windows找不到文件

极客时间-排位赛可视化工具

IT蜗壳-Tango

7月日更

PowerShell 数组

耳东@Erdong

PowerShell 7月日更

【LeetCode】雪糕的最大数量Java题解

Albert

算法 LeetCode 7月日更

架构思考

zk

微信 架构 微信业务架构

话题讨论|你知道集群、分布式、微服务区别吗?

Emotion

分布式 微服务 话题讨论 集群 话题王者

(VMware)ubuntu 环境下搭建 docker 镜像私服

逸少

Docker 镜像仓库

念念不忘,必有回响!6月更文活动的一些总结

编程三昧

程序员 程序人生 代码人生

开源版Spark距离公有云服务有多远_ArchSummit_王鹏飞_InfoQ精选文章