大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

开源版 Spark 距离公有云服务有多远

  • 2019-09-14
  • 本文字数:796 字

    阅读完需:约 3 分钟

开源版Spark距离公有云服务有多远

ArchSummit深圳2018大会上,王鹏飞讲师做了《开源版 Spark 距离公有云服务有多远》主题演讲,主要内容如下。


演讲简介


Apache Spark 作为最火的大规模数据处理引擎之一,进步神速,它不仅在互联网公司,在传统行业(如银行)的使用都非常广泛。随着云时代的到来,把 Spark 搬到云上这件事,主要的云服务提供商都在做,比如 AWS/Aliyun 的 EMR、华为云的 MRS,但这种模式有几个缺点:


  1. 对中小规模用户,成本上浪费严重,管控节点开销占比过高;

  2. 和其他云服务接入很生硬,大多数需要用户自己开发;

  3. 集群和作业调优需要用户自己来做,除非够大,否则不会有专业团队贴脸服务。


Serverless 化的 Spark 服务是解决问题的王道,但是开源版本的 Spark 在企业级功能、规模、安全性、成本等方面颇有差距,这次分享主要站在云计算实践者的角度来分析这些差距都是什么和解决办法。

演讲提纲

  • Serverless VS E-MapReduce

  • 规模和可扩展性

  • 用户代码和系统安全

  • 数据湖存储架构

  • 企业级特性

  • 硬件的使用

  • 和 Carbon 存储系统的集成

  • 细节决定成败

听众受益

  • 社区忽略的方面,比如系统承载规模、代码安全、企业级特性往往在云产品上是最大的门槛;

  • 互联网时代的大数据,硬件的使用往往能带来意想不到的价值;

  • 工程问题:开源产品云化最大的“坑”。


讲师介绍


王鹏飞


华为 CloudBU EI 产品部 数据分析域架构师


目前在华为 Cloud BU,任数据分析域架构师,带队研发了数据查询服务。数据查询服务向用户提供完整的 Spark 生态,研发过程中,技术上遇到了很多开源社区和重型 Serverless 服务需求之间的问题,此次演讲会分享给大家。


在大数据领域工作了 9 年,在第一线参与了阿里巴巴 MaxCompute(ODPS)的演进,带队进行查询优化器和执行引擎的研发工作,技术面上撞墙踩坑无数。贴面式服务了阿里金融早期的阿里小贷,也经历了阿里巴巴集团的登月项目,在客户面上也积累了大量经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2018/shenzhen/schedule


2019-09-14 17:021374

评论

发布
暂无评论
发现更多内容

Apache ShardingSphere 5.1.0 正式发布

SphereEx

数据库 开源社区 SphereEx Apache ShardingSphere

英特尔2022年投资者大会:以软件解锁更大增长机遇

科技新消息

黑客马拉松(Hackathon)是什么?

Speedoooo

黑客马拉松 黑客松

冬奥高质量炫技,Get同款“魔法”:图像处理算法 | 赠书

博文视点Broadview

大咖说|极客邦CEO霍太稳对话阿里云存储负责人吴结生:我的数据存储20年(无限生长篇)

大咖说

阿里巴巴 InfoQ 存储线

会声会影2022语音转文字功能怎么用

懒得勤快

SQL学习(持续更新)

阿丞

事务 索引 sql

巧用EasyRecovery监控硬盘!为你的电脑保驾护航!

淋雨

EasyRecovery 数据恢复’

数据同步与缓存一致性问题

Mars

布隆过滤器 缓存一致性

会声会影2022重磅发布!会声会影2022全新功能详解

懒得勤快

记录一些Oracle操作命令

wong

oracle

2022年1月视频行业用户洞察:假期影响下活跃用户开始回升

易观分析

移动视频 视频app

敏捷开发中的「史诗」到底是什么?

LigaAI

项目管理 敏捷开发 史诗

祝贺!首届龙蜥社区年度突出贡献奖揭晓,马上查看

OpenAnolis小助手

Linux 开源 互联网 社群运营

感谢认可!一封又一封的感谢信

郑州埃文科技

IP地址 网络空间 地图测绘

虎符Hoo研究院:Cosmos是如何实现链与链的“港口”相连的?

区块链前沿News

Hoo 虎符交易所 虎符研究院 Cosmos

第十四节:SpringBoot使用JdbcTemplate访问操作数据库基本用法

入门小站

springboot

在线时序流程图制作工具

入门小站

晟盾科技加入龙蜥社区,共建开源新生态

OpenAnolis小助手

Linux 开源

哪里可以查到网络安全等级测评与检测评估机构目录?

行云管家

网络安全 等保 等级测评

【C语言】二维数组

謓泽

C语言 2月月更 二维数组

迁移学习综述与未来展望 | 社区征文

战场小包

人工智能 迁移学习 新春征文 2月月更

终极指南:企业级云原生 PaaS 平台日志分析架构全面解析

尔达Erda

微服务 云原生 PaaS 云原生应用

星巴克涨价引热议!中国现磨咖啡市场目前到底如何?

易观分析

星巴克涨价 中国咖啡市场

再见了,我的散装研发管理平台;再见了,4台ECS!

阿里云云效

阿里云 DevOps 云原生 研发 敏捷研发

《数字经济全景白皮书》数字冰雪篇 重磅发布

易观分析

数字经济 冬奥会

会声会影2022美颜功能介绍 教你玩转视频美颜

懒得勤快

华为云企业级Redis揭秘第16期:超越开源Redis的ACID"真"事务

华为云开发者联盟

redis 事务 ACID GaussDB(for Redis) 开源Redis

面对锁等待难题,数仓如何实现问题的秒级定位和分析

华为云开发者联盟

sql GaussDB(DWS) 锁等待 分布式死锁

外包学生管理系统的架构设计

yhjhero

#架构训练营

网络安全kali渗透学习 web渗透入门 如何进行NESSUS漏洞检测

学神来啦

开源版Spark距离公有云服务有多远_ArchSummit_王鹏飞_InfoQ精选文章