写点什么

开源版 Spark 距离公有云服务有多远

  • 2019-09-14
  • 本文字数:796 字

    阅读完需:约 3 分钟

开源版Spark距离公有云服务有多远

ArchSummit深圳2018大会上,王鹏飞讲师做了《开源版 Spark 距离公有云服务有多远》主题演讲,主要内容如下。


演讲简介


Apache Spark 作为最火的大规模数据处理引擎之一,进步神速,它不仅在互联网公司,在传统行业(如银行)的使用都非常广泛。随着云时代的到来,把 Spark 搬到云上这件事,主要的云服务提供商都在做,比如 AWS/Aliyun 的 EMR、华为云的 MRS,但这种模式有几个缺点:


  1. 对中小规模用户,成本上浪费严重,管控节点开销占比过高;

  2. 和其他云服务接入很生硬,大多数需要用户自己开发;

  3. 集群和作业调优需要用户自己来做,除非够大,否则不会有专业团队贴脸服务。


Serverless 化的 Spark 服务是解决问题的王道,但是开源版本的 Spark 在企业级功能、规模、安全性、成本等方面颇有差距,这次分享主要站在云计算实践者的角度来分析这些差距都是什么和解决办法。

演讲提纲

  • Serverless VS E-MapReduce

  • 规模和可扩展性

  • 用户代码和系统安全

  • 数据湖存储架构

  • 企业级特性

  • 硬件的使用

  • 和 Carbon 存储系统的集成

  • 细节决定成败

听众受益

  • 社区忽略的方面,比如系统承载规模、代码安全、企业级特性往往在云产品上是最大的门槛;

  • 互联网时代的大数据,硬件的使用往往能带来意想不到的价值;

  • 工程问题:开源产品云化最大的“坑”。


讲师介绍


王鹏飞


华为 CloudBU EI 产品部 数据分析域架构师


目前在华为 Cloud BU,任数据分析域架构师,带队研发了数据查询服务。数据查询服务向用户提供完整的 Spark 生态,研发过程中,技术上遇到了很多开源社区和重型 Serverless 服务需求之间的问题,此次演讲会分享给大家。


在大数据领域工作了 9 年,在第一线参与了阿里巴巴 MaxCompute(ODPS)的演进,带队进行查询优化器和执行引擎的研发工作,技术面上撞墙踩坑无数。贴面式服务了阿里金融早期的阿里小贷,也经历了阿里巴巴集团的登月项目,在客户面上也积累了大量经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2018/shenzhen/schedule


2019-09-14 17:021322

评论

发布
暂无评论
发现更多内容

零基础构建即时通讯开源项目OpenIM移动端-Flutter篇

Geek_1ef48b

Uber Go 编程风格指南

FunTester

使用 Apifox、Postman 测试 Dubbo 服务,Apache Dubbo OpenAPI 即将发布

阿里巴巴云原生

阿里云 云原生

机械加工生产管理的难点与MES系统的解决方案

万界星空科技

制造业 mes 万界星空科技mes 机械加工 机械加工mes

罗格科技携手DeepSeek推出AI税务神器,助你轻松提升职场竞争力

科技热闻

DNS攻击方式有哪些,应该采取哪些应对措施?

国科云

直播APP的技术难点

北京木奇移动技术有限公司

直播app 直播APP开发 软件外包公司

直播APP的开发流程

北京木奇移动技术有限公司

直播app 直播APP开发 软件外包公司

音乐NFT系统的后台架构

北京木奇移动技术有限公司

软件外包公司 音乐NFT 体育NFT

火语言RPA--变量序列化

火语言RPA

DeepSeek登场:软件测试的「工业革命」与工程师的「进化论」

测试人

人工智能

直播APP的后台架构的搭建

北京木奇移动技术有限公司

直播app 软件外包公司 APP外包公司

Volcano v1.11发布,显著提升AI训练与推理任务的性能

华为云开发者联盟

人工智能 大数据 云原生 Volcano

淘宝天猫API实战:三步轻松获取商品数据,助力电商智能化升级

代码忍者

淘宝API接口

应届生如何高效备战春招?

王中阳Go

春招

前端怎么做好稳定性保障体系建设?精准搞定“白虎”,不用叫“广智”!

京东零售技术

【YashanDB知识库】Flink CDC实时同步Oracle数据到崖山

YashanDB

数据库 yashandb

亚马逊详情 API 接口的开发、应用与收益

科普小能手

数据挖掘 数据分析 亚马逊 运营干货 API 接口

征程 6 参考算法使用指南

地平线开发者

自动驾驶 算法工具链 地平线征程6

携手AWS,零成本在EKS上体验AutoMQ企业版

AutoMQ

云计算 大数据 kafka 架构 中间件

Nuspire报告揭示勒索软件活动和攻击企图激增46%

财见

开源版Spark距离公有云服务有多远_ArchSummit_王鹏飞_InfoQ精选文章