硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

开源版 Spark 距离公有云服务有多远

  • 2019-09-14
  • 本文字数:796 字

    阅读完需:约 3 分钟

开源版Spark距离公有云服务有多远

ArchSummit深圳2018大会上,王鹏飞讲师做了《开源版 Spark 距离公有云服务有多远》主题演讲,主要内容如下。


演讲简介


Apache Spark 作为最火的大规模数据处理引擎之一,进步神速,它不仅在互联网公司,在传统行业(如银行)的使用都非常广泛。随着云时代的到来,把 Spark 搬到云上这件事,主要的云服务提供商都在做,比如 AWS/Aliyun 的 EMR、华为云的 MRS,但这种模式有几个缺点:


  1. 对中小规模用户,成本上浪费严重,管控节点开销占比过高;

  2. 和其他云服务接入很生硬,大多数需要用户自己开发;

  3. 集群和作业调优需要用户自己来做,除非够大,否则不会有专业团队贴脸服务。


Serverless 化的 Spark 服务是解决问题的王道,但是开源版本的 Spark 在企业级功能、规模、安全性、成本等方面颇有差距,这次分享主要站在云计算实践者的角度来分析这些差距都是什么和解决办法。

演讲提纲

  • Serverless VS E-MapReduce

  • 规模和可扩展性

  • 用户代码和系统安全

  • 数据湖存储架构

  • 企业级特性

  • 硬件的使用

  • 和 Carbon 存储系统的集成

  • 细节决定成败

听众受益

  • 社区忽略的方面,比如系统承载规模、代码安全、企业级特性往往在云产品上是最大的门槛;

  • 互联网时代的大数据,硬件的使用往往能带来意想不到的价值;

  • 工程问题:开源产品云化最大的“坑”。


讲师介绍


王鹏飞


华为 CloudBU EI 产品部 数据分析域架构师


目前在华为 Cloud BU,任数据分析域架构师,带队研发了数据查询服务。数据查询服务向用户提供完整的 Spark 生态,研发过程中,技术上遇到了很多开源社区和重型 Serverless 服务需求之间的问题,此次演讲会分享给大家。


在大数据领域工作了 9 年,在第一线参与了阿里巴巴 MaxCompute(ODPS)的演进,带队进行查询优化器和执行引擎的研发工作,技术面上撞墙踩坑无数。贴面式服务了阿里金融早期的阿里小贷,也经历了阿里巴巴集团的登月项目,在客户面上也积累了大量经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2018/shenzhen/schedule


2019-09-14 17:021360

评论

发布
暂无评论
发现更多内容

情感语音识别的研究方法与实践

数据堂

来听B站音乐UP主从容老师讲解GuitarPro和Earmaster

淋雨

Guitar Pro EarMaster 吉他 声乐 视唱

亲身体验云原生顶会北美 KubeCon,5个要点和4个 Fun Facts

小猿姐

Kubernetes 云原生 cncf KubeCON

弹性云主机支持多种规格

天翼云开发者社区

云计算 云主机 云平台

MatrixOne完成与欧拉、麒麟信安的兼容互认

MatrixOrigin

分布式数据库 云原生数据库 MatrixOrigin MatrixOne HTAP数据库

云电脑运行原理分析

天翼云开发者社区

虚拟化 云平台 云电脑

交易所开发:加密货币交易平台开发的见解

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 公链开发

代码迭代:软件开发者在众包平台的发展之路

知者如C

计算网络之MSTP协议与VRRP协议

不在线第一只蜗牛

计算机网络 计算机知识 协议解析

专家分享——CAE仿真软件学习心得

智造软件

仿真 CAE 仿真软件 CAE软件 altair

有限元分析初学者需要关注哪些问题?

思茂信息

仿真软件 仿真技术 有限元分析 有限元仿真 有限元技术

聚焦数据安全,神州数码联合多方发布《数据分类分级自动化建设指南》

科技热闻

情感语音识别技术的发展趋势与前景

数据堂

小程序转换工具—Antmove 使用教学

FN0

小程序 Antmove

MatrixOne 支持多样化生态工具,持续提升开发者体验

MatrixOrigin

分布式数据库 云原生数据库 MatrixOrigin MatrixOne HTAP数据库

MatrixOne 实战系列回顾 | 建模与多租户

MatrixOrigin

分布式数据库 云原生数据库 MatrixOrigin MatrixOne HTAP数据库

你这些网站都不知道,怎么摸好鱼?

秃头小帅oi

前端 低代码 在线 程序选

避免defer陷阱:拆解延迟语句,掌握正确使用方法

伤感汤姆布利柏

超过5000+企业使用的ETL平台

谷云科技RestCloud

ETL

三策略,六步骤,Jenkins 迁移到极狐GitLab CI 的终极指南

极狐GitLab

ci DevOps gitlab 持续集成 jenkins

AppLink上的小鹅通能实现什么操作呢?

谷云科技RestCloud

APPlink

开源版Spark距离公有云服务有多远_ArchSummit_王鹏飞_InfoQ精选文章