免费下载!由 O’Reilly 出版的《NGINX 完全指南》中文版已正式上线 了解详情
写点什么

通过计算存储分离实现高性能弹性化的 Spark 部署

  • 2019-08-30
  • 本文字数:918 字

    阅读完需:约 3 分钟

通过计算存储分离实现高性能弹性化的 Spark 部署

实现 Spark 的弹性化对其在云上实现灵活部署有着重要的意义:易失性的云主机部署,节点失效成为常态;存储计算分离,有限的本地存储加上大量的远端存储(块存储、对象存储)。所有的这些变化促使传统的大数据框架需要更适应云原生的部署方式。腾讯数据平台部数据湖内核技术负责人邵赛赛和 MemVerge 联合创始人、首席技术官李玥即将在 QCon 全球软件开发大会(上海站)2019分享《通过计算存储分离实现高性能弹性化的 Spark 部署


为实现这一目的,分离 Spark 的计算和存储则变得尤为重要。如果计算的临时结果,输入和输出数据都被转移存储在计算集群之外的存储集群,计算任务即可转化为无状态的弹性任务。对于 Spark,重要的计算的状态数据包括 Shuffle 过程中产生的临时数据以及 RDD 等缓存数据,这些数据必须存储在外接存储集群以实现弹性部署。然而,由于外界存储集群的 I/O 性能以及计算节点和存储节点之间的网络传输性能瓶颈对实现高性能的计算存储分离方案提出了巨大的挑战。


本次分享中,我们基于之前合作的结果,讨论一种高性能实现 Spark 存储计算分离的创新架构。该架构基于一套全新开发并基于持久化内存的高性能分布式数据基础架构,以及高性能低延迟网络传输协议。我们以腾讯云数仓产品 Sparkling 为例,讨论使用该创新架构在优化 TPC-DS benchmark 性能上的实践。


嘉宾介绍


邵赛赛,腾讯数据平台部数据湖内核技术负责人,资深大数据工程师,Apache Spark PMC Member & Committer、Apache Livy PMC Member。


李玥,Yue is a co-founder and the Chief Technology Officer of MemVerge. Previously, he worked as a senior post-doctoral scholar in memory systems at the California Institute of Technology. Yue has extensive research experience on both theoretical and experimental aspects of algorithms for non-volatile memories. His research has been published in top journals and conferences on data storage. Yue received his PhD in computer science from Texas A&M University, and his B.Sc. in Information Security from Huazhong University of Science and Technology.


更多大数据分析的支撑技术的相关分享请访问 QCon 上海 2019 官网。


2019-08-30 00:003312

评论

发布
暂无评论
发现更多内容

云原生系列 二【轻松入门容器基础操作】

叶秋学长

云原生 华为云 沙箱实验 11月月更

2022-11-19:第二高的薪水。表结构和数据的sql语句如下,输出200,因为200是第二大的。请问sql语句如何写? DROP TABLE IF EXISTS `employee`; CREAT

福大大架构师每日一题

MySQL 数据库 福大大

uni-app实战之单击菜单发布->H5的Promise 化在工程项目的实战演练项目心得

恒山其若陋兮

前端 11月月更

纯原生渲染模式下的uni-App框架通信实战

恒山其若陋兮

前端 11月月更

Ubuntu16(ROS_Kinetic)海康威视网络摄像机(单目)内参标定

Studying_swz

ubuntu 11月月更

基于 jenkins 视图对 jenkins job 进行分类

忙着长大#

jenkins

cap理论和base理论

周杰伦本人

11月月更

GoFrame V2真香,我是Get到了高内聚低耦合的点,你呢?

王中阳Go

Go golang 高效工作 学习方法 11月月更

计算机网络:广域网的基本概念

timerring

计算机网络 11月月更 广域网

OSPF路由协议三

初学者

网络 11月月更

EasyExcel导出数据超过Excel单表上限解决方案

@下一站

大数据 技术 Excel Java core 11月月更

网站与应用

我叫于豆豆吖.

11月月更

部署 jenkins master 及多 slave 环境

忙着长大#

jenkins

TCC

周杰伦本人

11月月更

OSPF高级配置——虚链路介绍与配置

我叫于豆豆吖.

11月月更

代码的衡量标准

Lemoon Can

写好代码 好代码的衡量标准

python中封装和继承

乔乔

11月月更

【愚公系列】2022年11月 微信小程序-sitemap站内搜索

愚公搬代码

11月月更

WX微信小程序对于响应的数据绑定和模块化生命周期的实战心得

恒山其若陋兮

前端开发 11月月更

架构误区系列5:滥用分布式锁

agnostic

分布式锁

微服务连接:Subset子集划分算法

董哥的黑板报

微服务 云原生 连接 RPC 集群

两阶段提交与三阶段提交

周杰伦本人

11月月更

FL Studio水果软件V21完整版本全面升级支持简体中文语言界面

茶色酒

FL Studio 水果FL Studio FL Studio 21

kubernetes部署metrics-server

程序员欣宸

Kubernetes k8s 11月月更

使用keytool生成Tomcat证书

源字节1号

软件开发 前端开发 后端开发 小程序开发

一篇文章彻底理解 HDFS 的安全模式

明哥的IT随笔

hadoop hdfs

网页基本代码

我叫于豆豆吖.

11月月更

数据预处理和特征工程-特征选择-相关性过滤-互信息法 & F检验

烧灯续昼2002

人工智能 机器学习 算法 特征工程 11月月更

[力扣] 剑指 Offer 第四天 - 在排序数组中查找数字

陈明勇

Go 数据结构与算法 力扣 11月月更

极客时间运维进阶训练营第四周作业

忙着长大#

极客时间

部署 Jenkins 服务器并安装 GitLab 插件、实现代码免秘钥代码 clone

忙着长大#

jenkins

通过计算存储分离实现高性能弹性化的 Spark 部署_QCon_李玥_InfoQ精选文章