【AICon 全球人工智能与大模型开发与应用大会】改变 AI 时代下写代码的模式 >>> 了解详情
写点什么

大数据容器化,头部玩家尝到了甜头?

  • 2019-12-20
  • 本文字数:2185 字

    阅读完需:约 7 分钟

大数据容器化,头部玩家尝到了甜头?

大数据的需求热度,从来都是这个时代的风口浪尖。


然而由于大数据系统的复杂性,一度导致业界大数据已死的各种声音质疑不断。尤其当 MapR 被 HPE 收购,Cloudera 公司股票持续断崖式下跌,叫衰之声进而进一步放大。其实,大数据的需求一直在,只是传统的大数据实现系统需要考虑重新构建,而容器依靠其自身标准化、一次构建随处运行的能力,非常适合用于大数据系统的构建和管理。容器技术当前正是那只火遍全球的当红辣子鸡。

华为云 BigData Pro 大数据解决方案荣获行业年度金奖

12 月 3 日晚,2019 年度中国数据与存储峰会年度颁奖典礼上,华为云 BigData Pro 大数据解决方案荣获“2019 年度大数据产品金奖”,再一次展示了华为云在大数据领域的不凡实力。中国数据与存储峰会(DSS)是国内顶级的数据与存储领域技术盛会,其颁发的奖项颇具含金量,在十多年间见证了国内数据存储技术和行业的迅猛发展。此次评选范围涉及私有云大数据、公有云大数据、大数据软件、大数据解决方案等多个领域和维度。本次华为云 BigData Pro 能一举拿下该奖项,也是实至名归。

大数据容器化,大势所趋


目前已经有大量的大数据系统原生支持 on Kubernetes,例如 Spark 官方版本,从 2.3 开始,就可以无需任何修改直接跑在 K8s 上。不仅如此,“更好地在 K8s 上运行”已成为后续版本演进的的重大策略, K8s 对大数据系统的重要性可见一斑。

队友已在加速,你感受到了么

鉴于容器技术对大数据具有良好助推作用,已经有不少技术嗅觉敏锐的头部玩家在此尝到了甜头。


短短几年间,行业已涌现出多个正面案例,中国联通的容器化大数据平台已实践,京东在使用 Kubernetes 管理大数据中心,网易基于 Kubernetes 和 Docker 构建构建了猛犸大数据平台,茄子科技直接将大数据任务大量在生产环境跑在 K8s 之上,华为云 DLI 服务容器化,阿里云 Flink on K8s 等。不言而喻,容器技术助力大数据分析,已广泛应用于各行各业,与其艰难维护自身的庞大的大数据系统,停下来看看业内的趋势、思考当前的应对措施方为良策。


BigData on K8s 最直接的优势并非性能提升,而是成本下降。


(1)高利用率的资源调度平台。原来分散在多个集群中的业务,可以合并到统一的集群中,加上长任务短任务混部及不同业务高峰时间的削峰填谷,来最大化提升集群资源利用率。


(2)统一的技术栈。原有的 Yarn 调度,节点管理技术,与当下宇宙标准 K8s 集群调度系统,目标是一样的。但是维护 2 种技术栈,就得增加研发人力成本,统一的基础设施技术栈,降成本效果明显。


(3)容器自动化能力。标准化是推动 IT 技术持续发展的原动力之一。容器技术本身理念就是一次构建,随处运行,这个与标准化理念是一致的。通过容器技术的标准化实施,并整合容器生态,建立运维系统。可以很好的降低业务系统的运维成本,甚至运维工具本身的构建和使用成本。

容器 + 存算分离,要速度也要成本

当前的大数据计算将计算和存储结合的模式,是分布式架构构建的一种尝试。但是当社区修改 HDFS 以支持 Hadoop 3.0 的 ErasureCode(纠删码)时,即接受了:不再支持就近读取的策略。它代表了一种新趋势:为了适应不同场景,存储空间和算力配比应该是灵活的,可以分别独立构建。


IDC 中国报告指出:“解耦计算和存储在大数据部署中被证明是有用的,它提供了更高的资源利用率,更高的灵活性和更低的成本。”这一论断与很多企业正在进行的大数据架构变革不谋而合。



同时,伴随着容器技术的成熟及在各行业深入广泛的应用,企业愈发意识到容器技术的优势能很好解决大数据平台当前所遭遇的困境。容器以其更小颗粒度的算力分配、更轻量和快捷的部署方式、灵活的任务调度等特点,可以进一步提升资源利用率,并轻松应对大批量任务并发时的算力扩容。

鲲鹏之上,火山助力

华为云自主研发的鲲鹏处理器,具备多核高并发能力可为用户提供包括裸金属服务器、云服务器、容器和 Serverless 在内的多种粒度的算力,大数据分布式场景性能可大幅提升。


其中鲲鹏大数据容器,具有极致弹性的调度能力,可以每秒发放 1000 容器,减少资源弹性等待时间,提升计算效率。而裸金属容器技术,由于大幅降低虚拟化开销,可更进一步提升服务器执行业务的利用率。采用 Serverless 模式的容器集群,可以很好地支持按需弹性无限扩展,用来执行 Spark 大数据任务,轻松处理 PB 级数据作业。


Volcano 项目是华为容器团队开源的一款 K8s 增强型调度器。初衷是为了解决原生 K8s 不支持 Gang Scheduling 问题,后来由于 AI 和大数据等业务领域也开始对 K8s 有极大诉求,团队成员通过总结具体场景实践经验,将其打造成有价值的技术产品,并贡献社区。


Volcano 通过高性能的调度算法,达到更高的容器调度速度。同时,自带的多种算法插件,可以极大地提升集群资源利用率。此外,Volcano 也补齐了 K8s 原生调度器与 Yarn 调度器间的 Gap,例如资源的队列管理(Queue)能力等,大大提升了容器大数据技术的性能。

容器技术为华为云 BigData Pro 解决方案助力

BigData Pro 是业界首个鲲鹏大数据解决方案,该方案采用基于公有云的存算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的 OBS 对象存储服务为统一的存储数据湖,提供“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案,大幅提升了大数据集群的资源利用率,能有效应对当前大数据行业存在的瓶颈,帮助企业应对 5G+ 云 + 智能时代的全新挑战,实现企业智能化转型升级。


2019-12-20 17:441976

评论

发布
暂无评论
发现更多内容

列存Delta表是个什么东东

华为云开发者联盟

存储 GaussDB(DWS) 列存表 delta表

千万级学生管理系统的考试试卷存储方案

Geek_8d5fe5

「架构实战营」

千万级学生管理系统Redis存储架构

IT屠狗辈

redis 架构实战营

峰会报名|从金融行业技术选型,看 RocketMQ 如何应对严苛挑战

阿里巴巴云原生

阿里云 RocketMQ 云原生 消息队列 峰会报名

【BBC learningenglish】with Tango

IT蜗壳-Tango

3月月更

几种如何判断环境是否连上网方法!推荐最后一种

华为云开发者联盟

网络 nodejs ipv4 上网 网络接口

前端实现word、excel、pdf、ppt、mp4、图片、文本等文件的预览

CRMEB

节省 58% IT 成本,调用函数计算超过 30 亿次,石墨文档的 Serverless 实践

阿里巴巴云原生

阿里云 云原生 函数计算 石墨文档 资源伸缩

架构师训练营模块四作业

刘帅

工作想法小计(4):2/28 - 3/4

非晓为骁

个人成长 工作 细节 工作想法

ScrollView 和 RelativeLayout两个布局技巧

逆锋起笔

android xml 3月月更 android布局

如何在windows下成功的编译和安装python组件hyperscan

华为云开发者联盟

正则表达式 windows hyperscan python组件 正则表达式引擎

Python二分查找,字符串模板,textwrap模块,每天写写Python自然就会了,每日Python第2天

梦想橡皮擦

3月月更

数据分析不能落地?快来围观,学会数据分析应用,一起升职加薪!

博文视点Broadview

分布式数据库排序及优化

vivo互联网技术

分布式数据库

PHP 遇见 Serverless,帮你解决这些痛点!

阿里巴巴云原生

php 阿里云 Serverless 云原生

千万学生管理系统之考试模块存储架构设计

随欣所遇

架构训练营5期

千万级学生管理系统考试试卷存储方案

Geek_36cc7c

在阿里巴巴,我们如何先于用户发现和定位 Kubernetes 集群问题?

阿里巴巴云原生

阿里云 云原生 分享 KubeProbe

构建 Go 应用 docker 镜像的十八种姿势

万俊峰Kevin

微服务 web开发 go-zero docker image Go 语言

模块四

blazar

「架构实战营」

模块八-作业二

hunk

云原生训练营

MySQL 15条常用的SQL知识(18/100)

hackstoic

MySQL

最佳实践:Kubernetes 集群中 DNS 故障的可观测性与根因诊断

阿里巴巴云原生

阿里云 Kubernetes 云原生 服务器 DNS

CNCF Serverless工作流社区携手华为云FunctionGraph,开拓Serverless编排新时代

华为云开发者联盟

json Serverless 华为云 FunctionGraph CNCF Serverless Workflow

感受当下-人生意义的思索

印哥爱学习

自我感悟 生活的意义

强大的JSON.stringify,你真的会使用吗?

战场小包

JavaScript 前端 3月月更

架构实战营:模块四作业

刘璐

第四课作业

浪飞

【模块四】千万级学生管理系统考试试卷存储方案设计

yhjhero

#架构训练营

为什么说程序猿也要有产品思维

慕枫技术笔记

技术思维 内容合集 3月月更

大数据容器化,头部玩家尝到了甜头?_架构_司马懿_InfoQ精选文章