写点什么

华为云 BigData Pro 解读: 鲲鹏云容器助力大数据破茧成蝶

  • 2020-03-23
  • 本文字数:1725 字

    阅读完需:约 6 分钟

华为云BigData Pro解读: 鲲鹏云容器助力大数据破茧成蝶

大数据之路顺应人类科技的进步而诞生,一直顺风顺水,不到 20 年时间,已渗透到社会生产和人们生活的方方面面。


然而,伴随着信息量的指数级增长,大数据也开始面临存储资源告急、算力吃紧、数据处理效率无法满足业务增长诉求等一系列问题,导致唱衰之声此起彼伏。


而近年来兴起的容器技术,以其轻量化、易迁移、扩容快等优势,结合计算存储分离的分布式架构,可以更好地发挥大数据平台在海量数据集、高并发、实时分析等应用场景下的优势。

翩然入世

互联网、汽车、保险、电力、零售等行业,利用海量信息分析用户特征及行为模式,从而制定更贴近用户的服务方案、商业策略,并进行精准推送。


目前大部分数据分析都在 Hadoop 生态中进行,Hadoop 也凭借其完善的生态,备受用户欢迎,成为主流的开源大数据平台,也成为了大数据的代名词。

困蛹之境


然而,从 2006 第一个 Hadoop 版本发布算起的话,大数据的发展也经历了至少 13 个年头,当初引以为傲的“计算存储融合”架构以及先进的数据分析理念和实践,也开始遭受挑战:


1、 计算存储资源耦合,无法灵活调整存算配比,只能按固定比例扩容,导致部分资源浪费;


2、 数据中心建设成本高,后期运维成本有高,性价比和灵活度均不如公有云方案;


3、 互联网时代,数据爆炸式增长,现有数据中心资源不足,极易导致作业拥塞,降低计算效率;


4、 大数据与其它业务资源池无法共享,需分开维护多套,进一步增加运维成本。


此外,AI、机器学习、自然语言处理(NLP)等概念的兴起,也对大数据造成冲击,“大数据已死”的风声开始不绝于耳。

破茧之挣


随着 5G+云+AI 时代来临,数据变得更多、更复杂、更精细化,大数据不仅没有死,反而对企业变得前所未有的重要。而亟待我们解决的问题是:如何用一种更高效、更实用的解决方案,处理爆炸式增长的数据。


围绕这一课题,各大公司也展开了新一轮的技术探索与升级。


首先,基础网络飞速发展,网络传输已不再是瓶颈,许多公司开始在大数据的存储和计算分离方面做尝试,效果如何呢?IDC 中国报告指出:“解耦计算和存储在大数据部署中被证明是有用的,它提供了更高的资源利用率,更高的灵活性和更低的成本。”


同时,伴随着容器技术的成熟及在各行业的深入应用,部分企业也着手于平台的容器化改造,希望结合容器的优势,为大数据平台赋予新的力量。


二者结合,我们似乎看到了大数据蜕变的曙光。

化蝶之旅


目前,存算分离的方案相对已经比较成熟,容器化方案还处于探索和小规模应用阶段,以 Spark 为例,方案大体上分为 2 种:


一种是 Spark Standalone,该方案仅对大数据系统做容器化部署改造,得益于容器轻量化、更细粒度的算力管理、任务隔离等特点,可以将主机划分成更多小颗粒的任务单元,使主机资源利用率更高,同时兼顾用户原有的使用习惯。


但此方案需要提前分配固定的容器数量,并保持容器的持续运行,无法对容器进行动态管理,资源的利用率虽然有所提升,但仍存在浪费。


另一种是 Spark On Kubernetes 集群方案,该方案使用 Kubernetes 替代 Yarn 来进行统一的资源编排和调度,技术上更贴近主流容器解决方案,免去了二层调度,可以进一步提升资源管理效率,相比 Standalone 方案,实现了对容器资源的动态管理,优化了资源分配。


绿色动图分割线


然而,Kubernetes 不属于 Hadoop 生态组件,与传统 Spark on YARN 相比存在一些劣势,如:缺少任务队列、external shuffle service 等特性,且性能较差。因此在应用到生产系统时,还要做大量的功能增强、调度和性能优化,才能保持与传统大数据平台一致。


针对客户容器化过程中的问题,华为云计划推出鲲鹏大数据容器解决方案,该方案与 BigData Pro 相结合,将提供一套更完善的容器化大数据解决方案。


BigData Pro 是业界首个鲲鹏大数据解决方案


该方案采用基于公有云的存算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的 OBS 对象存储服务为统一的存储数据湖,提供“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案,大幅提升了大数据集群的资源利用率,能有效应对当前大数据行业存在的瓶颈,帮助企业应对 5G+云+智能时代的全新挑战,实现企业智能化转型升级。


本文转载自华为云产品与解决方案公众号。


原文链接:https://mp.weixin.qq.com/s/g6rFKg3zak7tcNSVa84soA


2020-03-23 22:331029

评论

发布
暂无评论
发现更多内容

工作多年,技术认知不足,个人成长慢,职业发展迷茫,该怎么办?

霍格沃兹测试开发学社

京东云开发者|经典同态加密算法Paillier解读 - 原理、实现和应用

京东科技开发者

联邦学习 同态加密 隐私计算 加密算法 多方安全计算

Java应用在docker环境配置容器健康检查

程序员欣宸

Java Docker 11月月更

武汉web前端培训学习前景如何

小谷哥

技术分享 | 如何确保API 的稳定性与正确性?你只需要这一招

霍格沃兹测试开发学社

【JVM】关于JVM,你需要掌握这些 | 一文彻底吃透JVM系列

冰河

Java 性能优化 JVM Java虚拟机 系统编程

修改ElementUI样式

源字节1号

软件开发 前端开发 后端开发 小程序开发

佛萨奇1.0 2.0矩阵公排项目系统开发详情

开发微hkkf5566

工作多年,技术认知不足,个人成长慢,职业发展迷茫,该怎么办?

测试人

软件测试 自动化测试 测试开发

网站停服、秒杀大促…解析高可用网站架构云化

华为云开发者联盟

云计算 后端 华为云 企业号十月 PK 榜

CSS写一个圣诞树Chrome浏览器小插件

肥晨

11月月更 css写圣诞树 Chrome插件

用低代码平台搭建低代码平台

iofod jude

细说React组件性能优化

xiaofeng

React

【LeetCode】二叉树最大宽度Java题解

Albert

算法 LeetCode 11月月更

CnosDB 2.0 产品发布会预告:一切为了万物智联,用 Rust 打造云原生时序数据库

CnosDB

时序数据库 开源社区 CnosDB CnosDB 2.0发布会

基于OpenHarmony L2设备,如何用IoTDeviceSDKTiny对接华为云

华为云开发者联盟

云计算 华为云 企业号十月 PK 榜

【愚公系列】2022年11月 微信小程序-日期时间组件封装

愚公搬代码

11月月更

从 0 开始学 Python 自动化测试开发(二):环境搭建

霍格沃兹测试开发学社

ironSource 与 Sensor Tower 宣布达成战略合作,共同拓展应用市场增长潜力

极客天地

COSCon'22 第七届中国开源年会圆满落幕

腾源会

开源

大专学历通过大数据培训好找工作吗?

小谷哥

更轻量的百度百舸,CCE Stack 智算版发布

Baidu AICLOUD

AI工程化 高性能计算 异构计算 百度百舸

解密GaussDB(for Influx) :让智能电网中时序数据处理更高效

华为云开发者联盟

数据库 华为云 企业号十月 PK 榜

新能源锂电池极片制造设备如何实现故障智能诊断?

PreMaint

智能诊断 故障诊断 新能源 设备健康管理

4步消除漏洞积压

SEAL安全

漏洞修复 软件供应链安全 漏洞管理 11月月更

在web前端学习中如何学习知识点

小谷哥

知识蒸馏相关技术【模型蒸馏、数据蒸馏】以ERNIE-Tiny为例

汀丶人工智能

nlp 知识蒸馏 11月月更

校招面试真题 | 测试流程大概是什么?

霍格沃兹测试开发学社

JavaScript, ABAP 和 Scala 里的尾递归(Tail Recursion)

汪子熙

JavaScript 编程语言 尾递归 abap 11月月更

自学前端达到什么水平才能找到工作,来看这套前端学习路线图

千锋IT教育

如何通过机器学习赋能智能研发协作?

LigaAI

人工智能 智能化 LigaAI 研发协作平台 亚马逊云科技

华为云BigData Pro解读: 鲲鹏云容器助力大数据破茧成蝶_云原生_华为云产品与解决方案_InfoQ精选文章