为什么我要选择Spark on K8s？_架构_华为云原生团队

大数据之路顺应人类科技的进步而诞生，一直顺风顺水，不到 20 年时间，已渗透到社会生产和人们生活的方方面面，。然而，伴随着信息量的指数级增长，大数据也开始面临存储资源告急、算力吃紧、数据处理效率无法满足业务增长诉求等一系列问题，导致唱衰之声此起彼伏。而近年来兴起的容器技术，以其轻量化、易迁移、扩容快等优势，结合计算存储分离的分布式架构，可以更好地发挥大数据平台在海量数据集、高并发、实时分析等应用场景下的优势。

互联网、汽车、保险、电力、零售等行业，利用海量信息分析用户特征及行为模式，从而制定更贴近用户的服务方案、商业策略，并进行精准推送。目前大部分数据分析都在 Hadoop 生态中进行，Hadoop 也凭借其完善的生态，备受用户欢迎，成为主流的开源大数据平台，也成为了大数据的代名词。

然而，从 2006 第一个 Hadoop 版本发布算起的话，大数据的发展也经历了至少 13 个年头，当初引以为傲的“计算存储融合”架构以及先进的数据分析理念和实践，也开始遭受挑战：

计算存储资源耦合，无法灵活调整存算配比，只能按固定比例扩容，导致部分资源浪费；
数据中心建设成本高，后期运维成本有高，性价比和灵活度均不如公有云方案；
互联网时代，数据爆炸式增长，现有数据中心资源不足，极易导致作业拥塞，降低计算效率；
大数据与其它业务资源池无法共享，需分开维护多套，进一步增加运维成本。

此外，AI、机器学习、自然语言处理（NLP）等概念的兴起，也对大数据造成冲击，“大数据已死”的风声开始不绝于耳。

随着 5G+云+AI 时代来临，数据变得更多、更复杂、更精细化，大数据不仅没有死，反而对企业变得前所未有的重要。而亟待我们解决的问题是：如何用一种更高效、更实用的解决方案，处理爆炸式增长的数据。围绕这一课题，各大公司也展开了新一轮的技术探索与升级。

首先，基础网络飞速发展，网络传输已不再是瓶颈，许多公司开始在大数据的存储和计算分离方面做尝试，效果如何呢？IDC 中国报告指出：“解耦计算和存储在大数据部署中被证明是有用的，它提供了更高的资源利用率，更高的灵活性和更低的成本。”

同时，伴随着容器技术的成熟及在各行业的深入应用，部分企业也着手于平台的容器化改造，希望结合容器的优势，为大数据平台赋予新的力量。

二者结合，我们似乎看到了大数据蜕变的曙光。

目前，存算分离的方案相对已经比较成熟，容器化方案还处于探索和小规模应用阶段，以 Spark 为例，方案大体上分为 2 种：

一种是 Spark Standalone，该方案仅对大数据系统做容器化部署改造，得益于容器轻量化、更细粒度的算力管理、任务隔离等特点，可以将主机划分成更多小颗粒的任务单元，使主机资源利用率更高，同时兼顾用户原有的使用习惯。

但此方案需要提前分配固定的容器数量，并保持容器的持续运行，无法对容器进行动态管理，资源的利用率虽然有所提升，但仍存在浪费。

另一种是 Spark On Kubernetes 集群方案，该方案使用 Kubernetes 替代 Yarn 来进行统一的资源编排和调度，技术上更贴近主流容器解决方案，免去了二层调度，可以进一步提升资源管理效率，相比 Standalone 方案，实现了对容器资源的动态管理，优化了资源分配。

然而，Kubernetes 不属于 Hadoop 生态组件，与传统 Spark on YARN 方案相比存在一些劣势，如：缺少任务队列、external shuffle service 等特性，且性能较差。因此在应用到生产系统时，还要做大量的功能增强、调度和性能优化，才能保持与传统大数据平台一致。

针对客户容器化过程中的问题，华为云计划推出鲲鹏大数据容器解决方案，该方案与 BigData Pro 相结合，将提供一套更完善的容器化大数据解决方案。BigData Pro 是业界首个鲲鹏大数据解决方案，该方案采用基于公有云的存算分离架构，以可无限弹性扩容的鲲鹏算力作为计算资源，以支持原生多协议的 OBS 对象存储服务为统一的存储数据湖，提供“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案，大幅提升了大数据集群的资源利用率，能有效应对当前大数据行业存在的瓶颈，帮助企业应对 5G+云+智能时代的全新挑战，实现企业智能化转型升级。

2019 年全联接大会上，华为云将正式发布鲲鹏大数据容器解决方案，该方案针对大数据业务场景，在功能、调度和性能上有了优化和增强，能为用户提供更原生的大数据服务体验。

华为云鲲鹏大数据容器相比业界主流大数据平台有哪些优势？华为云鲲鹏大数据容器又使用了哪些黑科技？

9 月 18 日华为全联接大会

让我们一起拭目以待！

发布

暂无评论

创作场景

为什么我要选择 Spark on K8s？

评论

将 Python 和 Rust 融合在一起，为 pyQuil® 4.0 带来和谐

ETLCloud X 明道云实现无缝数据连接

知识图谱技术在金融领域的分析和应用

如何在敏捷项目中实现高效测试？

软件开发

语音数据集：推动智能语音技术发展的关键驱动力

The Next Generation of Apache Flink

赛博威新一代TPM营销费用管理指南——费用管理类型篇

火山引擎边缘云获“2023边缘计算年度领航企业”及“最佳CDN创新企业”等多项荣誉

Amazon Q | 融会贯通的 AI 开发助手来了！

淘宝API与大数据技术在电商行业的应用研究

WAVE SUMMIT+ 2023 今日开场！奉上完整预告和参会指南，今天见！

软件测试/测试开发丨SQL多表查询学习笔记

做好数据管理体系发挥企业数据乘数效应

创新驱动数字经济发展，融云获评「2023 数字经济隐形独角兽」

万界星空科技MES系统中的工时管理

软通咨询助力某新能源头部企业迈向高效数智化时代，塑造行业新典范

mac电脑强大电脑风扇转速管理：Macs Fan Control Pro激活码中文版

Solana 生态铭文跨链桥 Sobit 是何神圣？其场外白名单已达到1200U

全球校园人工智能算法精英大赛-AIOT应用赛项圆满落幕

语音数据集：探索、挑战与应用

万界星空科技智能制造平台的工时管理系统

创作场景

为什么我要选择 Spark on K8s？

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载