【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

为什么我要选择 Spark on K8s?

  • 2019-09-12
  • 本文字数:1798 字

    阅读完需:约 6 分钟

为什么我要选择Spark on K8s?

大数据之路顺应人类科技的进步而诞生,一直顺风顺水,不到 20 年时间,已渗透到社会生产和人们生活的方方面面,。然而,伴随着信息量的指数级增长,大数据也开始面临存储资源告急、算力吃紧、数据处理效率无法满足业务增长诉求等一系列问题,导致唱衰之声此起彼伏。而近年来兴起的容器技术,以其轻量化、易迁移、扩容快等优势,结合计算存储分离的分布式架构,可以更好地发挥大数据平台在海量数据集、高并发、实时分析等应用场景下的优势。


互联网、汽车、保险、电力、零售等行业,利用海量信息分析用户特征及行为模式,从而制定更贴近用户的服务方案、商业策略,并进行精准推送。目前大部分数据分析都在 Hadoop 生态中进行,Hadoop 也凭借其完善的生态,备受用户欢迎,成为主流的开源大数据平台,也成为了大数据的代名词。



然而,从 2006 第一个 Hadoop 版本发布算起的话,大数据的发展也经历了至少 13 个年头,当初引以为傲的“计算存储融合”架构以及先进的数据分析理念和实践,也开始遭受挑战:


  1. 计算存储资源耦合,无法灵活调整存算配比,只能按固定比例扩容,导致部分资源浪费;

  2. 数据中心建设成本高,后期运维成本有高,性价比和灵活度均不如公有云方案;

  3. 互联网时代,数据爆炸式增长,现有数据中心资源不足,极易导致作业拥塞,降低计算效率;

  4. 大数据与其它业务资源池无法共享,需分开维护多套,进一步增加运维成本。


此外,AI、机器学习、自然语言处理(NLP)等概念的兴起,也对大数据造成冲击,“大数据已死”的风声开始不绝于耳。



随着 5G+云+AI 时代来临,数据变得更多、更复杂、更精细化,大数据不仅没有死,反而对企业变得前所未有的重要。而亟待我们解决的问题是:如何用一种更高效、更实用的解决方案,处理爆炸式增长的数据。围绕这一课题,各大公司也展开了新一轮的技术探索与升级。


首先,基础网络飞速发展,网络传输已不再是瓶颈,许多公司开始在大数据的存储和计算分离方面做尝试,效果如何呢?IDC 中国报告指出:“解耦计算和存储在大数据部署中被证明是有用的,它提供了更高的资源利用率,更高的灵活性和更低的成本。”


同时,伴随着容器技术的成熟及在各行业的深入应用,部分企业也着手于平台的容器化改造,希望结合容器的优势,为大数据平台赋予新的力量。


二者结合,我们似乎看到了大数据蜕变的曙光。



目前,存算分离的方案相对已经比较成熟,容器化方案还处于探索和小规模应用阶段,以 Spark 为例,方案大体上分为 2 种:


一种是 Spark Standalone,该方案仅对大数据系统做容器化部署改造,得益于容器轻量化、更细粒度的算力管理、任务隔离等特点,可以将主机划分成更多小颗粒的任务单元,使主机资源利用率更高,同时兼顾用户原有的使用习惯。


但此方案需要提前分配固定的容器数量,并保持容器的持续运行,无法对容器进行动态管理,资源的利用率虽然有所提升,但仍存在浪费。


另一种是 Spark On Kubernetes 集群方案,该方案使用 Kubernetes 替代 Yarn 来进行统一的资源编排和调度,技术上更贴近主流容器解决方案,免去了二层调度,可以进一步提升资源管理效率,相比 Standalone 方案,实现了对容器资源的动态管理,优化了资源分配。


然而,Kubernetes 不属于 Hadoop 生态组件,与传统 Spark on YARN 方案相比存在一些劣势,如:缺少任务队列、external shuffle service 等特性,且性能较差。因此在应用到生产系统时,还要做大量的功能增强、调度和性能优化,才能保持与传统大数据平台一致。


针对客户容器化过程中的问题,华为云计划推出鲲鹏大数据容器解决方案,该方案与 BigData Pro 相结合,将提供一套更完善的容器化大数据解决方案。BigData Pro 是业界首个鲲鹏大数据解决方案,该方案采用基于公有云的存算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的 OBS 对象存储服务为统一的存储数据湖,提供“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案,大幅提升了大数据集群的资源利用率,能有效应对当前大数据行业存在的瓶颈,帮助企业应对 5G+云+智能时代的全新挑战,实现企业智能化转型升级。


2019 年全联接大会上,华为云将正式发布鲲鹏大数据容器解决方案,该方案针对大数据业务场景,在功能、调度和性能上有了优化和增强,能为用户提供更原生的大数据服务体验。


华为云鲲鹏大数据容器相比业界主流大数据平台有哪些优势?华为云鲲鹏大数据容器又使用了哪些黑科技?


9 月 18 日华为全联接大会


让我们一起拭目以待!


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-09-12 18:213297

评论

发布
暂无评论
发现更多内容

探秘Kubernetes:在本地环境中玩转容器技术

SEAL安全

Kubernetes 容器 云原生 本地环境

【论文速读】| 通过间接提示注入危害现实世界中的LLM集成应用

云起无垠

3D数字绘画和雕刻软件:Mudbox 2025 新功能介绍及安装教程

Rose

Mudbox 2025下载 Mudbox 2025新功能 Mudbox 2025安装教程 3D数字雕刻

Maya 2025下载 玛雅maya2025新功能介绍

Rose

Maya 2025中文版 Maya 2025下载 三维动画软件 玛雅2025新功能 玛雅2025破解

招聘严峻期我最终拿到5个Offer的一些经验分享(附面试题)

测试人

面试 软件测试

topaz gigapixel ai怎么安装?Topaz Gigapixel AI激活安装详细教程

Rose

topaz gigapixel ai破解版 无损放大图像 Topaz Gigapixel AI 安装

2024多云管理平台CMP排名看这里!

行云管家

云计算 云服务 多云管理 云管

新体验、高效能,星河零代码产线加速带动产业新质生产力

飞桨PaddlePaddle

百度 BAIDU 百度飞桨 产品更新 PaddleX

标准库unsafe:带你突破golang中的类型限制

华为云开发者联盟

Go golang 开发 华为云 华为云开发者联盟

Disk Drill for mac专业直装版 苹果电脑数据恢复工具下载

Rose

Disk Drill下载 Disk Drill mac 数据恢复mac版

实现以图搜货功能,淘宝API开发实战分享

tbapi

图片搜索接口 以图搜货接口 拍立淘接口

【重磅干货】大模型时代,开发者云上成长指南

华为云开发者联盟

华为云 华为云GaussDB 华为云开发者联盟 华为云CodeArts 华为云盘古大模型

选择KV数据库最重要的是什么?

YG科技

守护更多女性健康,华为云GeminiDB助力美柚完成数据库高效稳定迁移

YG科技

Elmedia Video Player Pro 支持AirPlay的苹果mac视频播放器

Rose

媒体播放器 Mac软件 视频播放器 Elmedia Video Player Pro

就业寒冬,我是如何拿到5个offer的(附面试题)

霍格沃兹测试开发学社

电源噪声的起因及危害

攻城狮Wayne

噪声 电源

C#中使用IntPtr.Size属性来判断当前系统是32位还是64位

百度搜索:蓝易云

C# 云计算 Linux 运维 云服务器

水杉3D建模工具:Metasequoia破解版 含永久注册码

Rose

水杉3D建模 Metasequoia 4 破解版 Metasequoia 4注册码

人工智能降噪:topaz photo ai 操作系统 topaz photo ai中文破解安装包

Rose

智能降噪 Topaz Photo AI系统要求 Topaz Photo AI破解版

Windows自定义后台进程并设置为开机启动

GousterCloud

windows 自定义 后台进程 开机启动

一文读懂MES和ERP的区别

万界星空科技

制造业 ERP mes 万界星空科技 生产管理软件

Chatbot具体需要如何搭建

百度搜索:蓝易云

云计算 Linux 运维 chatbot 云服务器

hal库中串口常用函数介绍

百度搜索:蓝易云

云计算 Linux 运维 云服务器 HAL

什么是Ubuntu LTS?与常规版本的区别

百度搜索:蓝易云

云计算 Linux ubuntu 运维 云服务器

cad设计绘图Autodesk AutoCAD 2025完整版中文破解工具

Rose

AutoCAD 2025 CAD2025

GaussDB(for Redis)助力金智教育业务数字化,增效降本双赢

YG科技

学习aop以及nginx

百度搜索:蓝易云

nginx Linux 运维 aop 云服务器

Hazel for Mac自动化清理 含Hazel许可证

Rose

Hazel for Mac Hazel许可证 Hazel for Mac破解版 自动化文件整理

AutoCAD LT 2025介绍(精简版cad2025)及中文版安装教程

Rose

Autodesk AutoCAD LT 2025 cad2025破解版 AutoCAD LT 2025介绍

解析 WebSocket 与 HTTP 协议的关键区别

Apifox

编程 程序员 网络协议 HTTP websocket

为什么我要选择Spark on K8s?_架构_华为云原生团队_InfoQ精选文章