阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

华为云 BigData Pro 解读: 鲲鹏云容器助力大数据破茧成蝶

  • 2020-03-23
  • 本文字数:1725 字

    阅读完需:约 6 分钟

华为云BigData Pro解读: 鲲鹏云容器助力大数据破茧成蝶

大数据之路顺应人类科技的进步而诞生,一直顺风顺水,不到 20 年时间,已渗透到社会生产和人们生活的方方面面。


然而,伴随着信息量的指数级增长,大数据也开始面临存储资源告急、算力吃紧、数据处理效率无法满足业务增长诉求等一系列问题,导致唱衰之声此起彼伏。


而近年来兴起的容器技术,以其轻量化、易迁移、扩容快等优势,结合计算存储分离的分布式架构,可以更好地发挥大数据平台在海量数据集、高并发、实时分析等应用场景下的优势。

翩然入世

互联网、汽车、保险、电力、零售等行业,利用海量信息分析用户特征及行为模式,从而制定更贴近用户的服务方案、商业策略,并进行精准推送。


目前大部分数据分析都在 Hadoop 生态中进行,Hadoop 也凭借其完善的生态,备受用户欢迎,成为主流的开源大数据平台,也成为了大数据的代名词。

困蛹之境


然而,从 2006 第一个 Hadoop 版本发布算起的话,大数据的发展也经历了至少 13 个年头,当初引以为傲的“计算存储融合”架构以及先进的数据分析理念和实践,也开始遭受挑战:


1、 计算存储资源耦合,无法灵活调整存算配比,只能按固定比例扩容,导致部分资源浪费;


2、 数据中心建设成本高,后期运维成本有高,性价比和灵活度均不如公有云方案;


3、 互联网时代,数据爆炸式增长,现有数据中心资源不足,极易导致作业拥塞,降低计算效率;


4、 大数据与其它业务资源池无法共享,需分开维护多套,进一步增加运维成本。


此外,AI、机器学习、自然语言处理(NLP)等概念的兴起,也对大数据造成冲击,“大数据已死”的风声开始不绝于耳。

破茧之挣


随着 5G+云+AI 时代来临,数据变得更多、更复杂、更精细化,大数据不仅没有死,反而对企业变得前所未有的重要。而亟待我们解决的问题是:如何用一种更高效、更实用的解决方案,处理爆炸式增长的数据。


围绕这一课题,各大公司也展开了新一轮的技术探索与升级。


首先,基础网络飞速发展,网络传输已不再是瓶颈,许多公司开始在大数据的存储和计算分离方面做尝试,效果如何呢?IDC 中国报告指出:“解耦计算和存储在大数据部署中被证明是有用的,它提供了更高的资源利用率,更高的灵活性和更低的成本。”


同时,伴随着容器技术的成熟及在各行业的深入应用,部分企业也着手于平台的容器化改造,希望结合容器的优势,为大数据平台赋予新的力量。


二者结合,我们似乎看到了大数据蜕变的曙光。

化蝶之旅


目前,存算分离的方案相对已经比较成熟,容器化方案还处于探索和小规模应用阶段,以 Spark 为例,方案大体上分为 2 种:


一种是 Spark Standalone,该方案仅对大数据系统做容器化部署改造,得益于容器轻量化、更细粒度的算力管理、任务隔离等特点,可以将主机划分成更多小颗粒的任务单元,使主机资源利用率更高,同时兼顾用户原有的使用习惯。


但此方案需要提前分配固定的容器数量,并保持容器的持续运行,无法对容器进行动态管理,资源的利用率虽然有所提升,但仍存在浪费。


另一种是 Spark On Kubernetes 集群方案,该方案使用 Kubernetes 替代 Yarn 来进行统一的资源编排和调度,技术上更贴近主流容器解决方案,免去了二层调度,可以进一步提升资源管理效率,相比 Standalone 方案,实现了对容器资源的动态管理,优化了资源分配。


绿色动图分割线


然而,Kubernetes 不属于 Hadoop 生态组件,与传统 Spark on YARN 相比存在一些劣势,如:缺少任务队列、external shuffle service 等特性,且性能较差。因此在应用到生产系统时,还要做大量的功能增强、调度和性能优化,才能保持与传统大数据平台一致。


针对客户容器化过程中的问题,华为云计划推出鲲鹏大数据容器解决方案,该方案与 BigData Pro 相结合,将提供一套更完善的容器化大数据解决方案。


BigData Pro 是业界首个鲲鹏大数据解决方案


该方案采用基于公有云的存算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的 OBS 对象存储服务为统一的存储数据湖,提供“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案,大幅提升了大数据集群的资源利用率,能有效应对当前大数据行业存在的瓶颈,帮助企业应对 5G+云+智能时代的全新挑战,实现企业智能化转型升级。


本文转载自华为云产品与解决方案公众号。


原文链接:https://mp.weixin.qq.com/s/g6rFKg3zak7tcNSVa84soA


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-03-23 22:33651

评论

发布
暂无评论
发现更多内容

多重安全防护加持,华为云828营销季为中小企业构建上云安全感

平平无奇爱好科技

mac电脑录屏截图标注首选 CleanShot X 最新激活版

胖墩儿不胖y

Mac软件 截图软件 截图工具 屏幕截图软件

接网线怎么保留了568B线序

小齐写代码

从软件工程师角度聊聊 Kubernetes

SEAL安全

容器 k8s 解决方案 kubernetes 运维 企业号9月PK榜

轻量应用服务器怎么样?云耀云服务器L实例值得入手吗?

轶天下事

蓝易云:RabbitMQ安装、端口修改、基本操作详解!

百度搜索:蓝易云

云计算 Linux 运维 RabbitMQ 云服务器

蓝易云:当云服务器频繁被暴力破解时的防护措施有哪些?

百度搜索:蓝易云

云计算 Linux 运维 云服务器 ECS

混合应用前端框架HybridApp篇

没有用户名丶

Mac端电脑风扇控制 Macs Fan Control Pro激活中文版

mac大玩家j

电脑风扇控制软件 风扇转速控制 好用的电脑风扇软件

HBuilder开发者必备!Windows上传IPA文件的软件分享

百度输入法全面升级,打造首个基于大模型的输入法原生应用

彭飞

2023年,小游戏分发平台的机遇与挑战

没有用户名丶

时序数据库 TDengine 官网全新上线,四大亮点抢先看

TDengine

tdengine 时序数据库 工业互联网

视频剪辑中花式抠图的代码实操与案例详述

阿里云视频云

云计算 阿里云

谈谈JSF业务线程池的大小配置 | 京东物流技术团队

京东科技开发者

测试 测试用例 jsf 企业号9月PK榜

文盘Rust——子命令提示,提高用户体验 | 京东云技术团队

京东科技开发者

rust cli 企业号9月PK榜 领域交互

一种基于动态代理的通用研发提效解决方案

阿里技术

弹性数据库连接池探活策略调研(三)——DBCP | 京东云技术团队

京东科技开发者

数据库 数据库连接池 企业号9月PK榜 DBCP

为什么选择华为云云耀云服务器L实例作为轻量应用服务器?

轶天下事

轻量级云服务器推荐,华为云云耀L实例助你一臂之力

平平无奇爱好科技

华为云云耀云服务器L实例:中小企业和开发者的云端伙伴

平平无奇爱好科技

华为云云耀云服务器实例L:为企业提供安全可靠的轻量应用服务器架构

平平无奇爱好科技

七种 BeanDefinition,各显其能!

江南一点雨

Java spring

WorkPlus Meet | 私有化部署视频会议系统,实现安全高效跨屏协作的利器

WorkPlus

头部媒体经观传媒传依托博睿数据,将故障排查效率提升60%

博睿数据

可观测性 博睿数据

华为云BigData Pro解读: 鲲鹏云容器助力大数据破茧成蝶_云原生_华为云产品与解决方案_InfoQ精选文章