大数据容器化，头部玩家尝到了甜头？_架构_司马懿

阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见，现购票可享受 9 折优惠｜AICon 了解详情 



 写点什么

大数据的需求热度，从来都是这个时代的风口浪尖。

然而由于大数据系统的复杂性，一度导致业界大数据已死的各种声音质疑不断。尤其当 MapR 被 HPE 收购，Cloudera 公司股票持续断崖式下跌，叫衰之声进而进一步放大。其实，大数据的需求一直在，只是传统的大数据实现系统需要考虑重新构建，而容器依靠其自身标准化、一次构建随处运行的能力，非常适合用于大数据系统的构建和管理。容器技术当前正是那只火遍全球的当红辣子鸡。

华为云 BigData Pro 大数据解决方案荣获行业年度金奖

12 月 3 日晚，2019 年度中国数据与存储峰会年度颁奖典礼上，华为云 BigData Pro 大数据解决方案荣获“2019 年度大数据产品金奖”，再一次展示了华为云在大数据领域的不凡实力。中国数据与存储峰会（DSS）是国内顶级的数据与存储领域技术盛会，其颁发的奖项颇具含金量，在十多年间见证了国内数据存储技术和行业的迅猛发展。此次评选范围涉及私有云大数据、公有云大数据、大数据软件、大数据解决方案等多个领域和维度。本次华为云 BigData Pro 能一举拿下该奖项，也是实至名归。

大数据容器化，大势所趋

目前已经有大量的大数据系统原生支持 on Kubernetes，例如 Spark 官方版本，从 2.3 开始，就可以无需任何修改直接跑在 K8s 上。不仅如此，“更好地在 K8s 上运行”已成为后续版本演进的的重大策略， K8s 对大数据系统的重要性可见一斑。

队友已在加速，你感受到了么

鉴于容器技术对大数据具有良好助推作用，已经有不少技术嗅觉敏锐的头部玩家在此尝到了甜头。

短短几年间，行业已涌现出多个正面案例，中国联通的容器化大数据平台已实践，京东在使用 Kubernetes 管理大数据中心，网易基于 Kubernetes 和 Docker 构建构建了猛犸大数据平台，茄子科技直接将大数据任务大量在生产环境跑在 K8s 之上，华为云 DLI 服务容器化，阿里云 Flink on K8s 等。不言而喻，容器技术助力大数据分析，已广泛应用于各行各业，与其艰难维护自身的庞大的大数据系统，停下来看看业内的趋势、思考当前的应对措施方为良策。

BigData on K8s 最直接的优势并非性能提升，而是成本下降。

（1）高利用率的资源调度平台。原来分散在多个集群中的业务，可以合并到统一的集群中，加上长任务短任务混部及不同业务高峰时间的削峰填谷，来最大化提升集群资源利用率。

（2）统一的技术栈。原有的 Yarn 调度，节点管理技术，与当下宇宙标准 K8s 集群调度系统，目标是一样的。但是维护 2 种技术栈，就得增加研发人力成本，统一的基础设施技术栈，降成本效果明显。

（3）容器自动化能力。标准化是推动 IT 技术持续发展的原动力之一。容器技术本身理念就是一次构建，随处运行，这个与标准化理念是一致的。通过容器技术的标准化实施，并整合容器生态，建立运维系统。可以很好的降低业务系统的运维成本，甚至运维工具本身的构建和使用成本。

容器 + 存算分离，要速度也要成本

当前的大数据计算将计算和存储结合的模式，是分布式架构构建的一种尝试。但是当社区修改 HDFS 以支持 Hadoop 3.0 的 ErasureCode（纠删码）时，即接受了：不再支持就近读取的策略。它代表了一种新趋势：为了适应不同场景，存储空间和算力配比应该是灵活的，可以分别独立构建。

IDC 中国报告指出：“解耦计算和存储在大数据部署中被证明是有用的，它提供了更高的资源利用率，更高的灵活性和更低的成本。”这一论断与很多企业正在进行的大数据架构变革不谋而合。

同时，伴随着容器技术的成熟及在各行业深入广泛的应用，企业愈发意识到容器技术的优势能很好解决大数据平台当前所遭遇的困境。容器以其更小颗粒度的算力分配、更轻量和快捷的部署方式、灵活的任务调度等特点，可以进一步提升资源利用率，并轻松应对大批量任务并发时的算力扩容。

鲲鹏之上，火山助力

华为云自主研发的鲲鹏处理器，具备多核高并发能力可为用户提供包括裸金属服务器、云服务器、容器和 Serverless 在内的多种粒度的算力，大数据分布式场景性能可大幅提升。

其中鲲鹏大数据容器，具有极致弹性的调度能力，可以每秒发放 1000 容器，减少资源弹性等待时间，提升计算效率。而裸金属容器技术，由于大幅降低虚拟化开销，可更进一步提升服务器执行业务的利用率。采用 Serverless 模式的容器集群，可以很好地支持按需弹性无限扩展，用来执行 Spark 大数据任务，轻松处理 PB 级数据作业。

Volcano 项目是华为容器团队开源的一款 K8s 增强型调度器。初衷是为了解决原生 K8s 不支持 Gang Scheduling 问题，后来由于 AI 和大数据等业务领域也开始对 K8s 有极大诉求，团队成员通过总结具体场景实践经验，将其打造成有价值的技术产品，并贡献社区。

Volcano 通过高性能的调度算法，达到更高的容器调度速度。同时，自带的多种算法插件，可以极大地提升集群资源利用率。此外，Volcano 也补齐了 K8s 原生调度器与 Yarn 调度器间的 Gap，例如资源的队列管理（Queue）能力等，大大提升了容器大数据技术的性能。

容器技术为华为云 BigData Pro 解决方案助力

BigData Pro 是业界首个鲲鹏大数据解决方案，该方案采用基于公有云的存算分离架构，以可无限弹性扩容的鲲鹏算力作为计算资源，以支持原生多协议的 OBS 对象存储服务为统一的存储数据湖，提供“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案，大幅提升了大数据集群的资源利用率，能有效应对当前大数据行业存在的瓶颈，帮助企业应对 5G+ 云 + 智能时代的全新挑战，实现企业智能化转型升级。

发布

暂无评论

创作场景

大数据容器化，头部玩家尝到了甜头？

华为云 BigData Pro 大数据解决方案荣获行业年度金奖

大数据容器化，大势所趋

队友已在加速，你感受到了么

容器 + 存算分离，要速度也要成本

鲲鹏之上，火山助力

容器技术为华为云 BigData Pro 解决方案助力

评论

与前端训练营的日子 --Week11

开发复杂业务系统，有哪些设计思路

实时媒体AI，打破内容创作天花板，加速视频创新

Java 异常处理

盘点2020| 开启小马哥的新未来

低代码开发技术

港股配资系统搭建

智汇华云 | 安超OS为企业数字化转型构建坚实的云基座

每个人都拥有这项神技能

okhttp3 第一次使用

智能合约上链系统开发|智能合约上链APP软件开发

看图学NumPy：掌握n维数组基础知识点，看这一篇就够了

从美国《拜杜法案》到中国供应链体系形成的内在逻辑

微信视频号常见问题 | 视频号 28 天 (06)

【PS】给黑白照片上色

大型企业引进低代码开发技术是大趋势

Redis 学习笔记 02：链表

Android开发时的多点触控是如何实现的？

进来抄作业：分布式系统中保证高可用性的常用经验

科技赋能传统产业：工业绿色可视化—核电站工艺流程组态仿真

Serverless 在 SaaS 领域的最佳实践

快抛弃你错误的坚持

APICloud的发展和应用

跨越全场景统一架构三大挑战，MindSpore亮出“四招”

重学JS | 异步编程 Generator()

Socket粘包问题终极解决方案—Netty版（2W字）！

十八般武艺玩转GaussDB(DWS)性能调优：路径干预

调查bug的手段有哪些？（没有调查，就没有发言权，二）Jan 13, 2021

知乎问答：“既然生命无意义，为什么要活着？”

高频量化交易机器人系统开发|高频量化交易机器人APP软件开发

软件测试--selenium安装使用

创作场景

大数据容器化，头部玩家尝到了甜头？

华为云 BigData Pro 大数据解决方案荣获行业年度金奖

大数据容器化，大势所趋

队友已在加速，你感受到了么

容器 + 存算分离，要速度也要成本

鲲鹏之上，火山助力

容器技术为华为云 BigData Pro 解决方案助力

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载