在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

Docker 将会让 Hadoop 部署更加简单快捷

  • 2015-06-24
  • 本文字数:1761 字

    阅读完需:约 6 分钟

近日,第八届全球 Hadoop 技术峰会在美国加州硅谷召开。作为全球规模最大的 Hadoop 盛会,本次会议吸引了大量的数据服务技术提供商和使用数据产品的企业的参加。在会议上,多家企业进行了 Hadoop 技术相关的报告。其中,很多企业谈到了开源容器引擎 Docker 对 Hadoop 的影响。接下来,本文就针对这些企业的报告及相关讨论内容进行摘要介绍。

BlueData 公司产品部的副总裁 Anant Chintamaneni 给出了“利用 Apache Ambari 进行自助配置和 Hadoop 管理”的报告。该公司由 VMware 公司的资深元老 Kumar Sreekant 和 Tom Phelan 在 2012 年创建。作为一家大数据框架软件的供应商,BlueData 之前推出了 EPIC 软件平台。EPIC 平台可以在任何硬件、任何服务器和任何存储环境下工作,简化大数据框架的部署工作。其目标在于实现 Hadoop 在任何私有数据中心中的直接部署。这样,用户利用 EPIC 就可以解决 I/O 性能瓶颈问题,并实现在虚拟化框架中多用户和多租户的便捷管理。在 EPIC 平台的免费版 EPIC Lite 中,BlueData 加入了对 Docker 容器的支持。它允许用户在笔记本电脑的 Docker 容器中启动虚拟 Hadoop 或者 Spark 集群。

Anant 在报告中指出,EPIC 选择支持 Docker 的主要原因在于,这种做法可以在保持容器简单性以及系统性能的同时,享受大数据应用程序虚拟化所带来的好处。BlueData 公司试图让开发人员和数据专家可以非常容易的创建所需要的集群,从而获得类似于 Cloudera 或 Hortonworks 的功能。只要用户通过笔记本电脑访问 Hadoop,享受了这其中所带来的好处,自然会申请使用支持多用户和多租户的企业版。MapR 公司的产品管理部副总裁 Tomer Shiran 表示,随着越来越多的人喜欢 Docker 容器,像 BlueData 这样的公司把 Docker 加入到所支持的 hypervisor 中也越来越有意义。几天前,BlueData 公司刚刚公布了 EPIC 的夏季发布版——1.5 版本。该版本集成了 Apache Ambari 和 Cloudera Manager,能够支持新版本的 Hadoop 和 Spark。

此外,作为一家 Hadoop 初创公司,Hortonworks 共进行了十几场报告。其中,该公司软件工程师Sidharta Seethana 与Altiscale 公司的高级软件工程师Abin Shahab 联合展示了一些把Docker 融入到Apache Hadoop YARN 的方案。作为一家“Hadoop 即服务”(Hadoop-as-a-Service)方案的提供商,Altiscale 之前已经决定在Docker 容器中运行Hadoop。尽管这种做法需要在没有YAR N 支持的情况下直接管理 Docker 容器,该公司却发现这种方法具有可重复性和可自动化这两种优点。

Hortonworks 则采用了两种方法来利用 Docker 容器运行 Hadoop。第一种方法是用 Docker 来直接运行 Hadoop。目前,这种做法需要用到 Cloudbreak 和 Hortonworks Data Platform(HDP)。通过使用 Docker 镜像,它可在微软 Azure、亚马逊 AWS、谷歌云平台等任何主流云平台上启动 HDP。第二种方法是通过 YARN 来使用 Docker 容器进行应用部署。HDP2.2 版本的技术预览中已经提到了该特性。

Hortonworks 的产品管理部副总裁 Tim Hall 表示,Docker 提供了一种完美隔离和打包 Hadoop 相关的应用程序的方法。该公司也在观察 Slider 框架和 Docker 如何能够一起合作来简化此类的部署工作。目前,Hortonworks 的一个客户已经在考虑他们自己的数据平台利用 HDP 支持 Docker 的方法。他们利用 Cloudbreak 在云中的 Docker 容器中部署 Hadoop,并计划把他们自己的数据应用程序制作成 Docker 镜像以便在 YARN 上运行。此外,很多用户也因为这种方式的敏捷性和兼容性,利用其进行未知环境的部署。

Hall 指出,与传统的在虚拟机或者 OpenStack 中使用 Hadoop 相比较,在 Docker 中运行 Hadoop 的好处包括了安装迅速、开发和产品采用同样的流程和镜像、单节点和多节点相同的流程等。而在 YARN 中运行 Docker 化的应用程序的好处包括更好的软件隔离性、开发和产品采用同样的流程和镜像以及应用程序更好的分发和版本控制。此外, Hall 透露,大数据应用的开发人员越来越倾向于利用 Docker 来运行其应用程序。而且,直接在裸机上运行 Docker 的趋势也越来越明显。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-06-24 04:086776
用户头像

发布了 268 篇内容, 共 138.8 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

Topaz Gigapixel AI for Mac激活(图片无损放大软件) v6.3.2

真大的脸盆

Mac Mac 软件 图片无损放大 图片放大工具

IPQ8072 or IPQ8072A with the QCN9074/9024 chipset / well-suited for high-end routers.

Cindy-wallys

IPQ8072

开发神技!阿里消息中间件进阶手册限时开源,请接住我的下巴

Java kafka 分布式 MQ 消息中间件

MSE 自治服务帮你快速定位解决 Dubbo 重复订阅导致 RPC 服务注册失败问题

阿里巴巴云原生

阿里云 云原生 dubbo MSE

SpringBoot 中异步任务实现及自定义线程池执行异步任务

Java Spring Boot

Openjob:更强大、更智能的分布式任务调度框架,重磅发布!

stelin

java; 后端、 分布式,

低代码开发平台魔笔 X 浙江广电集团:“10天”成为行业最小创新单位!

移动研发平台EMAS

阿里云 低代码开发 魔笔

大数据如何助力营销(5)活动复盘

MobTech袤博科技

云纳管是什么意思?云纳管平台哪个好?

行云管家

云计算 云服务 云平台 云管平台 云纳管

肝到头秃!百度强推并发编程笔记我爱了,原来这才叫并发

Java 并发编程

ChatGPT的原理与前端领域实践 | 京东云技术团队

京东科技开发者

人工智能 前端 ChatGPT 企业号 5 月 PK 榜

真香!阿里最新产出分布式进阶实战手册,涵盖分布式架构所有操作

Java你猿哥

架构 分布式 微服务 Spring Cloud Spring Boot

阿里微服务实施手册我粉了,原来微服务还可以这样玩

Java 架构 微服务 Spring Cloud

惊艳!腾讯强推599页Netty进阶神技,完美诠释Netty

Java Netty

新一代企业数字化联盟成立,“强强联手”搭建品牌服务生态

数划云

数字化 全面预算管理 新一代企业数字化联盟 数划云 绩效分析

软件测试/测试开发丨学习笔记之Pytest使用

测试人

Python 软件测试 自动化测试 测试开发 pytest

【等保】等保全称是什么?英文咋说?

行云管家

等保 等级保护 等保2.0

Abaqus非线性问题预览及求解

思茂信息

仿真软件 abaqus abaqus软件 abaqus有限元仿真 有限元仿真技术

京东购物车如何提升30%性能 | 京东云技术团队

京东科技开发者

性能优化 RPC 企业号 5 月 PK 榜 京东购物车 异步改造

Github星标百万!终于有人将Spring技术精髓收录成册

Java spring 框架

Deferred Components-实现Flutter运行时动态下发Dart代码 | 京东云技术团队

京东科技开发者

flutter dart 企业号 5 月 PK 榜 Deferred Components

并发编程-常见并发工具BlockingQueue的使用及原理解析

Java 并发编程 BlockingQueue

PoseiSwap:为何青睐 Layer3?又为何选择 Celestia 作为技术伙伴?

鳄鱼视界

Serverless冷扩机器在压测中被击穿问题 | 京东云技术团队

京东科技开发者

Serverless GC 击穿 企业号 5 月 PK 榜 Serverless扩容

探索未来智能交通:网联汽车与汽车互联

EMQ映云科技

车联网 物联网 智能交通 汽车互联

深度学习基础入门篇[9.3]:卷积算子:空洞卷积、分组卷积、可分离卷积、可变性卷积等详细讲解以及应用场景和应用实例剖析

汀丶人工智能

人工智能 深度学习 卷积网络 空洞卷积 分组卷积

深度学习基础入门篇[10]:序列模型-词表示{One-Hot编码、Word Embedding、Word2Vec、词向量的一些有趣应用}

汀丶人工智能

人工智能 深度学习 nlp 词向量 序列模型

OpenHarmony支持HDMI接口声卡适配说明

OpenHarmony开发者

OpenHarmony

kafka生产者你不得不知的那些事儿

JAVA旭阳

Java kafka

Java性能优化实践与策略

xfgg

Java 优化 规范

Kafka生产者你不得不知的那些事儿

Docker将会让Hadoop部署更加简单快捷_语言 & 开发_张天雷_InfoQ精选文章