写点什么

Apache Ignite(三):核心特性之大数据处理、客户端和部署

  • 2015-12-28
  • 本文字数:2353 字

    阅读完需:约 8 分钟

本文是 Ignite 系列的第三篇介绍性文章,内容整体比较简略,和第二篇文章一起,大体上介绍了 Ignite 平台的所有关键技术点,方便大家有一个整体的认识,供技术选型时参考。

一、Spark 共享 RDD

Apache Ignite 提供了一个 Spark RDD 抽象的实现,他允许跨越多个 Spark 作业时方便地在内存内共享状态,不管是在同一个应用内部还是在不同的 Spark 应用之间。

IgniteRDD 作为 Ignite 分布式缓存的视图,既可以在 Spark 作业执行进程中部署,也可以在 Spark workder 中部署,也可以在他自己的集群中部署。

根据事先配置好的部署模型,状态共享既可以只存在于一个 Spark 应用的生命周期的内部(嵌入式模式),或者也可以存在于 Spark 应用的外部(独立模式),这种模式下状态可以在多个 Spark 应用之间共享。

特性一览

  1. 共享 Spark RDD: IgniteRDD 是原生 Spark RDD 的一个实现,DataFrame API 具有所有标准 RDD 的功能,并且 RDD 的状态可以在 Spark 作业、应用以及 worker 之间共享。
  2. 更快的 SQL: Spark 不支持 SQL 索引,但是 Ignite 可以,由于先进的内存索引功能,IgniteRDD 在执行 SQL 查询时比 Spark 原生 RDD 或者 DataFrame 有百倍的性能提升。

二、内存文件系统

Ignite 一个独有的技术就是分布式内存文件系统(IGFS),IGFS 提供了和 Hadoop HDFS 类似的功能,但是仅仅在内存内部。事实上,除了他自己的 API,IGFS 实现了 Hadoop 的文件系统 API,并且可以透明地加入 Hadoop 或者 Spark 应用。

IGFS 将每个文件中的数据拆分为独立的数据块然后将他们存储在分布式内存缓存中。然而和 Hadoop HDFS 不同,IGFS 不需要一个 name 节点,并且用一个哈希函数自动地确定文件数据位置。

IGFS 可以独立部署,也可以部署在 HDFS 之上,不管是哪种情况,他对于 HDFS 中存储的文件都是一个透明的缓存层。

特性一览

  1. 堆内和堆外: IGFS 既可以在堆内,也可以在堆外存储文件,对于更大的存储空间关键是利用堆外来避免长时间的 JVM 垃圾回收导致的暂停。
  2. IGFS 作为 Hadoop 文件系统: IGFS 实现了 Hadoop 的 FileSystem API,并且可以部署为原生的 Hadoop 文件系统,就像 HDFS 一样,这样就可以在 Hadoop 或者 Spark 环境中以即插即用的方式原生部署 IGFS。
  3. Hadoop 文件系统缓存: IGFS 也可以在另一个 Hadoop 文件系统上部署为一个缓存层。这种情况下,IGFS 中的一个文件如果发生变化,更新会被自动地写入 HDFS。此外,如果读取了一个文件并且当时他不在 IGFS 中,Ignite 会自动地将其从 HDFS 载入 IGFS。
  4. Hadoop 发行版: IGFS 集成了一个原生的 Apache Hadoop,也支持 Cloudera CDH 以及 Hortonworks HDP。

三、内存 MapReduce

Apache Ignite 带来了一个 Hadoop MapReduce API 的内存实现,他比原生的 Hadoop MapReduce 实现有了显著的性能提升。Ignite MapReduce 比 Hadoop 性能更好,是因为基于推的资源分配以及数据的进程内协同计算。

另外,因为 IGFS 不需要一个 name 节点,当使用 IGFS 时,Ignite MapReduce 作业会在一个链路内直达 IGFS 数据节点。

特性一览

  1. 原生 Hadoop MapReduce: Ignite MapReduce 是 Hadoop MapReduce API 的一个实现,他可以原生地加入已有的 Hadoop 环境,并且性能有很大的提升。
  2. Hadoop 加速: Ignite 提供了一个 Hadoop 的加速发行版,包括 IGFS 以及 Ignite MapReduce,这个环境可以很容易地加入已有的 Hadoop 环境。

四、客户端协议

对于客户端连接 Ignite 集群,Ignite 提供了若干种协议,包括 Ignite 原生客户端,REST/HTTP,SSL/TLS,Memcached,Node.js(正在开发中)等等。

详细说明如下:

  1. Ignite 原生客户端: 对于客户端远程连接 Ignite,原生客户端提供了完整的功能,他允许使用完整的 Ignite API,包括近缓存,事务,计算,流式处理,服务等等。
  2. Memcached: Ignite 兼容于 Memcached,他允许用户使用任何 Memcached 兼容客户端在 Ignite 缓存中保存以及获取分布式数据,包括 Java、PHP、Python、Ruby 以及其他的客户端。
  3. REST/HTTP: Ignite 提供了一个 HTTP REST 客户端,可以以 REST 的方式通过 HTTP 或者 HTTPS 协议进行通信。REST API 可以进行执行很多的操作,比如从缓存中读取,实行任务,获取各种度量等等。
  4. SSL/TLS: Ignite 允许在所有的 Ignite 客户端和服务端节点之间使用 SSL 进行 Socket 通信。
  5. Node.js(开发中): Ignite 未来会提供 Node.js 客户端,他能进行所有的缓存操作以及在 Ignite 中存储的 JSON 数据中执行 SQL 查询。

五、部署环境

Apache Ignite 可以独立运行,在集群中运行,在 Docker 容器中运行,还可以运行在 Apache Mesos 以及 Hadoop Yarn 环境。他可以在物理机上运行,也可以在虚拟机上运行。

特性一览

  1. 独立集群: Ignite 节点之间会自动感知,这有助于集群的可扩展性,而不需要重启集群,简单地启动新加入的节点然后他们就是自动地加入集群。
  2. Docker 容器: Docker 可以将 Ignite 及其所有的依赖打包进一个标准的映像。Docker 下载 Ignite 版本映像之后,就可以将用户的应用部署进 Ignite,配置节点,他会自动启动整个配置后的 Ignite 节点。
  3. 公共云: 对于公共云环境,Ignite 原生地集成了 Amazon AWS 和 GCE,对于其他的云环境,Ignite 集成了 Apache JCloud,他支持大多数已有的云服务商。
  4. Apache Mesos: Ignite 提供了 Apache Mesos 的原生支持,可以很容易地将 Ignite 部署进 Mesos 数据中心,比如 Hadoop 和 Spark 环境。
  5. Hadoop Yarn: Ignite 提供了 Hadoop Yarn 的原生支持,可以很容易地将 Ignite 部署进 Hadoop 和 Spark 环境。

感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-12-28 17:4817373

评论

发布
暂无评论
发现更多内容

Java灵魂拷问13个为什么,你都会哪些?

不在线第一只蜗牛

Java Python

论云游戏的性能与性价比,ToDesk、青椒云、顺网云游戏等具体实操看这篇就够了

小喵子

云桌面 云电脑 云游戏 ToDesk

Project Office X Pro for Mac专业的项目管理软件

Mac相关知识分享

搭乘“数字快车”!双十一华为云Flexus云服务器X实例助力轻松上云

YG科技

9大行业伙伴携手并行,1.5万余个行业应用启动鸿蒙化开发

最新动态

ppt结尾页怎么设计?推荐12个高颜值ppt结束页模板!

职场工具箱

效率工具 职场 PPT 办公软件 AI生成PPT

BSC链近况及解读:BSC链代币DApp开发详解

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 交易所开发代币开发

《Django 5 By Example》阅读笔记:p76-p104

codists

Python django

大模型推荐系统如何高效预训练和推理

博文视点Broadview

课程质量评估系统(源码+文档+部署+讲解)

深圳亥时科技

ECCV2024 | 京东零售广告创意:基于人类反馈的可信赖图像生成

京东零售技术

论文解读 ECCV 2024

性能越级、体验超群!双十一企业云服务首选华为云 Flexus X实例

YG科技

柔性算力、行业首创!双十一华为云Flexus云服务器X实例革新轻量云体验

YG科技

Rust + 云原生 | Greptime 在 COSCon'24 中国开源年会上说了什么?

Greptime 格睿科技

数据库 开源 rust 云原生 活动

苹果电脑SVN管理工具:Cornerstone 4 for Mac 免激活版

你的猪会飞吗

cornerstone 4破解 cornerstone 4 破解版 cornerstone 4许可 cornerstone 4下载

无代码技术怎么兴起的?它对企业数字化转型有什么用处?

积木链小链

技术分享 无代码 无代码平台

区块链智能合约开发:全面解析与实践指南

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发 公链开发

暗黑破坏神II:狱火重生(暗黑破坏神2重制版)中文安装包

理理

App Cleaner & Uninstaller:Mac 用户的必备清理卸载神器!

理理

性能全面跃级,成本大幅降低!双十一企业云服务就选华为云Flexus X实例

YG科技

Python中哪个框架最适合做API?

科普小能手

API Python框架 Python开发 pyton API 接口

苹果电脑多系统运行就用VM虚拟机(含VMware13安装教程及密钥)

理理

Go中数组和切片

EquatorCoco

c++ Go 算法

文心快码3.0 引领智能代码助手率先进入智能体时代

百度安全

Final Cut Pro中文教程:遮罩的基本使用

理理

柔性算力、业界首创!双十一华为云Flexus X实例革新云服务体验

YG科技

远程踏勘系统(源码+文档+部署+讲解)

深圳亥时科技

CDN海外加速对国际服务器的效果如何?

Ogcloud

CDN 网络加速 CDN加速 海外网络加速 CDN网络加速

5分钟搞懂 Golang 堆内存

俞凡

golang

SEO-AI内容生成策略

Quincy

CMS SEO SEO优化 AI 基础设施

国科云:SSL证书配置过程中常见问题盘点

国科云

Apache Ignite(三):核心特性之大数据处理、客户端和部署_开源_李玉珏_InfoQ精选文章