GMTC北京站9折购票最后一周,2022年大前端方向又有哪些技术热点? 了解详情
写点什么

怎样用 Hadoop 保护大数据?

  • 2019 年 11 月 11 日
  • 本文字数:2538 字

    阅读完需:约 8 分钟

怎样用Hadoop保护大数据?

随着大数据分析技术的发展,人们在不断地寻找更好的方法去保护他们的大数据。请阅读本文,了解 Hadoop 是如何通过网络安全的方法来保护大数据的。



Hadoop 是什么?

Hadoop 是用 Java 开发的开源编程系统,让用户可以在计算机环境里存储和处理大数据集。它由 Apache 项目创建,由 Apache 软件基金会主导开发。


有了 Hadoop,用户就可以在由几千台服务器组成的大型分布式系统上创建、运行和测试应用程序,甚至可以一次性地处理 TB 级的大数据。即使某台物理服务器宕机,Hadoop 的分布式文件系统也可以让系统继续工作,不会受到故障影响。这样就避免了数据损失的风险,以及由于多台物理服务器宕机而导致的主系统故障。


而且,Hadoop 也是大数据处理系统,可以完成各种处理任务,比如做销售和业务计划、科学分析、处理物联网业务等。


谈到网络安全,Hadoop 也让用户可以更容易地保存大数据,并在发现新的大数据漏洞时可以向所有人告警。我们将在这篇文章里解释如何用 Hadoop 实现网络安全,以及从长期来说如何保存你的大数据,来保证公司的安全运营。


Hadoop 与网络安全

谈到网络安全,Hadoop 可以保存你们公司产生的所有数据,无论数据量有多大。它可以让你处理用户、物联网、各种终端产生的所有信息,有了这些信息,才能对异常事务、可疑行为和其它威胁等进行精准分析。


有了 Hadoop,你就可以使用各式各样的开源或闭源的应用和机器学习技术,对当前面临的和未来将要出现的挑战也有了解决方案。


但网络安全问题却没有这么简单。十年前,我们以为有了SIEM和其它类似产品就已经足够了。我们相信它们可以提供我们需要的信息,帮助我们应对网络安全的挑战。


但当移动、云和物联网应用被开发出来以后,我们才知道 SIEM 系统还不够健壮,没办法对各种不同规模的大数据进行恰当处理,也不能依数据规模的不同而伸缩自如。SIEM 不是针对大规模数据的系统设计的,因此对发现网络底层隐藏的问题无法提供有帮助作用的分析性结果。


当网络专家们不能用 SIEM 做高级分析或保护他们的大数据时,那么能为保护网络而做的事看起来就很有限了。他们只能发现有限类型的攻击,或者稍稍高级并已知的攻击,仅此而已。



但当你使用 Hadoop 时,可供参考的安全用例集就大多了,你可以在很大程度上得到帮助。公司可以用用户行为分析法来缓解并发现内部威胁,分享威胁信息,并且定位网络内部的可疑活动。


网络安全主要处理三方面内容:改进事故响应、更好的事故检测和了解这些场景对你的业务的影响。使用 Hadoop 时,这三个方面都能适用,因为从设计上它就可以让你很容易地进行分析、情境理解和获取信息。


安全社区不会受某一种应用的洞察局限,从而让自己处于危险的境地。Hadoop 的灵活性可以帮你的团队找到问题的答案,而不是受限于各种不同安全程序的已有知识,以及可以对他们发出通知的系统。


Hadoop 还整合了开源和闭源技术,提供完整的网络安全防御机制。比如,在开源安全技术的支持下,它的开放式网络洞察(Open Network insights, ONI)网络最先通过大数据分析和开放数据模型为平台提供了高级的威胁检测解决方案。


Hadoop 的网络安全功能

Hadoop 提供了以下几方面最常见的的网络安全特性:


  • 全面性:Hadoop 为所有的告警总结、相关大数据和高级搜索选项提供了单一的视图。这样避免了信息过载,有助于冲突分析和解决。

  • 高速录入:大数据一直在产生,需要非常快速地对这些数据进行收集、存储和标准化,这样才能为进一步的高级分析和计算所用。

  • 实时处理:Hadoop 提供了实时处理功能,可以满足对地理信息、威胁信息等重要大数据信息的流式处理需求,它基于 DNS 的元数据也对调查每个数据漏洞提供了必要信息。

  • 高效:企业需要用廉价的大数据存储来保存数据,并且可以长期地反复对数据进行分析和挖掘。有了 Hadoop,用户就可以理解产生威胁的原因是什么、哪些数据被泄漏了、以及数据被发往了哪里。


Hadoop 如何存储大数据?

Hadoop 用分布式的方式存储大数据。假设你有 5G 数据,那可以修改 Hadoop 的配置,产生 1G 大小的数据块。于是数据会被切分到 5 个块里,因此会放到多个 DataNode 上,而且还会在不同的节点上创建大数据块的副本。因为我们用的都是商业硬件,存储空间还不成问题。


Hadoop 还解决了扩展的问题。大多数系统用的是纵向扩展的方案,而 Hadoop 用的是横向扩展。必要时你可以向 Hadoop 集群添加新的数据节点。为了存储 1TB 的数据,你并不需要一台具有 1TB 空间的设备,你可以使用多台 128GB 的设备,让它们一起来存储 1TB 的数据,这样可以避免空间的过度浪费。


Hadoop 怎样进行数据分析?

用 Hadoop 进行数据分析就非常简单了。你可以用 Hadoop 存储多种类型的数据,不管是非结构型的、半结构型的或结构型的。向 Hadoop 导入数据时不会预先做模式校验。而且它遵循一次写入多次读取的模式。因此,你可以在写入数据之后,多次进行读取分析,以找到有价值信息。


怎样才能更快地分析和处理数据?

用 Hadoop 做大数据分析的人都知道,处理大数据实在太困难了。为了解决这个问题,我们把算法发往数据,而不是把数据带给算法。这意味着我们不会先把数据收集到主节点之后再进行处理,而是用 MapReduce 算法来让数据处理过程变得更快。处理逻辑会被发往多个从节点,然后就在这些从节点上对大数据进行处理。处理过程结束后,再把处理结果发往主节点,通过它返回给客户端。Hadoop 的 YARN 架构中有 NodeManager 和 ResourceManager。可以把 ResouceManager 配置到 NameNode 所在的服务器上运行。但 NodeManager 要与 Data Node 运行在相同的服务器上。


结论

用 Hadoop 做数据分析对用户来说是个非常好的选择,他们可以专注于数据分析,而无需担心其它风险。即使数据量非常大,仍然可以放心地进行存储、处理和分析,不用担心这些过程会对网络流量造成多大影响。


正因如此,很多大数据公司都喜欢用 Hadoop 来作数据存储。它不只能保存你的大数据,它先进的网络安全思想也可以让数据保存变得更容易。


当你的团队意识到了 Hadoop 的好处,并学会了怎样使用它之后,你就会发现系统运营变得更容易了,因为你对可能发生的威胁和底层问题都了解得更清楚了。因此,如果你非常想优化你的大数据管理,并且希望能掌控它,请了解一下 Hadoop 吧!


英文原文:


Protecting Big Data with Hadoop: A Cyber Security Protection Guide


2019 年 11 月 11 日 16:001733

评论 1 条评论

发布
用户头像
标题是我关心的,但是好像并没有什么有用的内容
2019 年 11 月 12 日 10:31
回复
没有更多了
发现更多内容

微信读书又更新,吃灰已久的Pencil又能拿出来遛一遛了。

彭宏豪95

效率工具 读书 阅读 4月日更 微信读书

高效获取信息的几点经验

彭宏豪95

效率 信息 阅读 4月日更

Go 的 UTF-8 实现

Rayjun

utf-8 Go 语言

真的有那么丝滑吗?面试阿里(Java岗)从投简历到面试再到入职

互联网架构师小马

Java 面试 求职 阿里 找工作

掉坑了!GROUP_CONCAT函数引发的线上问题

AI乔治

Java MySQL 架构 GROUPING运算符

关于读书的随想

小天同学

读书 4月日更

太厉害了,终于有人能把Ansible讲的明明白白了,建议收藏

互联网老辛

ansible

产品训练营第三周作业

innovator琳

产品

ceph-csi源码分析(1)-组件介绍与部署yaml分析

良凯尔

Kubernetes 源码分析 Ceph CSI

DAPP系统开发运营版,DAPP系统开发案例源码

系统开发咨询1357O98O718

浅析 Linux 中的 I/O 管理

赖猫

Linux

如何利用 Google 开源工具 Ko 在 kubernetes 建并部署 Go 应用

公众号:云原生Serverless

Kubernetes 云原生

Redis-Cluster集群

Sakura

4月日更

封神总结!蚂蚁金服+滴滴+美团+拼多多+腾讯15万字Java面试题

Java架构追梦

Java 阿里巴巴 架构 面试 金三银四

基于NIO高性能、可扩展网络应用库:xSocket

六维

4月日更 xSocket

打通本地部署和公有云,混合云架构让“鱼”和“熊掌”兼得(一)

UCloud技术

混合云

封神总结!12W字“多线程与高并发实战手册”成功助我涨薪19K

比伯

Java 程序员 架构

一次用户故事拆分分享

Bruce Talk

敏捷 Agile 用户故事 User Story

内容平台与热点挖掘思考

程序员架构进阶

28天写作 4月日更 领域思考 内容平台

Golang 反射

escray

学习 极客时间 Go 语言 4月日更

思维训练

Ryan Zheng

读书有用吗

孙苏勇

读书

大数据-数据处理分类篇

进击的梦清

大数据 批处理 流式计算框架

Python OOP-2

若尘

面向对象 oop 面向对象编程 Python编程

介绍一款能取代 Scrapy 的爬虫框架 - feapder

星安果

Python 爬虫 Scrapy feapder

ARST-日常打卡3

pjw

深入汇编指令理解Java关键字volatile

AI乔治

Java 架构 volatile Java内存模型

Java最前沿技术——ZGC

AI乔治

Java 架构 jdk ZGC JVM

HZFE 快报002 / 比特币7年来首次跌破50天均线

HZFEStudio

大前端 金融科技 科技互联网 资讯

ceph-csi源码分析(2)-组件启动参数分析

良凯尔

Kubernetes 源码分析 Ceph CSI

iOS 面试策略之语言工具-Swift

iOSer

ios swift 面试

WAVE SUMMIT 2022 深度学习开发者峰会

WAVE SUMMIT 2022 深度学习开发者峰会

怎样用Hadoop保护大数据?_安全_Priya James_InfoQ精选文章