AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

怎样用 Hadoop 保护大数据?

  • 2019-11-11
  • 本文字数:2538 字

    阅读完需:约 8 分钟

怎样用Hadoop保护大数据?

随着大数据分析技术的发展,人们在不断地寻找更好的方法去保护他们的大数据。请阅读本文,了解 Hadoop 是如何通过网络安全的方法来保护大数据的。


Hadoop 是什么?

Hadoop 是用 Java 开发的开源编程系统,让用户可以在计算机环境里存储和处理大数据集。它由 Apache 项目创建,由 Apache 软件基金会主导开发。


有了 Hadoop,用户就可以在由几千台服务器组成的大型分布式系统上创建、运行和测试应用程序,甚至可以一次性地处理 TB 级的大数据。即使某台物理服务器宕机,Hadoop 的分布式文件系统也可以让系统继续工作,不会受到故障影响。这样就避免了数据损失的风险,以及由于多台物理服务器宕机而导致的主系统故障。


而且,Hadoop 也是大数据处理系统,可以完成各种处理任务,比如做销售和业务计划、科学分析、处理物联网业务等。


谈到网络安全,Hadoop 也让用户可以更容易地保存大数据,并在发现新的大数据漏洞时可以向所有人告警。我们将在这篇文章里解释如何用 Hadoop 实现网络安全,以及从长期来说如何保存你的大数据,来保证公司的安全运营。

Hadoop 与网络安全

谈到网络安全,Hadoop 可以保存你们公司产生的所有数据,无论数据量有多大。它可以让你处理用户、物联网、各种终端产生的所有信息,有了这些信息,才能对异常事务、可疑行为和其它威胁等进行精准分析。


有了 Hadoop,你就可以使用各式各样的开源或闭源的应用和机器学习技术,对当前面临的和未来将要出现的挑战也有了解决方案。


但网络安全问题却没有这么简单。十年前,我们以为有了SIEM和其它类似产品就已经足够了。我们相信它们可以提供我们需要的信息,帮助我们应对网络安全的挑战。


但当移动、云和物联网应用被开发出来以后,我们才知道 SIEM 系统还不够健壮,没办法对各种不同规模的大数据进行恰当处理,也不能依数据规模的不同而伸缩自如。SIEM 不是针对大规模数据的系统设计的,因此对发现网络底层隐藏的问题无法提供有帮助作用的分析性结果。


当网络专家们不能用 SIEM 做高级分析或保护他们的大数据时,那么能为保护网络而做的事看起来就很有限了。他们只能发现有限类型的攻击,或者稍稍高级并已知的攻击,仅此而已。



但当你使用 Hadoop 时,可供参考的安全用例集就大多了,你可以在很大程度上得到帮助。公司可以用用户行为分析法来缓解并发现内部威胁,分享威胁信息,并且定位网络内部的可疑活动。


网络安全主要处理三方面内容:改进事故响应、更好的事故检测和了解这些场景对你的业务的影响。使用 Hadoop 时,这三个方面都能适用,因为从设计上它就可以让你很容易地进行分析、情境理解和获取信息。


安全社区不会受某一种应用的洞察局限,从而让自己处于危险的境地。Hadoop 的灵活性可以帮你的团队找到问题的答案,而不是受限于各种不同安全程序的已有知识,以及可以对他们发出通知的系统。


Hadoop 还整合了开源和闭源技术,提供完整的网络安全防御机制。比如,在开源安全技术的支持下,它的开放式网络洞察(Open Network insights, ONI)网络最先通过大数据分析和开放数据模型为平台提供了高级的威胁检测解决方案。

Hadoop 的网络安全功能

Hadoop 提供了以下几方面最常见的的网络安全特性:


  • 全面性:Hadoop 为所有的告警总结、相关大数据和高级搜索选项提供了单一的视图。这样避免了信息过载,有助于冲突分析和解决。

  • 高速录入:大数据一直在产生,需要非常快速地对这些数据进行收集、存储和标准化,这样才能为进一步的高级分析和计算所用。

  • 实时处理:Hadoop 提供了实时处理功能,可以满足对地理信息、威胁信息等重要大数据信息的流式处理需求,它基于 DNS 的元数据也对调查每个数据漏洞提供了必要信息。

  • 高效:企业需要用廉价的大数据存储来保存数据,并且可以长期地反复对数据进行分析和挖掘。有了 Hadoop,用户就可以理解产生威胁的原因是什么、哪些数据被泄漏了、以及数据被发往了哪里。

Hadoop 如何存储大数据?

Hadoop 用分布式的方式存储大数据。假设你有 5G 数据,那可以修改 Hadoop 的配置,产生 1G 大小的数据块。于是数据会被切分到 5 个块里,因此会放到多个 DataNode 上,而且还会在不同的节点上创建大数据块的副本。因为我们用的都是商业硬件,存储空间还不成问题。


Hadoop 还解决了扩展的问题。大多数系统用的是纵向扩展的方案,而 Hadoop 用的是横向扩展。必要时你可以向 Hadoop 集群添加新的数据节点。为了存储 1TB 的数据,你并不需要一台具有 1TB 空间的设备,你可以使用多台 128GB 的设备,让它们一起来存储 1TB 的数据,这样可以避免空间的过度浪费。

Hadoop 怎样进行数据分析?

用 Hadoop 进行数据分析就非常简单了。你可以用 Hadoop 存储多种类型的数据,不管是非结构型的、半结构型的或结构型的。向 Hadoop 导入数据时不会预先做模式校验。而且它遵循一次写入多次读取的模式。因此,你可以在写入数据之后,多次进行读取分析,以找到有价值信息。

怎样才能更快地分析和处理数据?

用 Hadoop 做大数据分析的人都知道,处理大数据实在太困难了。为了解决这个问题,我们把算法发往数据,而不是把数据带给算法。这意味着我们不会先把数据收集到主节点之后再进行处理,而是用 MapReduce 算法来让数据处理过程变得更快。处理逻辑会被发往多个从节点,然后就在这些从节点上对大数据进行处理。处理过程结束后,再把处理结果发往主节点,通过它返回给客户端。Hadoop 的 YARN 架构中有 NodeManager 和 ResourceManager。可以把 ResouceManager 配置到 NameNode 所在的服务器上运行。但 NodeManager 要与 Data Node 运行在相同的服务器上。

结论

用 Hadoop 做数据分析对用户来说是个非常好的选择,他们可以专注于数据分析,而无需担心其它风险。即使数据量非常大,仍然可以放心地进行存储、处理和分析,不用担心这些过程会对网络流量造成多大影响。


正因如此,很多大数据公司都喜欢用 Hadoop 来作数据存储。它不只能保存你的大数据,它先进的网络安全思想也可以让数据保存变得更容易。


当你的团队意识到了 Hadoop 的好处,并学会了怎样使用它之后,你就会发现系统运营变得更容易了,因为你对可能发生的威胁和底层问题都了解得更清楚了。因此,如果你非常想优化你的大数据管理,并且希望能掌控它,请了解一下 Hadoop 吧!


英文原文:


Protecting Big Data with Hadoop: A Cyber Security Protection Guide


2019-11-11 16:002296

评论 1 条评论

发布
用户头像
标题是我关心的,但是好像并没有什么有用的内容
2019-11-12 10:31
回复
没有更多了
发现更多内容

格创东智选择TDengine,实现海量数据实时全生命周期管理

TDengine

数据库 大数据 tdengine

谈B端产品技术团队的核心价值(1/100)

hackstoic

团队建设

书单 | 2021年度经典畅销佳作盘点!

博文视点Broadview

7.3万字肝爆Java8新特性,我不信你能看完!(建议收藏)

冰河

程序员 java8 编程基础 Lamdba表达式 Stream API

linux学习零基础教学课程:Linux文件系统结构

侠盗安全

Linux 运维 运维工程师 云计算架构师

呼和浩特市等保测评公司在哪里?联系电话多少?

行云管家

等保 等级保护 等保测评

盘点2021 | 也无风雨也无晴-转行三年,再度出发

Geek_rze78a

程序员 转行 人生修炼 盘点2021 盘点 2021

荣获中国专利金奖!百度连续四年AI专利申请和授予量全国第一

百度大脑

人工智能

关于 Apache Flink 和实时计算的最新动态、未来方向,你想知道的都在这里

Apache Flink

大数据 flink 编程 后端 实时计算

图解MongoDB集群部署原理(3)

Tom弹架构

注意,你所做的A/B实验,可能是错的!

字节跳动数据平台

大数据 测试 AB 增长黑客

邮储银行新一代个人业务核心系统国际汇款业务上线,openGauss核心应用再创新高度

绥北人民法院:用宜搭打造“线上法庭”,让群众少跑腿

一只大光圈

低代码 数字化转型 法院 钉钉宜搭

微信小程序获取位置信息

程思扬

小程序 小程序云开发 开发者 开发 小程序生态

政法委多部门联防联控平台,重点人员联防联控平台建设

a13823115807

Linux之目录结构

入门小站

云基华海正式加入openGauss社区

大数据SQL优化之数据倾斜解决案例全集

安第斯智能云

数据

鸿鹄元数正式加入openGauss社区

百度飞桨EasyDL桌面版正式上线,没网也能训练AI!

百度大脑

人工智能

构建测试的体系化思维(基础篇)

BY林子

软件测试 测试思维

开源堡垒机是什么?开源堡垒机的优缺点是什么?

行云管家

开源 网络安全 堡垒机 开源堡垒机

性能提升一个数量级,Java大杀器来了!Java冷启动问题的成因与解决

华章IT

Java

全新缓存组件,大幅加速云上飞桨分布式训练作业

百度开发者中心

飞桨

MariaDB 到 MySQL 整库迁移(qbit)

qbit

MySQL MariaDB 数据导入 数据导出

微服务架构 | 如何让接口权限继续继承下去?

李尚智

Auth2 OAuth 2.0 SpringCloud Alibaba spring aop Java 开发

2021年我读过的52本书

SkyFire

c++ 个人成长 总结 读书 计算机

“千言”开源数据集项目全面升级:数据驱动AI技术进步

百度大脑

人工智能

在线JSON转HTML,TABLE表格工具

入门小站

工具

多种网络设备的优缺点及网络故障的排除方法

恒生LIGHT云社区

故障 网络设备

程序员非常实用的十个工具网站,值得收藏

AlwaysBeta

怎样用Hadoop保护大数据?_安全_Priya James_InfoQ精选文章