发布在即!企业 AIGC 应用程度测评,3 步定制专属评估报告。抢首批测评权益>>> 了解详情
写点什么

怎样用 Hadoop 保护大数据?

  • 2019-11-11
  • 本文字数:2538 字

    阅读完需:约 8 分钟

怎样用Hadoop保护大数据?

随着大数据分析技术的发展,人们在不断地寻找更好的方法去保护他们的大数据。请阅读本文,了解 Hadoop 是如何通过网络安全的方法来保护大数据的。


Hadoop 是什么?

Hadoop 是用 Java 开发的开源编程系统,让用户可以在计算机环境里存储和处理大数据集。它由 Apache 项目创建,由 Apache 软件基金会主导开发。


有了 Hadoop,用户就可以在由几千台服务器组成的大型分布式系统上创建、运行和测试应用程序,甚至可以一次性地处理 TB 级的大数据。即使某台物理服务器宕机,Hadoop 的分布式文件系统也可以让系统继续工作,不会受到故障影响。这样就避免了数据损失的风险,以及由于多台物理服务器宕机而导致的主系统故障。


而且,Hadoop 也是大数据处理系统,可以完成各种处理任务,比如做销售和业务计划、科学分析、处理物联网业务等。


谈到网络安全,Hadoop 也让用户可以更容易地保存大数据,并在发现新的大数据漏洞时可以向所有人告警。我们将在这篇文章里解释如何用 Hadoop 实现网络安全,以及从长期来说如何保存你的大数据,来保证公司的安全运营。

Hadoop 与网络安全

谈到网络安全,Hadoop 可以保存你们公司产生的所有数据,无论数据量有多大。它可以让你处理用户、物联网、各种终端产生的所有信息,有了这些信息,才能对异常事务、可疑行为和其它威胁等进行精准分析。


有了 Hadoop,你就可以使用各式各样的开源或闭源的应用和机器学习技术,对当前面临的和未来将要出现的挑战也有了解决方案。


但网络安全问题却没有这么简单。十年前,我们以为有了SIEM和其它类似产品就已经足够了。我们相信它们可以提供我们需要的信息,帮助我们应对网络安全的挑战。


但当移动、云和物联网应用被开发出来以后,我们才知道 SIEM 系统还不够健壮,没办法对各种不同规模的大数据进行恰当处理,也不能依数据规模的不同而伸缩自如。SIEM 不是针对大规模数据的系统设计的,因此对发现网络底层隐藏的问题无法提供有帮助作用的分析性结果。


当网络专家们不能用 SIEM 做高级分析或保护他们的大数据时,那么能为保护网络而做的事看起来就很有限了。他们只能发现有限类型的攻击,或者稍稍高级并已知的攻击,仅此而已。



但当你使用 Hadoop 时,可供参考的安全用例集就大多了,你可以在很大程度上得到帮助。公司可以用用户行为分析法来缓解并发现内部威胁,分享威胁信息,并且定位网络内部的可疑活动。


网络安全主要处理三方面内容:改进事故响应、更好的事故检测和了解这些场景对你的业务的影响。使用 Hadoop 时,这三个方面都能适用,因为从设计上它就可以让你很容易地进行分析、情境理解和获取信息。


安全社区不会受某一种应用的洞察局限,从而让自己处于危险的境地。Hadoop 的灵活性可以帮你的团队找到问题的答案,而不是受限于各种不同安全程序的已有知识,以及可以对他们发出通知的系统。


Hadoop 还整合了开源和闭源技术,提供完整的网络安全防御机制。比如,在开源安全技术的支持下,它的开放式网络洞察(Open Network insights, ONI)网络最先通过大数据分析和开放数据模型为平台提供了高级的威胁检测解决方案。

Hadoop 的网络安全功能

Hadoop 提供了以下几方面最常见的的网络安全特性:


  • 全面性:Hadoop 为所有的告警总结、相关大数据和高级搜索选项提供了单一的视图。这样避免了信息过载,有助于冲突分析和解决。

  • 高速录入:大数据一直在产生,需要非常快速地对这些数据进行收集、存储和标准化,这样才能为进一步的高级分析和计算所用。

  • 实时处理:Hadoop 提供了实时处理功能,可以满足对地理信息、威胁信息等重要大数据信息的流式处理需求,它基于 DNS 的元数据也对调查每个数据漏洞提供了必要信息。

  • 高效:企业需要用廉价的大数据存储来保存数据,并且可以长期地反复对数据进行分析和挖掘。有了 Hadoop,用户就可以理解产生威胁的原因是什么、哪些数据被泄漏了、以及数据被发往了哪里。

Hadoop 如何存储大数据?

Hadoop 用分布式的方式存储大数据。假设你有 5G 数据,那可以修改 Hadoop 的配置,产生 1G 大小的数据块。于是数据会被切分到 5 个块里,因此会放到多个 DataNode 上,而且还会在不同的节点上创建大数据块的副本。因为我们用的都是商业硬件,存储空间还不成问题。


Hadoop 还解决了扩展的问题。大多数系统用的是纵向扩展的方案,而 Hadoop 用的是横向扩展。必要时你可以向 Hadoop 集群添加新的数据节点。为了存储 1TB 的数据,你并不需要一台具有 1TB 空间的设备,你可以使用多台 128GB 的设备,让它们一起来存储 1TB 的数据,这样可以避免空间的过度浪费。

Hadoop 怎样进行数据分析?

用 Hadoop 进行数据分析就非常简单了。你可以用 Hadoop 存储多种类型的数据,不管是非结构型的、半结构型的或结构型的。向 Hadoop 导入数据时不会预先做模式校验。而且它遵循一次写入多次读取的模式。因此,你可以在写入数据之后,多次进行读取分析,以找到有价值信息。

怎样才能更快地分析和处理数据?

用 Hadoop 做大数据分析的人都知道,处理大数据实在太困难了。为了解决这个问题,我们把算法发往数据,而不是把数据带给算法。这意味着我们不会先把数据收集到主节点之后再进行处理,而是用 MapReduce 算法来让数据处理过程变得更快。处理逻辑会被发往多个从节点,然后就在这些从节点上对大数据进行处理。处理过程结束后,再把处理结果发往主节点,通过它返回给客户端。Hadoop 的 YARN 架构中有 NodeManager 和 ResourceManager。可以把 ResouceManager 配置到 NameNode 所在的服务器上运行。但 NodeManager 要与 Data Node 运行在相同的服务器上。

结论

用 Hadoop 做数据分析对用户来说是个非常好的选择,他们可以专注于数据分析,而无需担心其它风险。即使数据量非常大,仍然可以放心地进行存储、处理和分析,不用担心这些过程会对网络流量造成多大影响。


正因如此,很多大数据公司都喜欢用 Hadoop 来作数据存储。它不只能保存你的大数据,它先进的网络安全思想也可以让数据保存变得更容易。


当你的团队意识到了 Hadoop 的好处,并学会了怎样使用它之后,你就会发现系统运营变得更容易了,因为你对可能发生的威胁和底层问题都了解得更清楚了。因此,如果你非常想优化你的大数据管理,并且希望能掌控它,请了解一下 Hadoop 吧!


英文原文:


Protecting Big Data with Hadoop: A Cyber Security Protection Guide


2019-11-11 16:002029

评论 1 条评论

发布
用户头像
标题是我关心的,但是好像并没有什么有用的内容
2019-11-12 10:31
回复
没有更多了
发现更多内容

如何实现零基础转行做测试开发,入职3个月后涨薪30%

霍格沃兹测试开发学社

测试人生 | 零基础转行做测试开发,入职3个月后涨薪30%

测吧(北京)科技有限公司

测试

让 K8s 更简单!8款你不得不知的 AI 工具-Part 2

SEAL安全

人工智能 开源 AI Kubernetes

查看 DB 和 RG 级别的监控指标--新特性 record-db-label

TiDB 社区干货传送门

实践案例 管理与运维 新版本/特性解读 7.x 实践

TiDB MVCC 版本堆积相关原理及排查手段

TiDB 社区干货传送门

性能调优 管理与运维 故障排查/诊断 性能测评

4个为数据程序员量身打造的PyCharm插件

伤感汤姆布利柏

等保测评师工资怎么样?有前途吗?

行云管家

等保 等级保护 等保测评师

使用git克隆仓库报错:Warning: Permanently added‘github.com’ to the .....(ssh )

百度搜索:蓝易云

git Linux 运维 报错 云服务器

除了代码行数、工时,我们还有什么更科学的方式度量研发工作量?

思码逸研发效能

一个好运维的自我修养:做好企业 IT 运维工作

伤感汤姆布利柏

一文搞懂TiDB的闪回(FlashBack)能力

TiDB 社区干货传送门

实践案例 7.x 实践

软件测试经验分享丨零基础转行做测试开发,入职3个月后涨薪30%

测试人

软件测试

知识图谱数据处理流程是什么

悦数图数据库

知识图谱

Flink ML 的新特性解析与应用

Apache Flink

大数据 实时计算 flink 实战

2024年漳州本地有正规等保测评机构吗?在哪里?

行云管家

等保 等保测评 等保测评机构 漳州

春节期间消费行业收入大涨:企业如何抓住私域运营优化机会?

Geek_2d6073

TDengine 签约福州城建,助力智慧水务数据管理革新!

TDengine

tdengine 时序数据库

怎样利用 AI 大模型,辅助研发管理与效能提升?

思码逸研发效能

直播回顾 | 哈啰一站式业产研协同平台的建设与实践

思码逸研发效能

云数据库实现架构与设计的构想

天翼云开发者社区

数据库 云计算 云数据库

如何在简历中展示软技能,吸引HR关注

霍格沃兹测试开发学社

简历秀软技能:轻松吸引HR的注意!

测吧(北京)科技有限公司

测试

【Ubuntu20.04】安装gcc11 g++11, Ubuntu18.04

百度搜索:蓝易云

Linux ubuntu 运维 gcc11 g++11

查看服务器/IIS日志、log、访问信息基本方法

百度搜索:蓝易云

Linux 运维 windows IIS 云服务器

新零售SaaS架构:什么是订单履约系统?

EquatorCoco

大数据 架构 零售 SaaS

怎样用Hadoop保护大数据?_安全_Priya James_InfoQ精选文章