AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

怎样用 Hadoop 保护大数据?

  • 2019-11-11
  • 本文字数:2538 字

    阅读完需:约 8 分钟

怎样用Hadoop保护大数据?

随着大数据分析技术的发展,人们在不断地寻找更好的方法去保护他们的大数据。请阅读本文,了解 Hadoop 是如何通过网络安全的方法来保护大数据的。


Hadoop 是什么?

Hadoop 是用 Java 开发的开源编程系统,让用户可以在计算机环境里存储和处理大数据集。它由 Apache 项目创建,由 Apache 软件基金会主导开发。


有了 Hadoop,用户就可以在由几千台服务器组成的大型分布式系统上创建、运行和测试应用程序,甚至可以一次性地处理 TB 级的大数据。即使某台物理服务器宕机,Hadoop 的分布式文件系统也可以让系统继续工作,不会受到故障影响。这样就避免了数据损失的风险,以及由于多台物理服务器宕机而导致的主系统故障。


而且,Hadoop 也是大数据处理系统,可以完成各种处理任务,比如做销售和业务计划、科学分析、处理物联网业务等。


谈到网络安全,Hadoop 也让用户可以更容易地保存大数据,并在发现新的大数据漏洞时可以向所有人告警。我们将在这篇文章里解释如何用 Hadoop 实现网络安全,以及从长期来说如何保存你的大数据,来保证公司的安全运营。

Hadoop 与网络安全

谈到网络安全,Hadoop 可以保存你们公司产生的所有数据,无论数据量有多大。它可以让你处理用户、物联网、各种终端产生的所有信息,有了这些信息,才能对异常事务、可疑行为和其它威胁等进行精准分析。


有了 Hadoop,你就可以使用各式各样的开源或闭源的应用和机器学习技术,对当前面临的和未来将要出现的挑战也有了解决方案。


但网络安全问题却没有这么简单。十年前,我们以为有了SIEM和其它类似产品就已经足够了。我们相信它们可以提供我们需要的信息,帮助我们应对网络安全的挑战。


但当移动、云和物联网应用被开发出来以后,我们才知道 SIEM 系统还不够健壮,没办法对各种不同规模的大数据进行恰当处理,也不能依数据规模的不同而伸缩自如。SIEM 不是针对大规模数据的系统设计的,因此对发现网络底层隐藏的问题无法提供有帮助作用的分析性结果。


当网络专家们不能用 SIEM 做高级分析或保护他们的大数据时,那么能为保护网络而做的事看起来就很有限了。他们只能发现有限类型的攻击,或者稍稍高级并已知的攻击,仅此而已。



但当你使用 Hadoop 时,可供参考的安全用例集就大多了,你可以在很大程度上得到帮助。公司可以用用户行为分析法来缓解并发现内部威胁,分享威胁信息,并且定位网络内部的可疑活动。


网络安全主要处理三方面内容:改进事故响应、更好的事故检测和了解这些场景对你的业务的影响。使用 Hadoop 时,这三个方面都能适用,因为从设计上它就可以让你很容易地进行分析、情境理解和获取信息。


安全社区不会受某一种应用的洞察局限,从而让自己处于危险的境地。Hadoop 的灵活性可以帮你的团队找到问题的答案,而不是受限于各种不同安全程序的已有知识,以及可以对他们发出通知的系统。


Hadoop 还整合了开源和闭源技术,提供完整的网络安全防御机制。比如,在开源安全技术的支持下,它的开放式网络洞察(Open Network insights, ONI)网络最先通过大数据分析和开放数据模型为平台提供了高级的威胁检测解决方案。

Hadoop 的网络安全功能

Hadoop 提供了以下几方面最常见的的网络安全特性:


  • 全面性:Hadoop 为所有的告警总结、相关大数据和高级搜索选项提供了单一的视图。这样避免了信息过载,有助于冲突分析和解决。

  • 高速录入:大数据一直在产生,需要非常快速地对这些数据进行收集、存储和标准化,这样才能为进一步的高级分析和计算所用。

  • 实时处理:Hadoop 提供了实时处理功能,可以满足对地理信息、威胁信息等重要大数据信息的流式处理需求,它基于 DNS 的元数据也对调查每个数据漏洞提供了必要信息。

  • 高效:企业需要用廉价的大数据存储来保存数据,并且可以长期地反复对数据进行分析和挖掘。有了 Hadoop,用户就可以理解产生威胁的原因是什么、哪些数据被泄漏了、以及数据被发往了哪里。

Hadoop 如何存储大数据?

Hadoop 用分布式的方式存储大数据。假设你有 5G 数据,那可以修改 Hadoop 的配置,产生 1G 大小的数据块。于是数据会被切分到 5 个块里,因此会放到多个 DataNode 上,而且还会在不同的节点上创建大数据块的副本。因为我们用的都是商业硬件,存储空间还不成问题。


Hadoop 还解决了扩展的问题。大多数系统用的是纵向扩展的方案,而 Hadoop 用的是横向扩展。必要时你可以向 Hadoop 集群添加新的数据节点。为了存储 1TB 的数据,你并不需要一台具有 1TB 空间的设备,你可以使用多台 128GB 的设备,让它们一起来存储 1TB 的数据,这样可以避免空间的过度浪费。

Hadoop 怎样进行数据分析?

用 Hadoop 进行数据分析就非常简单了。你可以用 Hadoop 存储多种类型的数据,不管是非结构型的、半结构型的或结构型的。向 Hadoop 导入数据时不会预先做模式校验。而且它遵循一次写入多次读取的模式。因此,你可以在写入数据之后,多次进行读取分析,以找到有价值信息。

怎样才能更快地分析和处理数据?

用 Hadoop 做大数据分析的人都知道,处理大数据实在太困难了。为了解决这个问题,我们把算法发往数据,而不是把数据带给算法。这意味着我们不会先把数据收集到主节点之后再进行处理,而是用 MapReduce 算法来让数据处理过程变得更快。处理逻辑会被发往多个从节点,然后就在这些从节点上对大数据进行处理。处理过程结束后,再把处理结果发往主节点,通过它返回给客户端。Hadoop 的 YARN 架构中有 NodeManager 和 ResourceManager。可以把 ResouceManager 配置到 NameNode 所在的服务器上运行。但 NodeManager 要与 Data Node 运行在相同的服务器上。

结论

用 Hadoop 做数据分析对用户来说是个非常好的选择,他们可以专注于数据分析,而无需担心其它风险。即使数据量非常大,仍然可以放心地进行存储、处理和分析,不用担心这些过程会对网络流量造成多大影响。


正因如此,很多大数据公司都喜欢用 Hadoop 来作数据存储。它不只能保存你的大数据,它先进的网络安全思想也可以让数据保存变得更容易。


当你的团队意识到了 Hadoop 的好处,并学会了怎样使用它之后,你就会发现系统运营变得更容易了,因为你对可能发生的威胁和底层问题都了解得更清楚了。因此,如果你非常想优化你的大数据管理,并且希望能掌控它,请了解一下 Hadoop 吧!


英文原文:


Protecting Big Data with Hadoop: A Cyber Security Protection Guide


2019-11-11 16:002300

评论 1 条评论

发布
用户头像
标题是我关心的,但是好像并没有什么有用的内容
2019-11-12 10:31
回复
没有更多了
发现更多内容

STM32F103C8/BT6最小系统原理图、PCB

不脱发的程序猿

嵌入式 单片机 STM32F103C8T6 MCU ST

STM32如何计算RTC时钟异步预分频和同步预分频

不脱发的程序猿

嵌入式 RTC stm32 单片机 ST

GitHub开源的文言文编程语言、程序生成中国山水画、格律诗编辑程序

不脱发的程序猿

GitHub 开源 编程语言 传统文化

优柔寡断的人,能成什么大事

Kareza

个人成长 5月日更 反思总结

苹果移动设备用什么管理比较好?有什么推荐?

懒得勤快

imazing 手机管理

一线大厂最新总结Spring Security Oauth2.0认证授权全彩笔记

Java架构追梦

Java 阿里巴巴 架构 面试 spring security

IM扫码登录技术专题(三):通俗易懂,IM扫码登录功能详细原理一篇就够

JackJiang

即时通讯 IM 扫码

【LeetCode】叶子相似的树Java题解

Albert

算法 LeetCode 5月日更

秘笈分享! 24 小时无人自习室为什么这么火?

IoT云工坊

小程序 人工智能 物联网 无人自习室

Java程序员面试必备——过得了面试官,过不了HR?我教你

比伯

Java 编程 架构 程序人生 计算机

【技术干货】文件系统中的“锁”

焱融科技

容器 分布式 云原生 高性能 文件存储

一文带你全面了解java对象的序列化和反序列化

华为云开发者联盟

Java 序列化 java对象 反序列化 Serializable接口

JavaScript设计模式之单例模式

程序员海军

JavaScript 大前端 设计模式 单例模式

阿里P7:每个码农都应该知道的MySQL主从复制方法,看这篇就够了

牛哄哄的java大师

Java MySQL 数据库

想要做网页游戏怎么办 ?PixiJs 篇(三)

空城机

大前端 游戏 pixi 5月日更

读完你就知道对话式人工智能的数据采集如何解决啦!

澳鹏Appen

人工智能 自然语言处理 聊天机器人 nlp nlu

关于中台,聊聊我认为相对客观的三点认知

架构精进之路

中台 5月日更

Nginx基础配置-资源缓存配置

梁龙先森

nginx 大前端 缓存;

怎样使用过程自动化来实现过程的习惯性和持久性?

IPD产品研发管理

自动化 开发 CMMI

Python OOP-4

若尘

面向对象 oop Python编程 5月日更

414天前,我以为这是编程玄学...

why技术

Java JVM JMM

百度大脑开放日厦门站-企业服务专场报名

百度大脑

百度大脑 开放日 企业服务

阿里大牛亲码 Spring AOP详解笔记全网开源,学透并发只需3天

飞飞JAva

spring aop

【智慧农业】从“看天吃饭”到“知天而作”,乡村振兴全靠 TA

IoT云工坊

人工智能 物联网 智慧农业 庭院灌溉 温室大棚

10个 解放双手的 IDEA 插件,这些代码都不用写(第二弹)

程序员小富

Java 后端 IDEA

缓存系统稳定性 - 架构师峰会演讲实录

万俊峰Kevin

缓存 微服务 分布式缓存 Go 语言

图算法系列之计算图中最短路径

Silently9527

数据结构和算法 图算法 广度优先搜素

干好开发者关系的十个职业发展秘诀

开发者关系

开发者关系 技术运营 DevRel

停止维护的CentOS6,怎么使用yum?

运维研习社

Linux 5月日更

青海大学智慧微能源数字孪生可视化系统

ThingJS数字孪生引擎

大前端 可视化 3D可视化 数字孪生

打破思维定式(五)

Changing Lin

5月日更

怎样用Hadoop保护大数据?_安全_Priya James_InfoQ精选文章