写点什么

怎样用 Hadoop 保护大数据?

  • 2019-11-11
  • 本文字数:2538 字

    阅读完需:约 8 分钟

怎样用Hadoop保护大数据?

随着大数据分析技术的发展,人们在不断地寻找更好的方法去保护他们的大数据。请阅读本文,了解 Hadoop 是如何通过网络安全的方法来保护大数据的。


Hadoop 是什么?

Hadoop 是用 Java 开发的开源编程系统,让用户可以在计算机环境里存储和处理大数据集。它由 Apache 项目创建,由 Apache 软件基金会主导开发。


有了 Hadoop,用户就可以在由几千台服务器组成的大型分布式系统上创建、运行和测试应用程序,甚至可以一次性地处理 TB 级的大数据。即使某台物理服务器宕机,Hadoop 的分布式文件系统也可以让系统继续工作,不会受到故障影响。这样就避免了数据损失的风险,以及由于多台物理服务器宕机而导致的主系统故障。


而且,Hadoop 也是大数据处理系统,可以完成各种处理任务,比如做销售和业务计划、科学分析、处理物联网业务等。


谈到网络安全,Hadoop 也让用户可以更容易地保存大数据,并在发现新的大数据漏洞时可以向所有人告警。我们将在这篇文章里解释如何用 Hadoop 实现网络安全,以及从长期来说如何保存你的大数据,来保证公司的安全运营。

Hadoop 与网络安全

谈到网络安全,Hadoop 可以保存你们公司产生的所有数据,无论数据量有多大。它可以让你处理用户、物联网、各种终端产生的所有信息,有了这些信息,才能对异常事务、可疑行为和其它威胁等进行精准分析。


有了 Hadoop,你就可以使用各式各样的开源或闭源的应用和机器学习技术,对当前面临的和未来将要出现的挑战也有了解决方案。


但网络安全问题却没有这么简单。十年前,我们以为有了SIEM和其它类似产品就已经足够了。我们相信它们可以提供我们需要的信息,帮助我们应对网络安全的挑战。


但当移动、云和物联网应用被开发出来以后,我们才知道 SIEM 系统还不够健壮,没办法对各种不同规模的大数据进行恰当处理,也不能依数据规模的不同而伸缩自如。SIEM 不是针对大规模数据的系统设计的,因此对发现网络底层隐藏的问题无法提供有帮助作用的分析性结果。


当网络专家们不能用 SIEM 做高级分析或保护他们的大数据时,那么能为保护网络而做的事看起来就很有限了。他们只能发现有限类型的攻击,或者稍稍高级并已知的攻击,仅此而已。



但当你使用 Hadoop 时,可供参考的安全用例集就大多了,你可以在很大程度上得到帮助。公司可以用用户行为分析法来缓解并发现内部威胁,分享威胁信息,并且定位网络内部的可疑活动。


网络安全主要处理三方面内容:改进事故响应、更好的事故检测和了解这些场景对你的业务的影响。使用 Hadoop 时,这三个方面都能适用,因为从设计上它就可以让你很容易地进行分析、情境理解和获取信息。


安全社区不会受某一种应用的洞察局限,从而让自己处于危险的境地。Hadoop 的灵活性可以帮你的团队找到问题的答案,而不是受限于各种不同安全程序的已有知识,以及可以对他们发出通知的系统。


Hadoop 还整合了开源和闭源技术,提供完整的网络安全防御机制。比如,在开源安全技术的支持下,它的开放式网络洞察(Open Network insights, ONI)网络最先通过大数据分析和开放数据模型为平台提供了高级的威胁检测解决方案。

Hadoop 的网络安全功能

Hadoop 提供了以下几方面最常见的的网络安全特性:


  • 全面性:Hadoop 为所有的告警总结、相关大数据和高级搜索选项提供了单一的视图。这样避免了信息过载,有助于冲突分析和解决。

  • 高速录入:大数据一直在产生,需要非常快速地对这些数据进行收集、存储和标准化,这样才能为进一步的高级分析和计算所用。

  • 实时处理:Hadoop 提供了实时处理功能,可以满足对地理信息、威胁信息等重要大数据信息的流式处理需求,它基于 DNS 的元数据也对调查每个数据漏洞提供了必要信息。

  • 高效:企业需要用廉价的大数据存储来保存数据,并且可以长期地反复对数据进行分析和挖掘。有了 Hadoop,用户就可以理解产生威胁的原因是什么、哪些数据被泄漏了、以及数据被发往了哪里。

Hadoop 如何存储大数据?

Hadoop 用分布式的方式存储大数据。假设你有 5G 数据,那可以修改 Hadoop 的配置,产生 1G 大小的数据块。于是数据会被切分到 5 个块里,因此会放到多个 DataNode 上,而且还会在不同的节点上创建大数据块的副本。因为我们用的都是商业硬件,存储空间还不成问题。


Hadoop 还解决了扩展的问题。大多数系统用的是纵向扩展的方案,而 Hadoop 用的是横向扩展。必要时你可以向 Hadoop 集群添加新的数据节点。为了存储 1TB 的数据,你并不需要一台具有 1TB 空间的设备,你可以使用多台 128GB 的设备,让它们一起来存储 1TB 的数据,这样可以避免空间的过度浪费。

Hadoop 怎样进行数据分析?

用 Hadoop 进行数据分析就非常简单了。你可以用 Hadoop 存储多种类型的数据,不管是非结构型的、半结构型的或结构型的。向 Hadoop 导入数据时不会预先做模式校验。而且它遵循一次写入多次读取的模式。因此,你可以在写入数据之后,多次进行读取分析,以找到有价值信息。

怎样才能更快地分析和处理数据?

用 Hadoop 做大数据分析的人都知道,处理大数据实在太困难了。为了解决这个问题,我们把算法发往数据,而不是把数据带给算法。这意味着我们不会先把数据收集到主节点之后再进行处理,而是用 MapReduce 算法来让数据处理过程变得更快。处理逻辑会被发往多个从节点,然后就在这些从节点上对大数据进行处理。处理过程结束后,再把处理结果发往主节点,通过它返回给客户端。Hadoop 的 YARN 架构中有 NodeManager 和 ResourceManager。可以把 ResouceManager 配置到 NameNode 所在的服务器上运行。但 NodeManager 要与 Data Node 运行在相同的服务器上。

结论

用 Hadoop 做数据分析对用户来说是个非常好的选择,他们可以专注于数据分析,而无需担心其它风险。即使数据量非常大,仍然可以放心地进行存储、处理和分析,不用担心这些过程会对网络流量造成多大影响。


正因如此,很多大数据公司都喜欢用 Hadoop 来作数据存储。它不只能保存你的大数据,它先进的网络安全思想也可以让数据保存变得更容易。


当你的团队意识到了 Hadoop 的好处,并学会了怎样使用它之后,你就会发现系统运营变得更容易了,因为你对可能发生的威胁和底层问题都了解得更清楚了。因此,如果你非常想优化你的大数据管理,并且希望能掌控它,请了解一下 Hadoop 吧!


英文原文:


Protecting Big Data with Hadoop: A Cyber Security Protection Guide


2019-11-11 16:002240

评论 1 条评论

发布
用户头像
标题是我关心的,但是好像并没有什么有用的内容
2019-11-12 10:31
回复
没有更多了
发现更多内容

如何做到 10T 集群数据安全备份、1GB/s 快速恢复?

TiDB 社区干货传送门

【精选实践】TiDB 在 360 云平台的落地及实战干货

TiDB 社区干货传送门

TiDB备份恢复体系设计与思考

TiDB 社区干货传送门

实践案例 TiDB 底层架构

TiDB 在2021汽车之家818全球汽车夜的应用

TiDB 社区干货传送门

实践案例

基于 k8s 与 Chaos Mesh 构建数据库混沌实验日报系统

TiDB 社区干货传送门

实践案例 安装 & 部署

K8S上TiDB集群升级卡住问题探讨

TiDB 社区干货传送门

我眼中的分布式系统可观测性

TiDB 社区干货传送门

4.0 新特性前瞻:增强的 SQL Hint

TiDB 社区干货传送门

网易云音乐 DBA 谈 TiDB 选型:效率的选择

TiDB 社区干货传送门

实践案例

dm1.0.5 tidb3.0.15 同步阿里云drds5.7出现的问题

TiDB 社区干货传送门

【精选实践】TiDB 在喜马拉雅推送系统中的实践

TiDB 社区干货传送门

【精选实践】TiDB 在新东方业务前台及中台的落地

TiDB 社区干货传送门

分布式事务的 Commit Point

TiDB 社区干货传送门

TiDB备份恢复方式你知多少?

TiDB 社区干货传送门

TiDB 在微众银行核心批量场景的实践

TiDB 社区干货传送门

实践案例

伴鱼数据库之慢日志系统

TiDB 社区干货传送门

TiDB 4.0 新特性前瞻:白话“悲观锁”

TiDB 社区干货传送门

PD leader 切换耗时分析

TiDB 社区干货传送门

TiDB用什么保证备份的一致性?

TiDB 社区干货传送门

TiDB + 京东云数据库打造极速秒杀体验

TiDB 社区干货传送门

实践案例

TiUP升级集群报Run Command Timeout/SSH Timeout错误解决方案

TiDB 社区干货传送门

【TiDB 4.0 新特性前瞻】DBA 减负捷径:拍个 CT 诊断集群热点问题

TiDB 社区干货传送门

TiDB 4.0 新特性尝鲜指南献上,投稿【试玩体验】斩获 TiDB 限量周边~

TiDB 社区干货传送门

【TiDB 4.0 试玩体验】TiDB 性能对比(v3.0.12 VS v4.0.0-rc)

TiDB 社区干货传送门

漫谈TiDB数据库部署

TiDB 社区干货传送门

安装 & 部署

提升问题排查速度 - TiDB 集群问题导图

TiDB 社区干货传送门

【精选实践】TiDB 在聚美短视频业务的实践与应用

TiDB 社区干货传送门

浅析 TiDB 二阶段提交

TiDB 社区干货传送门

TiDB 在爱奇艺实时分析场景的应用实践

TiDB 社区干货传送门

实践案例

某报表业务升级5.0解决慢SQL问题

TiDB 社区干货传送门

管理与运维 故障排查/诊断

TiDB 在某餐饮 SaaS 服务商的实践及海外机房构建

TiDB 社区干货传送门

怎样用Hadoop保护大数据?_安全_Priya James_InfoQ精选文章