写点什么

如何选择基于云的大数据方案

  • 2013-04-16
  • 本文字数:2285 字

    阅读完需:约 7 分钟

云计算和大数据目前都是热门话题,如何把两者结合起来即在云上实现大数据项目,这是一个新的实践领域。资深数据专家 David Gillman 根据自己的经验,列举了云上大数据方案需要考虑的基本要素,包括对数据构建实时索引、自由模式搜索与分析、监视数据并提供实时警告等,帮助用户更好地评估和选择解决方案。

在谈到如何实现云上大数据项目时,David 强调了三个实时要素,即实时索引、实时数据和实时监控。具体来说,实时索引指的是“对所有机器数据创建通用的实时索引”:

这是大多数人所认为的大数据的核心;它常常相当于开源项目 Hadoop。公司可能已被来自射频 ID (RFID) 移动、网站点击和其他可能结构化的数据的要求所淹没。如果您知道将如何使用这些数据,如何在未来查询和访问它,那么在处理这些数据方面进行投资是值得的。

您无需知道数据的未来潜在用途,Hadoop 提供了解决办法。通过按原样获取传入的数据,大数据将数据定义步骤推迟到了执行分析时。在不会限制数据的未来使用的情况下,Hadoop 将数据分布在许多服务器上并持续跟踪数据位置。

实时数据指的是“对实时数据和历史数据的自由搜索与分析”,存储数据只是实现目标的道路的一部分。另一方面是信息需要相对容易地被找到。为此,最快的方法是提供一种快速(在实现方面,而不是响应时间方面)搜索功能。因此需要找到支持对非结构化数据进行文本搜索的工具。从监视程序上直接获得响应,这会让人们模糊地认为所有信息都被正确存储且可以访问。此过程的管理步骤是为存储在分布式节点中的数据内容建立索引。搜索查询,然后并行访问分布式节点上的索引,以便提供更快的响应。

实时监控指的是“监视数据并提供实时警告”:

寻找一个工具来监视大数据中的数据。一些工具能够创建被持续处理的查询,寻找要满足的条件。我无法列出实时监视进入 Hadoop 中的数据的所有可能用法。假设大部分传入数据都是非结构化数据,而且不适用于关系数据库,那么实时监视可能是最仔细地检查数据元素的一种方式。

除了三个“实时"之外,Daivid 还列举了其他七个要点,可以归纳为:

自动从数据中发现有效的信息

执行手动搜索和手动报告也会影响分析效率。 数据挖掘和预测分析工具正在快速向以下方向发展:能够将大数据用作分析数据来源的数据库,或者用作持续监视变更的数据库。所有数据挖掘工具都遵循此目标。某个人确定分析的用途,查看数据,然后开发能提供洞察或预测的统计模型。然后,需要将这些统计模型部署在大数据环境中,以执行持续评估。这部分操作应该是自动化的。

提供强大的特定报告和分析

类似于知识发现和自动化的数据挖掘,分析师需要获得访问能力来检索和汇总大数据云环境中的信息。拥有大数据报告工具的供应商似乎每天都在增多。基于云的大数据提供商应同时支持来自外部请求者的 Pig 和 HQL 语句。这样,大数据存储即可由人们使用自己选择的工具(甚至使用还未创建的工具)来查询。

提供快速构建自定义仪表板和视图的能力

像传统的商业智能项目的演化一样,当人们可以查询大数据并生成报告时,他们希望自动化该功能并创建一个仪表板,以便通过漂亮的图片反复查看。除非人们编写自己的 Hive 语句和仅使用 Hive shell,大部分工具都有使用查询语句创建类似仪表板的视图的能力。要在大数据部署中列举许多仪表板示例,目前还为时过早。一种基于商业智能历史的预测是,仪表板将成为已汇总的大数据的一个重要的内部传递工具。而且从商业智能的历史发展来看,拥有良好的大数据仪表板对于获取和保持高层领导支持至关重要。

使用普通硬件进行高效扩展,以支撑任何数据量

当使用云大数据服务时,此考虑因素更没有多少实际意义。采购、配备和部署用于存储数据的硬件是服务提供商的职责。硬件的选择应该不难。但是,值得欣慰的是,账单表明大数据适合使用普通硬件。在架构中的一些节点上,“高质量的” 服务器很有用。但是,大数据架构中绝大部分节点(存储数据的节点)都可放在 “更低质量的” 硬件上。

提供细粒度、基于角色的安全和访问控制

当非结构化数据位于关系数据中时,访问数据的复杂性可能会阻碍人们获取数据。常见的报告工具不起作用。考虑采用大数据是简化复杂访问的一个有效步骤。不幸的是,同样的安全设置通常无法从现有关系系统迁移到大数据系统上。使用的大数据越多,良好的安全性就会变得越重要。最初,安全保护可能很少,因为没有人知道如何处理大数据。随着公司开发出了更多使用大数据的分析,需要对结果(尤其是报告和仪表板)进行保护,这类似于保护来自当前关系系统的报告。 开始使用基于云的大数据,了解需要在何时应用安全性。

支持多租户和灵活的部署

云的使用带来了多租户的概念,但这显然不是内部大数据环境中的考虑因素。许多人对将关键数据放在云环境中感到不安。而重要的是,云提供了开始实现大数据项目所需的低成本和快速部署。正是由于云提供商将数据放在了具有共享的硬件资源的架构中,成本才会显著降低。上帝是公平的,将数据放在您的服务器上,由其他某个人来管理整个设置也未尝不可。但是,在大数据需求是间歇性的时候,这不是一个经济高效的业务模型。结果会产生更高的开支,因为公司将为大量空闲时间付费,尤其在实现第一个项目期间,在分析师探索、考虑和了解大数据的时候。

集成 API 并通过它们进行扩展

大数据是为供自定义应用程序访问而设计的。常见的访问方法使用 RESTful 应用编程接口 (API)。这些 API 可用于大数据环境中的每个应用程序,用于管理性控制、存储数据和报告数据。因为大数据的所有基础组件都是开源的,所以这些 API 经过了全面地说明并且可以广泛使用。希望基于云的大数据提供商允许访问目前和未来的所有具有适当安全保护的 API。

2013-04-16 09:113021
用户头像

发布了 501 篇内容, 共 285.0 次阅读, 收获喜欢 64 次。

关注

评论

发布
暂无评论
发现更多内容

大数据培训Flink高频面试题

@零度

flink 大数据开发

从 0 到 1,探究百亿流量验证下的 MVVM 框架设计

图灵教育

百度 MVVM 全栈设计

八连冠!浪潮云连续8年蝉联中国政务云市场第一位

云计算

CREMB Pro 后台子管理员 403 问题分析

CRMEB

跨平台多媒体渲染引擎OPR简介

阿里巴巴文娱技术

音视频 弹幕 渲染

大数据生态安全框架的实现原理与最佳实践(上篇)

明哥的IT随笔

大数据 hadoop hive 数据安全

技术干货 | Linkis实践:新引擎实现流程解析

康月牙

Apache 开源社区 WeDataSphere Linkis 使用实践

基于模板配置的数据可视化平台

百度Geek说

数据产品学习-实时计算平台

第519区

实时计算 数据产品 数据开发 大数据平台

618 大促来袭,浅谈如何做好大促备战

阿里巴巴云原生

阿里云 微服务 高可用 云原生

直播预告 | 社交新纪元,共探元宇宙社交新体验

ZEGO即构

SphereEx 正式开源面向 Database Mesh 的解决方案 Pisanix

SphereEx

开源 SphereEx 云上数据库 Database Mesh Pisanix

工资管理系统该如何使用?

低代码小观

企业管理 工资 管理系统

各厂商的数据湖解决方案

五分钟学大数据

数据湖 6月月更

ARM64 上的性能怪兽:API 网关 Apache APISIX 在 AWS Graviton3 上的安装和性能测试

API7.ai 技术团队

AWS 网关 arm APISIX

数据安全刻不容缓,国产智能化厂商首获SOC 2鉴证报告有何意义?

王吉伟频道

RPA 数据安全 机器人流程自动化 智能自动化 SOC 2

资深OpenStacker - 彭博、Vexxhost升级为OpenInfra基金会黄金成员

极客天地

中原银行统一日志平台

中原银行

海量数据 中原银行 日志平台

分布式数据对象:超级终端的"全局变量"

OpenHarmony开发者

OpenHarmony

细说腾讯如何做到直播延时降低90%以上方案

C++后台开发

WebRTC CDN 音视频开发 视频直播 直播低延迟

defi存币生息理财dapp系统开发逻辑

开发微hkkf5566

InfoQ 极客传媒 15 周年庆征文|在Flutter中自定义应用程序内键盘

坚果

InfoQ极客传媒15周年庆

企业数字化转型该如何做?三个融合、三个转换

小炮

技术干货 | Linkis1.0.2安装及使用指南

康月牙

开源社区 微众银行 WeDataSphere Linkis 使用实践

后端适用,Apifox接口文档设计和调试教程【工具篇】

Liam

Java 后端 Postman 后端开发 API文档

flutter系列之:Material主题的基础-MaterialApp

程序那些事

flutter 程序那些事 6月月更 widget

小程序启动性能优化实践

百度Geek说

低代码分析盘点:银行业低代码应用需要规避两大误区

易观分析

代码 银行

5年“研究”3年“实战” 之后的满分答卷

青藤云安全

网络安全 容器安全 安全服务 云原生安全

快来极狐GitLab SaaS 学习全球顶级的开源项目吧

极狐GitLab

开源

秒云云原生信创全兼容解决方案,推动信创产业加速落地

MIAOYUN

云原生 信创 信创云

如何选择基于云的大数据方案_服务革新_崔康_InfoQ精选文章