NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

如何选择基于云的大数据方案

  • 2013-04-16
  • 本文字数:2285 字

    阅读完需:约 7 分钟

云计算和大数据目前都是热门话题,如何把两者结合起来即在云上实现大数据项目,这是一个新的实践领域。资深数据专家 David Gillman 根据自己的经验,列举了云上大数据方案需要考虑的基本要素,包括对数据构建实时索引、自由模式搜索与分析、监视数据并提供实时警告等,帮助用户更好地评估和选择解决方案。

在谈到如何实现云上大数据项目时,David 强调了三个实时要素,即实时索引、实时数据和实时监控。具体来说,实时索引指的是“对所有机器数据创建通用的实时索引”:

这是大多数人所认为的大数据的核心;它常常相当于开源项目 Hadoop。公司可能已被来自射频 ID (RFID) 移动、网站点击和其他可能结构化的数据的要求所淹没。如果您知道将如何使用这些数据,如何在未来查询和访问它,那么在处理这些数据方面进行投资是值得的。

您无需知道数据的未来潜在用途,Hadoop 提供了解决办法。通过按原样获取传入的数据,大数据将数据定义步骤推迟到了执行分析时。在不会限制数据的未来使用的情况下,Hadoop 将数据分布在许多服务器上并持续跟踪数据位置。

实时数据指的是“对实时数据和历史数据的自由搜索与分析”,存储数据只是实现目标的道路的一部分。另一方面是信息需要相对容易地被找到。为此,最快的方法是提供一种快速(在实现方面,而不是响应时间方面)搜索功能。因此需要找到支持对非结构化数据进行文本搜索的工具。从监视程序上直接获得响应,这会让人们模糊地认为所有信息都被正确存储且可以访问。此过程的管理步骤是为存储在分布式节点中的数据内容建立索引。搜索查询,然后并行访问分布式节点上的索引,以便提供更快的响应。

实时监控指的是“监视数据并提供实时警告”:

寻找一个工具来监视大数据中的数据。一些工具能够创建被持续处理的查询,寻找要满足的条件。我无法列出实时监视进入 Hadoop 中的数据的所有可能用法。假设大部分传入数据都是非结构化数据,而且不适用于关系数据库,那么实时监视可能是最仔细地检查数据元素的一种方式。

除了三个“实时"之外,Daivid 还列举了其他七个要点,可以归纳为:

自动从数据中发现有效的信息

执行手动搜索和手动报告也会影响分析效率。 数据挖掘和预测分析工具正在快速向以下方向发展:能够将大数据用作分析数据来源的数据库,或者用作持续监视变更的数据库。所有数据挖掘工具都遵循此目标。某个人确定分析的用途,查看数据,然后开发能提供洞察或预测的统计模型。然后,需要将这些统计模型部署在大数据环境中,以执行持续评估。这部分操作应该是自动化的。

提供强大的特定报告和分析

类似于知识发现和自动化的数据挖掘,分析师需要获得访问能力来检索和汇总大数据云环境中的信息。拥有大数据报告工具的供应商似乎每天都在增多。基于云的大数据提供商应同时支持来自外部请求者的 Pig 和 HQL 语句。这样,大数据存储即可由人们使用自己选择的工具(甚至使用还未创建的工具)来查询。

提供快速构建自定义仪表板和视图的能力

像传统的商业智能项目的演化一样,当人们可以查询大数据并生成报告时,他们希望自动化该功能并创建一个仪表板,以便通过漂亮的图片反复查看。除非人们编写自己的 Hive 语句和仅使用 Hive shell,大部分工具都有使用查询语句创建类似仪表板的视图的能力。要在大数据部署中列举许多仪表板示例,目前还为时过早。一种基于商业智能历史的预测是,仪表板将成为已汇总的大数据的一个重要的内部传递工具。而且从商业智能的历史发展来看,拥有良好的大数据仪表板对于获取和保持高层领导支持至关重要。

使用普通硬件进行高效扩展,以支撑任何数据量

当使用云大数据服务时,此考虑因素更没有多少实际意义。采购、配备和部署用于存储数据的硬件是服务提供商的职责。硬件的选择应该不难。但是,值得欣慰的是,账单表明大数据适合使用普通硬件。在架构中的一些节点上,“高质量的” 服务器很有用。但是,大数据架构中绝大部分节点(存储数据的节点)都可放在 “更低质量的” 硬件上。

提供细粒度、基于角色的安全和访问控制

当非结构化数据位于关系数据中时,访问数据的复杂性可能会阻碍人们获取数据。常见的报告工具不起作用。考虑采用大数据是简化复杂访问的一个有效步骤。不幸的是,同样的安全设置通常无法从现有关系系统迁移到大数据系统上。使用的大数据越多,良好的安全性就会变得越重要。最初,安全保护可能很少,因为没有人知道如何处理大数据。随着公司开发出了更多使用大数据的分析,需要对结果(尤其是报告和仪表板)进行保护,这类似于保护来自当前关系系统的报告。 开始使用基于云的大数据,了解需要在何时应用安全性。

支持多租户和灵活的部署

云的使用带来了多租户的概念,但这显然不是内部大数据环境中的考虑因素。许多人对将关键数据放在云环境中感到不安。而重要的是,云提供了开始实现大数据项目所需的低成本和快速部署。正是由于云提供商将数据放在了具有共享的硬件资源的架构中,成本才会显著降低。上帝是公平的,将数据放在您的服务器上,由其他某个人来管理整个设置也未尝不可。但是,在大数据需求是间歇性的时候,这不是一个经济高效的业务模型。结果会产生更高的开支,因为公司将为大量空闲时间付费,尤其在实现第一个项目期间,在分析师探索、考虑和了解大数据的时候。

集成 API 并通过它们进行扩展

大数据是为供自定义应用程序访问而设计的。常见的访问方法使用 RESTful 应用编程接口 (API)。这些 API 可用于大数据环境中的每个应用程序,用于管理性控制、存储数据和报告数据。因为大数据的所有基础组件都是开源的,所以这些 API 经过了全面地说明并且可以广泛使用。希望基于云的大数据提供商允许访问目前和未来的所有具有适当安全保护的 API。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2013-04-16 09:112440
用户头像

发布了 501 篇内容, 共 248.4 次阅读, 收获喜欢 57 次。

关注

评论

发布
暂无评论
发现更多内容

Aiseesoft Mac Screen Recorder for Mac(屏幕录像截图工具)v2.2.22激活版

iMac小白

WIFI 6E/IPQ5018 WITH QCN9074 Deliver new data experiences

wallysSK

商品管理系统:服装品牌提升工作效率的利器

第七在线

Mocaverse NFT 概览与数据分析

Footprint Analytics

NFT

Video Copilot Element 3D for Mac(AE三维模型插件) v2.2.3.2190激活版

iMac小白

八种常见的云存储安全风险及防护建议

伤感汤姆布利柏

自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人

快乐非自愿限量之名

人工智能 AI 自然语言 大模型

WorkPlus Meet视频会议系统,支持局域网部署

WorkPlus

AnyMP4 Audio Converter for Mac(多格式音频转换工具)v8.2.20激活版

iMac小白

dBpoweramp Music Converter for Mac(音频格式转换器)R2024.02.01直装版

iMac小白

CubeFS源码分析系列(一) 创建Volume

总想做点什么

商品信息全景图:API接口在聚合商品数据中的应用

Noah

Go中最常用的数据校验库

fliter

理论与实战:一篇看懂Python词云

不在线第一只蜗牛

Python 前端 开发语言

唯品会商品详情数据接口Python

tbapi

唯品会商品列表数据接口 唯品会API接口 唯品会商品数据接口 唯品会商品数据采集接口

平台+低代码:中小企业数字化转型普惠之路

EquatorCoco

低代码 数字化 平台 企业转型

SD-WAN的安全性体现在哪里?

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

云上未来:探索云计算的技术变革与应用趋势

快乐非自愿限量之名

云计算 运维 服务器

区块链游戏解说:Axie Infinity 是什么

Footprint Analytics

NFT

聚道云软件连接器:连接薪人薪事与携程商旅的桥梁,出差管理效率的新篇章

聚道云软件连接器

案例分享

Office 365 Mac破解版

iMac小白

SD-WAN:企业网络转型的不可逆趋势

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

6个.NET开源且强大的快速开发框架(帮助你提高生产效率)

EquatorCoco

.net 开源 开发 框架

企业网络采用SD-WAN的优势

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

已有天翼云Ubuntu云主机,搭建幻兽帕鲁服务器

天翼云开发者社区

云计算 云主机 云服务器

DevEco Studio 4.1带来多种调试能力,助力鸿蒙原生应用开发高效调试

新消费日报

低代码平台四大常见用例开发:简化企业数字化进程

不在线第一只蜗牛

低代码 数字化 项目开发 企业转型

WorkPlus提供全方位的即时通讯解决方案,助力团队高效沟通与协作

WorkPlus

Wall Clock与Monotonic Clock

fliter

pd虚拟机专用windows系统镜像(m1/intel)

iMac小白

如何用ETL工具实现API调用

RestCloud

ETL 数据集成 API调用

如何选择基于云的大数据方案_服务革新_崔康_InfoQ精选文章