写点什么

大数据 Hadoop 解决方案:2014 年第 1 季度形势

  • 2014-03-18
  • 本文字数:1470 字

    阅读完需:约 5 分钟

根据最新的 Forrest 报告,有很多公司都在努力挖掘他们拥有的大量数据,包括结构化、非结构化、半结构化以及二进制数据等,探索对数据的深入利用。下面是报告结论的其中一点:

大多数公司估计他们只分析了已有数据的 12%,剩余 88% 还没有被充分利用。大量的数据孤岛和分析能力的缺乏是造成这种局面的主要原因。另外一个难题是如何判断数据是否有价值。尤其是在大数据时代,你必须采集并存储这些数据。一些看起来与业务无关的数据,如手机 GPS 数据,将来也可能是座金矿。

所以,大量公司都寄希望于使用 Hadoop 解决如下难题:

  • 采集并存储与公司业务职能相关的所有数据。
  • 支撑先进的分析功能,包括商业智能,采用现代方式对数据进行先进的可视化和预测性分析。
  • 将数据快速分享给所需之人。整合多个数据孤岛帮助组织解答以前根本没人提过,甚至是未知的复杂问题。
  • 容纳持续增长的数据量和新数据源。Hadoop 支持解决方案规模的快速、有效扩大,使不断增长的容量、速度以及多样的数据尽在公司的把控之中。

根据报告的内容,Hadoop 的购买周期正处于上升阶段,因此在该领域催生了越来越多的厂商。尽管 Hadoop 是 Apache 的开源项目,任何人都可以免费下载,但大多数消费者还是倾向于采用厂商的打包方案。除了将所有的 Hadoop 组件打包并保证其能正常使用(兼容版本)之外,厂商一般还会提供企业级支持和扩展:以 Apache Hadoop(Common,HDFS,MapReduce )作为方案的核心组件,搭配额外实现增强 Hadoop 的功能,并增加差异化功能使其解决方案更具吸引力。

Forrester 的报告详细介绍了 9 家厂商:Amazon Web Services、Cloudera、Hortonworks、IBM、Intel、MapR 科技、Microsoft、Pivotal 软件和 Teradata,并根据以下指标对这些厂商进行了评测:

  • 现有产品,包括解决方案架构、数据和处理功能、安装、管理、监控工具、兼容性和社区成熟度等方面。
  • 战略,包括厂商在满足当前客户需求和弥补企业部署方面的计划。对战略的评测包括股权并购、内部战略的执行能力、产品路线图以及对客户的支持能力等。
  • 市场占有率,包括公司的财务,全球占有率,安装基数,与其他软件厂商、专业服务厂商以及软件即服务(Saas)/ 云 / 托管提供商之间的战略合作关系等。

报告的主要研究结果如下:

  • 厂商众多,但是并没有占主导地位的厂商。

在此次大数据 Hadoop 解决方案评测中,领导厂商有 Amazon Web Services、Cloudera、Hortonworks、IBM、MapR 科技、Pivotal 软件和 Teradata。这些厂商都是基于 Apache 开源项目,然后增加打包、支持、集成等特性以及自己的创新等内容以弥补 Hadoop 在企业中的短板。所有厂商都实现了这些功能,尽管方式略有不同——从各厂商的评测得分和厂商资料可见一斑。

  • 新晋厂商的解决方案也有不俗的表现。

在此次大数据 Hadoop 解决方案评测中,表现强劲的厂商有 Intel 和 Microsoft。Microsoft 为 HDInsight 产品制定了强劲的路线图,使其竞争力不亚于其他领导厂商。Microsoft HDInsight 为 Azure 进行了特殊优化,所以对于那些想要在 Azure 上实现 Hadoop 的 Microsoft 客户来说,它是最好的解决方案。而 Intel 将其创新能力聚焦于芯片级,如果它想将其产品打造成企业级解决方案,还需要加强其战略和企业工具。

根据该报告,虽然此次对大数据 Hadoop 解决方案市场的评测只是一个开始,但是对于那些努力摆脱复杂的 Hadoop 厂商局面的公司而言,该报告提供了很好的参考信息。


感谢孙镜涛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-03-18 07:463391
用户头像

发布了 28 篇内容, 共 12.4 次阅读, 收获喜欢 0 次。

关注

评论

发布
暂无评论
发现更多内容

深入理解变量:定义、使用和地址

测吧(北京)科技有限公司

测试

SD-WAN助力企业实现多分支互联

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

线程池核心原理浅析

不在线第一只蜗牛

线程 核心原理

重磅更新:草料二维码容量调整,不再限制图片文件上传量

草料二维码

解锁工业数据流:NeuronEX 规则调试功能实操指南

EMQ映云科技

emq emqx NeuronEX

掌握代码协作:GitHub、GitLab 和 Gitee 的远程存储库比较

测吧(北京)科技有限公司

测试

深入了解条件判断、状态标记和假值状态

测吧(北京)科技有限公司

测试

深入理解逻辑运算符及其短路特性

测吧(北京)科技有限公司

测试

探究字符串操作的各种类别

测吧(北京)科技有限公司

测试

建发弘爱 X 袋鼠云:加速提升精细化、数字化医疗健康服务能力

袋鼠云数栈

数据资产 医疗 医疗AI 医疗中台 数据服务

深入理解计数器函数:闭包与装饰器

测吧(北京)科技有限公司

测试

了解元组:定义、特点、应用及常用方法

测吧(北京)科技有限公司

测试

元组与列表:相同点、不同点及内存占用

测吧(北京)科技有限公司

测试

《Git之力:从远程存储库到IDE集成》

测吧(北京)科技有限公司

测试

探索Git分支管理:优化团队协作与项目开发

测吧(北京)科技有限公司

测试

云手机:海外舆情监控的新工具

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 跨境云手机

深入了解字符串:定义、转义字符和字符串下标

测吧(北京)科技有限公司

测试

理解标准数据类型及类型查看

测吧(北京)科技有限公司

测试

什么是运算符

测吧(北京)科技有限公司

测试

为什么公共云的弹性能力很难被发挥出来?

AutoMQ

Java 大数据 云原生 AutoMQ

释放效率:IDE Git集成与代码管理技艺

测吧(北京)科技有限公司

测试

DY短视频批量爬虫提取工具功能介绍

Geek_16d138

好用的软件分享

企业如何训练自己的专属大模型?

幂简集成

AI API 大模型

关于零信任理念, 零信任的重点是什么

德迅云安全杨德俊

2024春季火山引擎FORCE原动力大会,5月15日开幕

新消费日报

基于OceanBase+Flink CDC,云粒智慧实时数仓演进之路

Apache Flink

flink oceanbase 实时数据

大数据Hadoop解决方案:2014年第1季度形势_DevOps & 平台工程_Boris Lublinsky_InfoQ精选文章