50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

Hadoop + SQL Server + Excel = 大数据分析

  • 2013-01-31
  • 本文字数:1876 字

    阅读完需:约 6 分钟

几个月前,微软宣布了自己的用于大数据管理、分析和挖掘的 Hadoop 发布版 HDInsight 。InfoQ 联系到了 SQL Server 的高级产品营销经理 Val Fontama,希望进一步了解微软的企业级大数据到底如何。

关于企业中数据集规模的增长趋势:

数据的海洋一直在增长。有预测表明业务信息存储量每年都会加倍。例如,Gartner 发现全世界的信息量每年在以最少 59% 的速率增长,而其中大约 85% 的数据是“非结构化”的——比如视频剪辑、RFID 标签和网站日志。这些非结构化数据用传统的数据管理系统来处理并不容易。此外,在很多场景下,客户在实时收集新数据时发现数据增长速率还在增加。

客户将需要一个与业务及所收集数据的发展相适应的现代数据平台。对全球企业而言,大数据为从所收集数据(不管是结构化的还是非结构化的)中找到新颖可行的观点创造了大量商机。因为到最后,大数据的最大前景就是推动来自数据的、更智能的决策。而智能决策就要收集来自各类数据的观点。

HDInsight 是微软应对大数据的解决方案:

微软希望通过支持 Windows Server 和 Windows Azure 的 Hadoop 发布版,提供可移植、性能优越、安全且易部署等特性,促进 Hadoop 的应用。微软还将通过在 HDInsight 中集成 Active Directory 来增强 Hadoop 的安全性。此举将使 IT 部门能够将同样的一致性安全策略用于包括 Hadoop 集群在内的所有 IT 资产。

此外,通过与 System Center 集成,HDInsight 简化了 Hadoop 的管理,并支持 IT 部门在同一面板上管理 Hadoop 集群、SQL Server 数据库和应用程序。

基于 Hadoop 的 Windows 平台应用程序集成了如 Excel、Power View 和 PowerPivot 等微软的商业智能(BI)工具,可以很容易地分析大量的业务信息,从而创造独特的、差异化的商业价值。

为实现与 Apache Hadoop 百分之百的兼容性,微软的 Hadoop 发布版 HDInsight 是基于 Hortonworks Data Platform(HDP)构建的。因此,客户能够将其 MapReduce 作业从自己的 Windows 服务器移到云中,甚至是移到运行在 Linux 上的 Apache Hadoop 发布版中。目前还没有其他厂商提供该功能。此外,在 Windows Server 和 Azure 平台上提供这些功能,也使客户能够利用熟悉的工具(如 Excel、PowerPivot for Excel 和 Power View)轻松地从数据中抽取可行的观点。

SQL Server 如何适应这种解决方案:

在帮助企业处理大数据集方面,SQL Server 2012 与 SQL Server 2008 最重要的区别之一就是与 Hadoop 的兼容性。Hadoop 允许用户处理大量的结构化和非结构化数据并快速从中获得观点,而且,因为 Hadoop 是开源的,成本较低。Hadoop 与 SQL Server 2012 兼容的特性是微软与 Hortonworks 合作开发的,微软最近也宣布 Microsoft HDInsight Server 和 Windows Azure HDInsight Service 已经可以预览,这都使用户能够使用微软开发的 Hadoop 连接器来从数据中获得最好的观点。通过 Hive ODBC Driver 把 SQL Server 连接到 Hadoop,客户现在可以使用如 PowerPivot 和 Power View 等微软的 BI 工具在 SQL Server 2012 中分析各种类型的数据,包括非结构化数据。此外,利用 SQL Server 2012 中新的 Data Quality Services,客户可以通过将原始数据转换为适于建模的可靠且一致的数据来提高数据质量。

微软最近宣布了 Office 2013 中的一些新特性,并介绍了开发者应该如何利用这些特性来构建构建应用和处理数据的服务。不足为奇,微软自己在 Excel 正是利用这一点来提供大数据服务的:

Excel 是微软平台上支持大数据分析的主要客户端工具之一。在 Excel 2013 中,我们的主要工具是数据建模工具 PowerPivot 和数据可视化工具 Power View,而且恰好它们都构建进来了,无需额外下载。这支持各个层次的用户使用熟悉的 Excel 界面进行自助式 BI 分析。

通过 Excel 的 Hive 插件,我们的 HDInsight 服务很容易集成 Office 2013 中的 BI 工具,使用户能够用熟悉的工具轻松地分析海量的结构化或非结构化数据。

除了 Excel 之外,微软还提供了其他的大数据交互工具:BI 专业人员可以使用 BI Developer Studio 来设计 OLAP cube 或在 SQL Server Analysis Services 中设计可伸缩的 PowerPivot 模型。开发者可以继续使用 Visual Studio 来开发和测试用.NET 编写的 MapReduce 程序。最后,IT 运维人员可以使用他们目前所使用的 System Center 来管理 HDInsight 上的 Hadoop 集群。

总的说来,微软的策略看起来是要为客户使用大数据提供一种最简单的方法——扩展现有工具(如 SQL Server 和 Office 等),使之能够无缝处理新数据类型,从而允许各公司在处理新业务时能利用原有投资。

查看英文原文 Hadoop + SQL Server + Excel = Big Data Analytics

2013-01-31 04:5810605
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 149.5 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

架构师的十八般武艺:可观测性

agnostic

可观测性

详解CAN总线:CAN协议分层结构及功能

不脱发的程序猿

CAN总线 CAN协议 CAN协议分层结构及功能

阿里五位MySQL封神大佬耗17个月总结出53章性能优化法则

Geek_0c76c3

Java 数据库 开源 程序员 开发

详解CAN总线:CAN节点硬件构成方案

不脱发的程序猿

嵌入式 汽车电子 CAN总线 CAN节点硬件构成方案 CAN节点

详解CAN总线:CAN总线报文格式—数据帧

不脱发的程序猿

汽车电子 CAN总线 CAN协议 CAN总线报文格式 CAN数据帧

架构实战营模块1作业

陌生流云

架构实战营

遭不住了!Alibaba开源内网“M9”级别高并发编程全彩版进阶手册

程序知音

Java 架构 并发编程 多线程与高并发 后端技术

直冲云霄,阿里大牛耗时49天整理12W字面试手册,押题准确率直冲95%

Geek_0c76c3

Java 数据库 开源 程序员 架构

Canvas+Javascript实现点击小球的爆炸效果

Sam9029

JavaScript canvas 9月月更 小球爆炸

【编程实践】出行无忧,利用Python爬取天气预报

迷彩

爬虫 爬虫教程 9月月更 Scarpy

【编程实践】提高工作效率,避免重复且枯燥的操作,利用Python自动发送邮件

迷彩

SMTP 邮件协议 9月月更 Python邮件发送

[架构实战] 课后作业

爱学习的麦子

Shell编程学习(二)

Studying_swz

Shell 脚本 9月月更

架构实战营模块八作业

zhihai.tu

模块二

早安

极客时间架构师训练营

MyBatisPlus学习

Geek_6689b6

入门 MyBatisPlus 9月月更

OceanBase存储层代码解读(四):宏块的垃圾回收和坏块检查

OceanBase 数据库

架构师的十八般武艺:安全架构

agnostic

安全架构

评判优秀程序员标准:“高并发”,竟被一份Github万星笔记讲清楚了

Geek_0c76c3

Java 数据库 架构 开发 面经

大厂“毕业”半月,面试数十家公司,凭借这份面试总结涨获7家Offer,成功入职

程序员小毕

spring 程序员 程序人生 JVM Java 面试

详解CAN总线:标准数据帧和扩展数据帧

不脱发的程序猿

汽车电子 通信协议 CAN总线 CAN协议 标准数据帧和扩展数据帧

互联网架构师联合总结的Java面试攻略,GitHub标星30K!

程序知音

java面试 大厂面试 java架构师 后端技术 Java面试八股文

阿里最新秋招面经,腾讯/美团/字节1万道Java中高级面试题

程序知音

Java 大厂面试 后端技术 Java面试八股文 阿里面试

竟拿到阿里45K高薪offer!只因他刷了这份阿里微服务天花板手册

Geek_0c76c3

Java 数据库 开源 架构 面经

Github爆火!阿里最新发布的《高并发核心编程笔记》PDF文档

Geek_0c76c3

Java 数据库 开源 架构 开发

邓荣伟:稳定支撑每秒百万笔支付请求,支付宝数据库架构的过去、现在与未来

OceanBase 数据库

阿里内网流传的9w字图解网络(全彩版)GitHub现已下载量过百万

程序知音

Java 程序员 计算机网络 后端技术 计算机底层

全网首次公开:Java面试参考指南V3.0版(完美契合当下所有互联网公司面试需求)

Java全栈架构师

数据库 程序人生 后端 高并发 Java 面试

Shell编程学习(一)

Studying_swz

Shell 初阶 9月月更

吃透阿里大佬分享的这份Java面试神技,3个月斩获8家offer

Geek_0c76c3

Java 数据库 开源 架构 开发

信息论与编码(一)| 信源分类与数学模型

timerring

9月日更 信息熵

Hadoop + SQL Server + Excel = 大数据分析_微软_Roopesh Shenoy_InfoQ精选文章