把握行业变革关键节点,12 月 19 日 - 20 日,AICon北京站即将重磅启幕! 了解详情
写点什么

你的大数据项目使用的工具正确吗?

  • 2016-03-31
  • 本文字数:1185 字

    阅读完需:约 4 分钟

工具/产品/解决方案是数据科学家洞察数据的利器。 KDNuggets 网站对此观点进行了年度调查,来分析数据科学家在用哪些类型的工具,并提供了调查的匿名原始数据

通过主成分析(PCA)法进行降维分析

对所有的工具同时进行关系分析,常规来说,PCA 通过对大样本数据统计性质(eg, 协方差)的分析,试图用主要特征来解释关系。

分析结果:

当前分析的目标:通过一些主成分来分析 95 种工具之间的关系。最终决定以 PCA 的特征值来决定主成分的数目,这里选用了两种规则:一种是以特征值大于 1 的特征值数量来选择主成分数量;一种是画陡坡图(scree plot),通过 95 个特征值你会发现一个拐点的特征值。

特征点点陡坡图显示在第 13 和第 14 特征点时出现拐点,因此,这里选择的 13 个主成分来解释它们之间的关系,见下图。

(点击看大图)

工具分类

下面列出根据主成分析得出的 13 类工具(投票数大于 20):

  1. 大数据生态(Hadoop、Spark)和开源项目:Hadoop, HBase, Hive, Mahout, MLlib, Other Hadoop/HDFS-based tools, Pig, Scala, Spark, SQL on Hadoop tools
  2. 微软数据科学家工具:Microsoft Azure ML, Microsoft Power BI, Microsoft SQL Server, Revolution Analytics
  3. 基于 Python 的机器学习:Dataiku, H2O (0xdata), Python, scikit-learn, Theano, Vowpal Wabbit
  4. SAS 公司产品:JMP, SAS Base, SAS Enterprise Miner
  5. MATLAB、R 语言等统计工具:Gnu Octave, MATLAB, Orange, R, RapidMiner, Rattle, Weka
  6. IBM 公司产品:IBM Cognos, IBM SPSS Modeler, IBM SPSS Statistics, IBM Watson Analytics
  7. Linux 工具和 SQLang:Actian, C/C++, Perl, SQLang, Unix shell/awk/gawk
  8. 深度学习:Caffe, Pylearn2
  9. 商务智能软件:Pentaho and QlikView
  10. 数据分析平台:Datameer and Zementis
  11. Excel 和 Word 统计工具:XLSTAT for Excel
  12. 其它:Other Deep Learning tools, Other free analytics/data mining tools, Other Hadoop/HDF-based tools, Other paid analytics/data mining/data science software, Other programming languages
  13. 数据可视化:C4.5/C5.0/See5, Miner3D, Oracle Data Miner

总结

数据科学家在选择大数据、数据挖掘和数据分析工具时,更倾向于有一定生态基础的工具,这样各个工具间可以相互支持。

为了提高在大数据项目中成功的机会,选择正确的工具是非常重要的。没有一个孤立的工具能够做所有的数据分析,职业的数据专家趋向于使用不止一种相关的工具(分析中发现,数据专家平均使用 5 种数据分析工具)。你可以根据使用相关工具的数据专家来决定自己的选择。

另外一个观点是,要选择大厂的产品,比如,IBM、微软和 SAS,大品牌的产品更丰富,可以使得你的产品更容易扩展。


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-03-31 19:002965
用户头像

发布了 43 篇内容, 共 31.3 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

【Java入门】String,StringBuffer和StringBuilder

Albert

Java 七日更

【STL 源码剖析】浅谈 STL 迭代器与 traits 编程技法

程序员贺同学

c++ 后端 迭代器模式 源码剖析 stl

程序员告诉你:C/C++后台开发需要学习哪些技能书

赖猫

c++ Linux 后台开发

第九周-总结

jizhi7

TypeScript | 第一章:环境搭建及基础数据类型

梁龙先森

typescript 大前端 七日更

今天发的被删了,不是我没写

lidaobing

28天写作

我们该如何正确的中断一个线程的执行??

冰河

并发编程 多线程 高并发 中断线程 签约计划第二季

架构师训练营第十一周作业

文智

极客大学架构师训练营

还在用ELK? 是时候了解一下轻量化日志服务Loki了

京东科技开发者

DevOps 云原生 日志监控

创业感悟 | 2021是继续打工还是选择创业?

程序员潘Sir

创业

Docker

云淡风轻

互联网已经干得很好的事情,不应该是区块链干的

CECBC

区块链 互联网

如何守护数据安全? 这里有一份RDS灾备方案为你支招

京东科技开发者

数据库 云数据库

学习总结-week13

张荣召

余额和核心信息数据安全分享

冬天的秘密

加密 防篡改 数据隐私

权限系统的基本概念和架构

程序那些事

权限系统 程序那些事 SSO 权限架构 权限认证

第九周-作业

jizhi7

深度剖析原理!2020年Android网络编程总结篇,已开源

欢喜学安卓

android 程序员 面试 移动开发

不讲码德!坏味道偷袭我这个老码农

爱笑的架构师

Java 代码审查 代码坏味道 代码规范 七日更

甲方日常 71

句子

工作 随笔杂谈 日常

66把锁的门禁系统,告诉你区块链的特点

CECBC

区块链

架构师 3 期 3 班 -week5- 总结

zbest

总结 week5

生产环境全链路压测建设历程 16:淘宝网高可用历程的总结

数列科技杨德华

全链路压测 七日更

架构师 3 期 3 班 -week5- 作业

zbest

作业 week5

十日谈:我的 2020

escray

2020 七日更 十日谈

欧盟推出新数字法案,会是一场“锄强扶弱”的数字监管变革吗?

脑极体

DBA 的效率加速器——CloudQuery v1.3.0 上线!

BinTools图尔兹

数据库 运维 开发 dba

第13周

袭望

Android知识体系大纲!Android平台HTTPS抓包解决方案及问题分析,年薪50W

欢喜学安卓

android 程序员 面试 移动开发

阿里P8手把手教你!微信小程序的事件处理,安卓系列学习进阶视频

欢喜学安卓

android 程序员 面试 移动开发

如何坚持做一件事情

熊斌

个人成长 七日更

你的大数据项目使用的工具正确吗?_语言 & 开发_侠天_InfoQ精选文章