写点什么

你的大数据项目使用的工具正确吗?

  • 2016-03-31
  • 本文字数:1185 字

    阅读完需:约 4 分钟

工具/产品/解决方案是数据科学家洞察数据的利器。 KDNuggets 网站对此观点进行了年度调查,来分析数据科学家在用哪些类型的工具,并提供了调查的匿名原始数据

通过主成分析(PCA)法进行降维分析

对所有的工具同时进行关系分析,常规来说,PCA 通过对大样本数据统计性质(eg, 协方差)的分析,试图用主要特征来解释关系。

分析结果:

当前分析的目标:通过一些主成分来分析 95 种工具之间的关系。最终决定以 PCA 的特征值来决定主成分的数目,这里选用了两种规则:一种是以特征值大于 1 的特征值数量来选择主成分数量;一种是画陡坡图(scree plot),通过 95 个特征值你会发现一个拐点的特征值。

特征点点陡坡图显示在第 13 和第 14 特征点时出现拐点,因此,这里选择的 13 个主成分来解释它们之间的关系,见下图。

(点击看大图)

工具分类

下面列出根据主成分析得出的 13 类工具(投票数大于 20):

  1. 大数据生态(Hadoop、Spark)和开源项目:Hadoop, HBase, Hive, Mahout, MLlib, Other Hadoop/HDFS-based tools, Pig, Scala, Spark, SQL on Hadoop tools
  2. 微软数据科学家工具:Microsoft Azure ML, Microsoft Power BI, Microsoft SQL Server, Revolution Analytics
  3. 基于 Python 的机器学习:Dataiku, H2O (0xdata), Python, scikit-learn, Theano, Vowpal Wabbit
  4. SAS 公司产品:JMP, SAS Base, SAS Enterprise Miner
  5. MATLAB、R 语言等统计工具:Gnu Octave, MATLAB, Orange, R, RapidMiner, Rattle, Weka
  6. IBM 公司产品:IBM Cognos, IBM SPSS Modeler, IBM SPSS Statistics, IBM Watson Analytics
  7. Linux 工具和 SQLang:Actian, C/C++, Perl, SQLang, Unix shell/awk/gawk
  8. 深度学习:Caffe, Pylearn2
  9. 商务智能软件:Pentaho and QlikView
  10. 数据分析平台:Datameer and Zementis
  11. Excel 和 Word 统计工具:XLSTAT for Excel
  12. 其它:Other Deep Learning tools, Other free analytics/data mining tools, Other Hadoop/HDF-based tools, Other paid analytics/data mining/data science software, Other programming languages
  13. 数据可视化:C4.5/C5.0/See5, Miner3D, Oracle Data Miner

总结

数据科学家在选择大数据、数据挖掘和数据分析工具时,更倾向于有一定生态基础的工具,这样各个工具间可以相互支持。

为了提高在大数据项目中成功的机会,选择正确的工具是非常重要的。没有一个孤立的工具能够做所有的数据分析,职业的数据专家趋向于使用不止一种相关的工具(分析中发现,数据专家平均使用 5 种数据分析工具)。你可以根据使用相关工具的数据专家来决定自己的选择。

另外一个观点是,要选择大厂的产品,比如,IBM、微软和 SAS,大品牌的产品更丰富,可以使得你的产品更容易扩展。


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-03-31 19:002954
用户头像

发布了 43 篇内容, 共 31.2 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

常用 CSS 代码片段集合,建议收藏

南城FE

CSS 前端 CSS语法 7月月更

我,AI博士生,在线众筹研究主题

OneFlow

研究

阿里云技术专家杨泽强:弹性计算云上可观测能力构建

阿里云弹性计算

DevOps 可观测性 CI/CD metrics

即刻报名|如何降低云上数据分析成本?

Kyligence

数据分析 智能多维数据库

源启数字化:既有模式,还是开源创新?|砺夏行动

OneFlow

活动

执掌英国工程技术学会13载,范纳杰正式退休

E科讯

LeetCode-94. 二叉树的中序遍历(java)

bug菌

Leet Code 7月月更

Qt|控制QScrollBar显示位置

中国好公民st

qt 7月月更

数仓基本概念解析

五分钟学大数据

数据仓库 7月月更

特斯拉为何使用.NET Core技术框架?

博文视点Broadview

P9力荐!阿里巴巴最新出品776页JDK源码+并发核心原理解析小册

程序员小毕

Java 程序员 面试 程序人生 jdk源码

行业分析| 物流对讲

anyRTC开发者

人工智能 音视频 物流 调度 快对讲

Wallys/industrial Wireless AP/IPQ6018,IPQ4019,IPQ4029,802.11ax,802.11ac,outdoor ap

wallys-wifi6

博物馆数字化——数字藏品app开发

开源直播系统源码

区块链数字藏品 数字藏品软件开发

高度关注!2022 开放原子开源峰会最新议程一览

kk-OSC

开源 开放原子全球开源峰会

执掌英国工程技术学会 13 载,范纳杰正式退休

E科讯

git clone出错--必看贴

坚果

git Mac git 学习 7月月更

wallys/industrial Wireless AP/IPQ4019 IPQ4029 ,802.11ac /VSSupport IPQ6018 IPQ4019 IPQ4029 802.11ax 802.11ac

wallys-wifi6

wallys/industrial Wireless AP/industrial Wireless AP

wallys-wifi6

IPQ4019/IPQ4029

java零基础入门-java8新特性(中篇)

喵手

Java 7月月更

Java RMI

沃德

Java 程序员 7月月更

有一说一,要搞明白优惠券架构是如何演化的,只需10张图!

程序员小毕

Java 编程 程序员 架构 面试

SAP ABAP 解析 excel 文件的函数 TEXT_CONVERT_XLS_TO_SAP 单步执行分析

汪子熙

Cloud SAP abap Netweaver 7月月更

ES6 类聊 JavaScript 设计模式之结构型模式

devpoint

JavaScript 设计模式 桥接模式 适配器模式 7月月更

云原生 SIG 直播:关于 cni 与 hybridnet 核心技术分享 | 第 35 期

OpenAnolis小助手

开源 云原生 直播 sig 龙蜥大讲堂

【LeetCode】使数组可以被整除的最少删除次数Java题解

Albert

LeetCode 7月月更

数字化时代,如何利用区块链技术赋能乳制品企业?

旺链科技

区块链 产业区块链 乳制品

你的大数据项目使用的工具正确吗?_语言 & 开发_侠天_InfoQ精选文章