写点什么

你的大数据项目使用的工具正确吗?

  • 2016-03-31
  • 本文字数:1185 字

    阅读完需:约 4 分钟

工具/产品/解决方案是数据科学家洞察数据的利器。 KDNuggets 网站对此观点进行了年度调查,来分析数据科学家在用哪些类型的工具,并提供了调查的匿名原始数据

通过主成分析(PCA)法进行降维分析

对所有的工具同时进行关系分析,常规来说,PCA 通过对大样本数据统计性质(eg, 协方差)的分析,试图用主要特征来解释关系。

分析结果:

当前分析的目标:通过一些主成分来分析 95 种工具之间的关系。最终决定以 PCA 的特征值来决定主成分的数目,这里选用了两种规则:一种是以特征值大于 1 的特征值数量来选择主成分数量;一种是画陡坡图(scree plot),通过 95 个特征值你会发现一个拐点的特征值。

特征点点陡坡图显示在第 13 和第 14 特征点时出现拐点,因此,这里选择的 13 个主成分来解释它们之间的关系,见下图。

(点击看大图)

工具分类

下面列出根据主成分析得出的 13 类工具(投票数大于 20):

  1. 大数据生态(Hadoop、Spark)和开源项目:Hadoop, HBase, Hive, Mahout, MLlib, Other Hadoop/HDFS-based tools, Pig, Scala, Spark, SQL on Hadoop tools
  2. 微软数据科学家工具:Microsoft Azure ML, Microsoft Power BI, Microsoft SQL Server, Revolution Analytics
  3. 基于 Python 的机器学习:Dataiku, H2O (0xdata), Python, scikit-learn, Theano, Vowpal Wabbit
  4. SAS 公司产品:JMP, SAS Base, SAS Enterprise Miner
  5. MATLAB、R 语言等统计工具:Gnu Octave, MATLAB, Orange, R, RapidMiner, Rattle, Weka
  6. IBM 公司产品:IBM Cognos, IBM SPSS Modeler, IBM SPSS Statistics, IBM Watson Analytics
  7. Linux 工具和 SQLang:Actian, C/C++, Perl, SQLang, Unix shell/awk/gawk
  8. 深度学习:Caffe, Pylearn2
  9. 商务智能软件:Pentaho and QlikView
  10. 数据分析平台:Datameer and Zementis
  11. Excel 和 Word 统计工具:XLSTAT for Excel
  12. 其它:Other Deep Learning tools, Other free analytics/data mining tools, Other Hadoop/HDF-based tools, Other paid analytics/data mining/data science software, Other programming languages
  13. 数据可视化:C4.5/C5.0/See5, Miner3D, Oracle Data Miner

总结

数据科学家在选择大数据、数据挖掘和数据分析工具时,更倾向于有一定生态基础的工具,这样各个工具间可以相互支持。

为了提高在大数据项目中成功的机会,选择正确的工具是非常重要的。没有一个孤立的工具能够做所有的数据分析,职业的数据专家趋向于使用不止一种相关的工具(分析中发现,数据专家平均使用 5 种数据分析工具)。你可以根据使用相关工具的数据专家来决定自己的选择。

另外一个观点是,要选择大厂的产品,比如,IBM、微软和 SAS,大品牌的产品更丰富,可以使得你的产品更容易扩展。


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-03-31 19:002365
用户头像

发布了 43 篇内容, 共 27.6 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

为稳外贸保驾护航 区块链交易平台显身手

CECBC

区块链 银行 福费廷

透彻理解AQS源码分析系列之AQS基础二

InfoQ_d2212957090d

区块链技术应用于链接智慧医疗

CECBC

区块链 社会保险 智能医疗

智能商业时代的思考(一)从在线化到网络化

刘旭东

拼多多 淘宝 智能商业 网络协同

怎么向女朋友解释什么叫区块链?

艾小仙

比特币 区块链 以太坊 defi

一点思考|工作十几年了,竟从未用过do-while!

王磊

Java

职场求生攻略答疑篇之 3 —— 数据是土地

臧萌

数据 职场成长

拥抱K8S系列-04-基于docker部署更多应用

张无忌

Docker 标准化 vsftpd

宁波新基建之路 基于制造优势破题智慧发展

CECBC

新基建

深入理解JVM垃圾回收机制 - GC Roots枚举

SkyeDance

GC Roots枚举 安全点 安全区域 OopMap

Elasticsearch之mapping

北漂码农有话说

人生革命由自律发起

胡迪伦

自学编程 拖延症 懒惰 死循环

为什么Java二维数组不用指定列的长度

Rayjun

Java 数组

拥抱K8S系列-05-基于docker部署面临的问题

张无忌

Docker 运维

SpringBoot 缓存之常用注解

hepingfly

Java 缓存 springboot 注解

2020-09-03-第十三周学习总结

路易斯李李李

ARTS Week15

时之虫

ARTS 打卡计划

首个数字银行卡明年发行,广州出台区块链措施支持大湾区

CECBC

区块链 金融科技 社会

Google鼓励的13条代码审查标准 [建议收藏]

简爱W

云原生 go-zero 微服务框架

万俊峰Kevin

微服务 microservice go-zero Go 语言

甲方日常 8

句子

工作 随笔杂谈 日常

阿里巴巴发布国内首个公益区块链标准 用技术让公益公开透明

CECBC

区块链 公益

Flink从保存点启动应用-18

小知识点

scala 大数据 flink

java安全编码指南之:声明和初始化

程序那些事

安全编码 java安全编码 编码指南 对象初始化

2020-09-03-第十三周作业

路易斯李李李

给大家介绍下,这是我的流程图软件 —— draw.io

程序员小航

工具 流程图 draw.io drawio-desktop 画图软件

妈妈,今天您几点下班?

脑极体

【MySQL】我这样分析MySQL中的事务,面试官对我刮目相看!!

冰河

MySQL 面试 事务 隔离级别 冰河

oeasy教您玩转linux010206toilet

o

如何将VSCode变成绿色版本

lmymirror

vscode 教程

商业通识 : 商业为什么能进步?

Walker

学习 得到 个人成长 商业

你的大数据项目使用的工具正确吗?_语言 & 开发_侠天_InfoQ精选文章