写点什么

你的大数据项目使用的工具正确吗?

  • 2016-03-31
  • 本文字数:1185 字

    阅读完需:约 4 分钟

工具/产品/解决方案是数据科学家洞察数据的利器。 KDNuggets 网站对此观点进行了年度调查,来分析数据科学家在用哪些类型的工具,并提供了调查的匿名原始数据

通过主成分析(PCA)法进行降维分析

对所有的工具同时进行关系分析,常规来说,PCA 通过对大样本数据统计性质(eg, 协方差)的分析,试图用主要特征来解释关系。

分析结果:

当前分析的目标:通过一些主成分来分析 95 种工具之间的关系。最终决定以 PCA 的特征值来决定主成分的数目,这里选用了两种规则:一种是以特征值大于 1 的特征值数量来选择主成分数量;一种是画陡坡图(scree plot),通过 95 个特征值你会发现一个拐点的特征值。

特征点点陡坡图显示在第 13 和第 14 特征点时出现拐点,因此,这里选择的 13 个主成分来解释它们之间的关系,见下图。

(点击看大图)

工具分类

下面列出根据主成分析得出的 13 类工具(投票数大于 20):

  1. 大数据生态(Hadoop、Spark)和开源项目:Hadoop, HBase, Hive, Mahout, MLlib, Other Hadoop/HDFS-based tools, Pig, Scala, Spark, SQL on Hadoop tools
  2. 微软数据科学家工具:Microsoft Azure ML, Microsoft Power BI, Microsoft SQL Server, Revolution Analytics
  3. 基于 Python 的机器学习:Dataiku, H2O (0xdata), Python, scikit-learn, Theano, Vowpal Wabbit
  4. SAS 公司产品:JMP, SAS Base, SAS Enterprise Miner
  5. MATLAB、R 语言等统计工具:Gnu Octave, MATLAB, Orange, R, RapidMiner, Rattle, Weka
  6. IBM 公司产品:IBM Cognos, IBM SPSS Modeler, IBM SPSS Statistics, IBM Watson Analytics
  7. Linux 工具和 SQLang:Actian, C/C++, Perl, SQLang, Unix shell/awk/gawk
  8. 深度学习:Caffe, Pylearn2
  9. 商务智能软件:Pentaho and QlikView
  10. 数据分析平台:Datameer and Zementis
  11. Excel 和 Word 统计工具:XLSTAT for Excel
  12. 其它:Other Deep Learning tools, Other free analytics/data mining tools, Other Hadoop/HDF-based tools, Other paid analytics/data mining/data science software, Other programming languages
  13. 数据可视化:C4.5/C5.0/See5, Miner3D, Oracle Data Miner

总结

数据科学家在选择大数据、数据挖掘和数据分析工具时,更倾向于有一定生态基础的工具,这样各个工具间可以相互支持。

为了提高在大数据项目中成功的机会,选择正确的工具是非常重要的。没有一个孤立的工具能够做所有的数据分析,职业的数据专家趋向于使用不止一种相关的工具(分析中发现,数据专家平均使用 5 种数据分析工具)。你可以根据使用相关工具的数据专家来决定自己的选择。

另外一个观点是,要选择大厂的产品,比如,IBM、微软和 SAS,大品牌的产品更丰富,可以使得你的产品更容易扩展。


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-03-31 19:002659
用户头像

发布了 43 篇内容, 共 29.7 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

游戏开发者的通关之旅,华为AGC for Games带来了什么?

叶落便知秋

netty系列之:自建客户端和HTTP服务器交互

程序那些事

Java Netty 程序那些事

百分点感知智能实验室:语音识别技术发展阶段探究

百分点科技技术团队

语音识别 百分点科技 感知智能

我遇到的那些工长

escray

生活记录 8月日更

GitHub获120w+star的JDK源码剖析手册,竟出自Alibaba高管之手?

Java 架构 面试 程序人生 Alibaba

不用手机,如何让猫给你打视频电话丨日常小技

声网

物联网 目标检测 目标跟踪

区块链盲盒游戏app软件开发|盲盒游戏软件介绍

量化系统19942438797

区块链 智能合约 盲盒

跨越AI天堑时:行动代号“盘古大模型”

脑极体

项目中全局变量的灵活用法 12/100 发布文章

CodeNongXiaoW

微信开源C/C++ RPC框架PhxRPC

OpenIM

ipfs矿机是什么?ipfs矿机挖出的币能交易吗?

区块链 分布式存储 ipfs挖矿 ipfs矿机 filecoin挖矿

疫情下的人生百态

6979阿强

图计算 GraphScope 新冠

程序员应该专注技术还是转管理?

石云升

职业规划 职场经验 8月日更

AlphaFold2“登陆”北鲲云平台,云计算助力科研大放异彩

北鲲云

读书笔记 -《数据密集型应用系统设计》- 数据编码

KayTin

致远互联2021年中报:扎根协同的广阔天地,撸起袖子加油干

海比研究院

FL Studio中钢琴卷帘窗的工具的使用

懒得勤快

架构实战营模块1作业

^_^

架构实战营

webrtc 即时带宽评估器(BitrateEstimator)

webrtc developer

WebRTC

百分点大数据技术团队:BI嵌入式分析实践

百分点科技技术团队

BI 百分点科技 嵌入式分析

The Data Way Vol.3|做到最后只能删库跑路?DBA 能做的还有很多

SphereEx

数据库 开源

深入了解RocketMQ之过滤器

邱学喆

bloomfilter TAG过滤 SQL92

Tapdata Cloud 版本上新!率先支持数据校验、类型映射等6大新功能

tapdata

MySQL nosql schema

细思极恐!Alibaba新产SpringBoot深度历险(嵩山版)开源

Java 编程 架构 面试 架构师

Google官方bazel构建工具的安装

Changing Lin

8月日更

分享 10 个高星的创意项目!

程序员鱼皮

Java Python 数据库 大前端 Go 语言

算法毕业总结

Geek_Gu

架构设计-模块一

逝水流

架构

AI加持数据管理服务DAS,让数据库运维更“聪明”,DBA更轻松

华为云数据库小助手

GaussDB dba 华为云DAS 华为云数据库

新时代大视频产业的底座,视频云创变了什么?

阿里云CloudImagine

阿里云 直播技术 视频制作 视频流 视频云

融云 X-Live 系列直播启动,遇见通信的无限可能

融云 RongCloud

开发者 音视频 通信 融云 即时通信

你的大数据项目使用的工具正确吗?_语言 & 开发_侠天_InfoQ精选文章