AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

这一年来,数据科学家都用哪些算法?

  • 2017-02-02
  • 本文字数:2263 字

    阅读完需:约 7 分钟

在“数据为王”的今天,越来越多的人对数据科学产生了兴趣。数据科学家离不开算法的使用,那么,数据科学家最常用的算法,都是哪些呢?

最近,著名的资料探勘信息网站 KDnuggets 策划了十大算法调查,这次调查对数据科学家常用的算法进行排名,并发现最“产业”和最“学术”的算法,还对这些算法在过去5 年间(2011~2016)的变化,做了一番详细的介绍。

这次调查结果,是基于844 名受访者投票整理出来。

KDnuggets 总结出十大算法及其投票份额如下:

图 1:数据科学家使用的十大算法和方法。

请参阅文末的所有算法和方法的完整列表。

从调查中得知,受访者平均使用 8.1 个算法,与 2011 年的一项类似调查相比大幅提高。

用于数据分析 / 数据挖掘的 2011 年投票算法相比,我们注意到流行的算法仍然是回归算法、聚类算法、决策树和可视化。相对来说最大的增长是以 (pct2016/pct2011-1) 测定的以下算法:

  • Boosting,从 2011 年的 23.5%至 2016 年的 32.8%,同比增长 40%
  • 文本挖掘,从 2011 年的从 27.7%至 2016 年的 35.9%,同比增长 30%
  • 可视化,从 2011 年的从 38.3%至 2016 年的 48.7%,同比增长 27%
  • 时间序列分析,从 2011 年的从 29.6%至 2016 年的 37.0%,同比增长 25%
  • 异常 / 偏差检测,从 2011 年的从 16.4%至 2016 年的 19.5%,同比增长 19%
  • 集合方法,从 2011 年的从 28.3%至 2016 年的 33.6%,同比增长 19%
  • 支持向量机,从 2011 年的从 28.6% 至 2016 年的 33.6%,同比增长 18%
  • 回归算法,从 2011 年的从 57.9% 至 2016 年的 67.1%,同比增长 16%

在 2016 年最受欢迎的新算法是:

  • K- 近邻算法(K-nearest neighbors,KNN),46% 份额
  • 主成分分析(Principal Commponent Analysis,PCA),43%
  • 随机森林算法(Random Forests,RF),38%
  • 最优化算法(Optimization),24%
  • 神经网络 - 深度学习(Neural networks-Deep Learning),19%
  • 奇异值矩阵分解(Singular Value Decomposition,SVD), 16%

跌幅最大的算法分别为:

  • 关联规则(Association rules),从 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47%
  • 增量建模(Uplift modeling),从 2011 年的 4.8% 至 2016 年的 3.1%,同比下降 36%
  • 因子分析(Factor Analysis),从 2011 年的 18.6% 至 2016 年的 14.2%,同比下降 24%
  • 生存分析(Survival Analysis),从 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%

下表显示了不同算法类型的用途:监督学习、无监督学习、元分析和其他算法类型。我们排除了 NA(4.5%)和其他(3%)的算法。

表 1:按行业类型的算法使用

我们注意到,几乎所有人都在使用监督学习算法
政府和产业的数据科学家们比学生或学术界使用了更多的不同类型的算法,产业数据科学家更倾向使用元算法

接下来,我们分析深度学习的十大算法按行业类型的使用。

表 2:深度学习的十大算法按就业类型的使用
Table 2: Top 10 Algorithms + Deep Learning usage by Employment Type

为了使差异更为醒目,我们计算特定行业类型相关的平均算法使用量设计算法为 Bias(Alg,Type)=Usage(Alg,Type)/Usage(Alg,All)-1。

图 2:按行业的算法使用偏差

我们注意到产业界数据科学家更倾向使用回归算法、可视化、统计算法、随机森林算法和时间序列。政府 / 非盈利组织更倾向使用可视化、主成分分析和时间序列。学术研究人员更倾向使用主成分分析和深度学习。学生通常使用算法较少,但他们用的更多的是文本挖掘和深度学习。

接下来,我们看看代表整体 KDnuggets 访客的地区参与情况。

参与投票者的地区分布如下:

  • 北美,40%
  • 欧洲,32%
  • 亚洲 8%
  • 拉美,5.0%
  • 非洲 / 中东,3.4%
  • 澳洲 / 新西兰,2.2%

与 2011 年的调查一样,我们将产业 / 政府合并为同一个组,将学术研究人员 / 学生合并为第二组,并计算算法对产业 / 政府的“亲切度”:

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)
------------------------------- - 1
N(Ind_Gov) / N(Aca_Stu)

亲切度为 0 的算法在产业 / 政府和学术研究人员 / 学生的使用情况相同。IG 亲切度约稿表示该算法越“产业”,越低则表示越“学术”。

其中最“产业”的算法”是:

  • 增量建模(Uplift modeling),2.01
  • 异常检测(Anomaly Detection),1.61
  • 生存分析(Survival Analysis),1.39
  • 因子分析(Factor Analysis),0.83
  • 时间序列(Time series/Sequences),0.69
  • 关联规则(Association Rules),0.5

虽然增量建模又一次成为最“产业”的算法,但出乎意料的是它的使用率如此低:区区 3.1%,在这次调查中,是使用率最低的算法。

最“学术”的算法是:

  • 神经网络(Neural networks - regular),-0.35
  • 朴素贝叶斯(Naive Bayes),-0.35
  • 支持向量机(SVM),-0.24
  • 深度学习(Deep Learning),-0.19
  • 最大期望算法(EM),-0.17

下图显示了所有算法以及它们在产业界 / 学术界的亲切度:

图 3:Kdnugets 调查:数据科学家使用的流行算法:产业界 vs 学术界

下表包含了算法的详细信息,在 2016 年和 2011 年使用它们的受访者百分比调查,变化(%2016 /%2011 - 1)和行业亲切度如上所述。

表 3:KDnuggets2016 调查:数据科学家使用的算法
下表包含各个算法的详细信息:

  • N: 根据使用度排名
  • Algorithm: 算法名称
  • Type:类型。S - 监督,U - 无监督,M - 元,Z - 其他,
  • 2016 % used:2016 年调查中使用该算法的受访者比例
  • 2011 % used:2011 年调查中使用该算法的受访者比例
  • %Change:变动 (%2016 / %2011 - 1)
  • Industry Affinity:产业亲切度(上文已提到)


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-02-02 18:002534
用户头像

发布了 375 篇内容, 共 188.6 次阅读, 收获喜欢 945 次。

关注

评论

发布
暂无评论
发现更多内容

第七在线7thonline荣耀加冕 斩获“最佳数据洞察平台”与“产业互联网最具发展潜力企业”两项大奖!

第七在线

F5携手NetApp加速并简化大语言模型AI部署

科技热闻

传统身份安全的局限性

芯盾时代

身份安全 统一身份认证 零信任模型

《Programming from the Ground Up》阅读笔记:p147-p180

codists

汇编 编程人

Web 性能优化|了解 HTTP 协议后才能理解的预加载

阿里技术

性能优化 Web HTTP 用户体验 网站性能

人工智能的未来

天津汇柏科技有限公司

AI 人工智能

1688跨境代采业务用到的API接口及其使用示例

tbapi

1688代采系统 1688代采接口 1688跨境

迎接国庆旅游热潮,火山引擎数据飞轮助力景区数智化升级

字节跳动数据平台

增长 数智化转型 大数据‘’ 数据飞轮

数字化智能工厂的主要功能组成

万界星空科技

数字化 智能工厂 智能制造 万界星空科技mes MES、

文盘rust--使用 Rust 构建RAG

京东科技开发者

揭秘动态化跨端框架在鸿蒙系统下的高性能解决方案

京东科技开发者

揭秘:一键获取京东商品详情的API之旅

代码忍者

API 测试 pinduoduo API

还不知道这个原则的程序员,要小心了

禅道项目管理

程序员 软件测试 代码规范 测试人员 规范优先原则

华为云技术专家分享4大举措,助力开发者开启鸿蒙原生应用开发

华为云开发者联盟

HarmonyOS 端云协同 ArkTS 开发者、

10月才是秋招主战场!

王磊

万界星空科技MES系统在智能制造中的应用

万界星空科技

智能制造 mes 万界星空科技mes 制造业工厂

淘宝商品详情页接口_X-ISGN和WUA算法

tbapi

淘宝商品详情数据接口 淘宝API接口

红旗携“中国之路” 创汽车工业新篇章

编程猫

构建万物智联生态,“人才”与“资金”不能少

Geek_2d6073

35+IT技术同学的未来职场选择

老张

认知提升 规划 职业生涯 职场发展

京东金融APP的鸿蒙之旅:技术、挑战与实践

京东科技开发者

夜莺监控的机器支持挂载到多个业务组了

巴辉特

监控系统 运维监控 IT监控 开源监控

电商数据化运营:阿里巴巴商品详情API返回值的实际应用

技术冰糖葫芦

API 接口 API 文档 API 测试 pinduoduo API

技术解读GaussDB (for MySQL)流控机制

华为云开发者联盟

GaussDB 流控 MySQL 5.7

火山引擎边缘智能亮相“地瓜机器人开发者大会”,推动端侧大模型应用与落地

火山引擎边缘云

物联网 边缘计算 机器人 智能IoT边缘服务

线上事故风险解读之技术漏洞

巧手打字通

后端 架构设计 工程能力 线上事故 构架

技术实现方案:获取淘宝商品详情API返回值

代码忍者

API 测试 pinduoduo API

新一轮 Web3 游戏季,Final Glory成捕获全新市场红利的入口

大瞿科技

从SQL Server过渡到PostgreSQL:理解模式的差异

EquatorCoco

数据库 sql

新一轮 Web3 游戏季,Final Glory成捕获全新市场红利的入口

加密眼界

这一年来,数据科学家都用哪些算法?_语言 & 开发_刘志勇_InfoQ精选文章