写点什么

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?

  • 2019-10-11
  • 本文字数:1844 字

    阅读完需:约 6 分钟

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?

本文最初发布于 KDnuggets 网站,经 KDnuggets 官方授权由 InfoQ 中文站翻译并分享。


我们确定了两类主要的数据科学技能:一类是大多数受访者所拥有的稳定技能,这一类有 13 项核心技能;另一类是大多数受访者尚未拥有但想掌握的热门 / 新兴技能。请参阅我们详细的分析。


最新的 KDnuggets 投票调查问了如下两个问题:


  1. 你目前拥有哪些技能 / 知识领域(在工作或研究中可以使用的水平)?

  2. 你想增加或提高哪些技能?


我们根据 KDnuggets 之前的一些文章和投票调查,选出了 30 项技能。


这次投票调查总共收到了超过 1500 张投票,这是一个足够大的样本,可以做出有意义的推论。平均每个投票者报告声称其拥有 10 项技能,并希望增加或者提高 6~7 项技能。


下面的图 1 显示了关键的调查结果,x 轴表示 % 已拥有技能,显示的是第一个投票问题的答案;y 轴表示的是 % 想拥有的技能,显示的是第二个投票问题的答案。每个圆形的大小与已拥有该技能的投票者的百分比成正比,而颜色取决于“想拥有 / 已有用”的比率(>1,比率越高颜色越红;<1,比率越低颜色越蓝)。



图 1. 与数据科学相关的技能,已拥有技能 vs 想增加 / 提高技能


在这种图表中,我们注意到有两个主要的集合。


图表右侧蓝色虚线矩形为第一个集合,该集合包含超过 40% 投票者所拥有的技能,以及“想要拥有 / 已经拥有”的比率小于 1。我们称之为核心数据科学技能。它们将在表 1 中列出。


表 1:核心数据科学技能,按 % 已拥有技能降序排列。


技能 % 已拥有 % 想拥有 % 想拥有 / % 已拥有
Python71.2%37.1%0.52
数据可视化69.0%25.3%0.37
批判性思维66.7%15.5%0.23
Excel66.5%4.6%0.07
交流沟通技巧65.9%16.5%0.25
机器学习64.3%41.0%0.64
统计学63.8%27.8%0.44
SQL/ 数据库代码实现57.3%16.0%0.28
业务理解57.0%22.2%0.39
数学52.6%17.5%0.33
ETL - 数据准备48.3%14.1%0.29
R45.1%19.8%0.44
Scikit-learn44.1%24.0%0.54


其中,最希望添加或提升的技能是机器学习(41%)和 Python(37%)。增长最少的是 Excel——只有 7% 的人想增加或提高他们的 Excel 技能。


图 1 左侧用红色边框标记的第二个集合,包括目前不太流行(% 已拥有技能 <30%)但正在增长的技能,“想拥有 / 已有用”的比率大于 1,请见表 2。我们将其称为热门 / 新兴数据科学技能。


表 2:热门 / 新兴数据科学技能,按“想拥有 / 已拥有”降序排列。


技能 % 已拥有 % 想拥有 % 想拥有 / % 已拥有
Pytorch7.0%29.6%4.26
Scala4.2%13.3%3.14
其他大数据工具8.9%27.4%3.08
TensorFlow19.1%46.4%2.44
Apache Spark16.0%34.6%2.16
Hadoop10.9%22.7%2.08
深度学习25.9%49.6%1.92
No-SQL 数据库14.0%23.2%1.65
自然语言处理 - 文本处理25.0%33.8%1.35
Kaggle14.5%18.4%1.27
非结构化数据22.3%27.7%1.24


有趣的是,尽管有人认为 Hadoop 正在走下坡路,但在这次投票调查中,想学习 Hadoop 的人比已经知道它的人还多,所以 Hadoop 有可能仍然会越来越受欢迎。尽管 Julia 的“想拥有 / 已拥有”的比率为 3.4,但我们仍然没有将它包括在热门 / 新兴技能中,因为只有 2% 的投票者选择了它,因此它并不具备足够的支持。


其余的技能,如 XGBoost、软件工程、Java、MATLAB、SAS 只被 10%~30% 的投票者拥有,但没有增长:“想拥有 / 已拥有”的比率小于 1。


表 3:其他数据科学技能,按 % 已拥有的百分比递减


技能 % 已拥有 % 想拥有 % 想拥有 /% 已拥有
软件工程25.7%15.2%0.59
XGBoost22.3%19.0%0.85
Java15.1%7.7%0.51
SAS12.7%7.2%0.57
MATLAB10.9%7.9%0.73
Julia2.0%6.9%3.44


小假面是关于投票调查的更多细节。图 2 按 % 已拥有进行降序排列。



图 2:KDnuggets 读者拥有的数据科学技能


图 3 显示了读者想要增加或提高的技能,以及他们所拥有的技能。



图 3:KDnuggets 读者想要增加或提高的数据科学技能(红色)和已拥有的数据科学技能(蓝色)。


我们看到,现有的和有意向的数据科学家想要添加的顶级技能是深度学习、TensorFlow、机器学习和 Python。


投票调查还询问了就业类型:


  • 行业 / 自雇:64.4%

  • 政府 / 非营利组织:7.2%

  • 学术界 / 大学:7.0%

  • 学者:14.3%

  • 其他 /NA:7.1%


区域分布为:


  • 美国 / 加拿大:37.9%

  • 欧洲:28.3%

  • 亚洲:19.3%

  • 拉丁美洲:6.1%

  • 非洲 / 中东:4.8%

  • 其他:3.5%


作者介绍:


Gregory Piatetsky-Shapiro 博士是 KDnuggets 的总裁,也是大数据、数据挖掘和数据科学领域的领军人物。他是数据挖掘和数据科学领先研究会议 KDD 的共同创始人,也是 ACM SIGKDD 的共同创始人和前任主席。他还是两家初创公司的首席科学家。


原文链接:


Which Data Science Skills are core and which are hot/emerging ones?


2019-10-11 18:242834
用户头像

发布了 375 篇内容, 共 196.6 次阅读, 收获喜欢 947 次。

关注

评论

发布
暂无评论
发现更多内容

中高级Java面试中你不得不会的知识点,附详细答案

JVM调优资料

Java 程序员 后端

CIS Kubernetes 基线测试

greatersecurity

SpringBoot使用Junit5

Rubble

springboot JUnit 8月日更

字节三面+微信四面+PayPal四面,大厂面经分享

Java 程序员 架构 面试 计算机

模块九毕设

c

架构实战营

Hudi自带工具DeltaStreamer的实时入湖最佳实践

华为云开发者联盟

大数据 Hudi

synchronized 加锁 this 和 class 的区别!

王磊

Java 并发 8月日更

为什么大公司一定要使用微服务?神操作!

JVM调优资料

Java 程序员 后端

学会这十招,轻松搜索github优质项目

Java架构师迁哥

中高级Java大厂高频面试题,已开源下载

JVM调优资料

Java 程序员 后端

为什么@Value可以获取配置中心的值?年薪超过80万!

JVM调优资料

Java 程序员 后端

五面阿里拿下飞猪事业部offer,帮你突破瓶颈

JVM调优资料

Java 程序员 后端

多数元素

Memorys

Java 面试 算法

Nginx 内存池似懂非懂?一文带你看清高性能服务器内存池

Linux服务器开发

nginx Linux服务器开发 Linux后台开发 高性能服务器 内存池

为什么spring能最好地改变Java?成功跳槽阿里!

JVM调优资料

Java 程序员 后端

肝到头秃!阿里爆款的顶配版Spring Security笔记

Java spring 程序员 架构 计算机

三面拼多多,一篇文章帮你解答

JVM调优资料

Java 程序员 后端

Apache ShardingSphere 元数据加载剖析

SphereEx

数据库 开源

五分钟搞懂MySQL主从复制原理,附带学习经验

JVM调优资料

Java 程序员 后端

Java线程安全-JVM角度解析

程序员阿杜

Java JVM 多线程 并发 8月日更

中国首位 K8s ingress-nginx reviewer 同时提名成为 Apache APISIX committer

API7.ai 技术团队

开源 Kubernetes 采访 APISIX

书单 | 7月畅销新书情报,看谁是最大黑马

博文视点Broadview

开发者进阶宝典,HarmonyOS 职业认证全奉上

科技汇

京东面试真题解析,帮你解决95%以上的问题!

JVM调优资料

Java 程序员 后端

【共识专栏】共识的分类(下)

趣链科技

区块链 共识机制 共识算法 共识分类

图片风格迁移:基于实例缓解细节丢失、人脸风格化失败问题

华为云开发者联盟

神经网络 风格 实例 风格迁移 图像翻译

五年Java开发者小米、阿里面经,附相关架构及资料

JVM调优资料

Java 程序员 后端

DBA:这有一份对接NBU备份故障排除指南,请查收!

华为云开发者联盟

故障 DWS 备份 NBU NetBackup

是谁,在暗中观察

skow

Java 后端 Java设计模式 8月日更

【Vue2.x 源码学习】第二十三篇 - 依赖收集 - 视图更新部分

Brave

源码 vue2 8月日更

MySQL不能没有字符串函数,就像西方不能失去耶路撒冷

北游学Java

Java MySQL 数据库

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?_大数据_Gregory Piatetsky_InfoQ精选文章