如何 0 成本启动全员 AI 技能提升?戳> 了解详情
写点什么

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?

  • 2019-10-11
  • 本文字数:1844 字

    阅读完需:约 6 分钟

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?

本文最初发布于 KDnuggets 网站,经 KDnuggets 官方授权由 InfoQ 中文站翻译并分享。


我们确定了两类主要的数据科学技能:一类是大多数受访者所拥有的稳定技能,这一类有 13 项核心技能;另一类是大多数受访者尚未拥有但想掌握的热门 / 新兴技能。请参阅我们详细的分析。


最新的 KDnuggets 投票调查问了如下两个问题:


  1. 你目前拥有哪些技能 / 知识领域(在工作或研究中可以使用的水平)?

  2. 你想增加或提高哪些技能?


我们根据 KDnuggets 之前的一些文章和投票调查,选出了 30 项技能。


这次投票调查总共收到了超过 1500 张投票,这是一个足够大的样本,可以做出有意义的推论。平均每个投票者报告声称其拥有 10 项技能,并希望增加或者提高 6~7 项技能。


下面的图 1 显示了关键的调查结果,x 轴表示 % 已拥有技能,显示的是第一个投票问题的答案;y 轴表示的是 % 想拥有的技能,显示的是第二个投票问题的答案。每个圆形的大小与已拥有该技能的投票者的百分比成正比,而颜色取决于“想拥有 / 已有用”的比率(>1,比率越高颜色越红;<1,比率越低颜色越蓝)。



图 1. 与数据科学相关的技能,已拥有技能 vs 想增加 / 提高技能


在这种图表中,我们注意到有两个主要的集合。


图表右侧蓝色虚线矩形为第一个集合,该集合包含超过 40% 投票者所拥有的技能,以及“想要拥有 / 已经拥有”的比率小于 1。我们称之为核心数据科学技能。它们将在表 1 中列出。


表 1:核心数据科学技能,按 % 已拥有技能降序排列。


技能 % 已拥有 % 想拥有 % 想拥有 / % 已拥有
Python71.2%37.1%0.52
数据可视化69.0%25.3%0.37
批判性思维66.7%15.5%0.23
Excel66.5%4.6%0.07
交流沟通技巧65.9%16.5%0.25
机器学习64.3%41.0%0.64
统计学63.8%27.8%0.44
SQL/ 数据库代码实现57.3%16.0%0.28
业务理解57.0%22.2%0.39
数学52.6%17.5%0.33
ETL - 数据准备48.3%14.1%0.29
R45.1%19.8%0.44
Scikit-learn44.1%24.0%0.54


其中,最希望添加或提升的技能是机器学习(41%)和 Python(37%)。增长最少的是 Excel——只有 7% 的人想增加或提高他们的 Excel 技能。


图 1 左侧用红色边框标记的第二个集合,包括目前不太流行(% 已拥有技能 <30%)但正在增长的技能,“想拥有 / 已有用”的比率大于 1,请见表 2。我们将其称为热门 / 新兴数据科学技能。


表 2:热门 / 新兴数据科学技能,按“想拥有 / 已拥有”降序排列。


技能 % 已拥有 % 想拥有 % 想拥有 / % 已拥有
Pytorch7.0%29.6%4.26
Scala4.2%13.3%3.14
其他大数据工具8.9%27.4%3.08
TensorFlow19.1%46.4%2.44
Apache Spark16.0%34.6%2.16
Hadoop10.9%22.7%2.08
深度学习25.9%49.6%1.92
No-SQL 数据库14.0%23.2%1.65
自然语言处理 - 文本处理25.0%33.8%1.35
Kaggle14.5%18.4%1.27
非结构化数据22.3%27.7%1.24


有趣的是,尽管有人认为 Hadoop 正在走下坡路,但在这次投票调查中,想学习 Hadoop 的人比已经知道它的人还多,所以 Hadoop 有可能仍然会越来越受欢迎。尽管 Julia 的“想拥有 / 已拥有”的比率为 3.4,但我们仍然没有将它包括在热门 / 新兴技能中,因为只有 2% 的投票者选择了它,因此它并不具备足够的支持。


其余的技能,如 XGBoost、软件工程、Java、MATLAB、SAS 只被 10%~30% 的投票者拥有,但没有增长:“想拥有 / 已拥有”的比率小于 1。


表 3:其他数据科学技能,按 % 已拥有的百分比递减


技能 % 已拥有 % 想拥有 % 想拥有 /% 已拥有
软件工程25.7%15.2%0.59
XGBoost22.3%19.0%0.85
Java15.1%7.7%0.51
SAS12.7%7.2%0.57
MATLAB10.9%7.9%0.73
Julia2.0%6.9%3.44


小假面是关于投票调查的更多细节。图 2 按 % 已拥有进行降序排列。



图 2:KDnuggets 读者拥有的数据科学技能


图 3 显示了读者想要增加或提高的技能,以及他们所拥有的技能。



图 3:KDnuggets 读者想要增加或提高的数据科学技能(红色)和已拥有的数据科学技能(蓝色)。


我们看到,现有的和有意向的数据科学家想要添加的顶级技能是深度学习、TensorFlow、机器学习和 Python。


投票调查还询问了就业类型:


  • 行业 / 自雇:64.4%

  • 政府 / 非营利组织:7.2%

  • 学术界 / 大学:7.0%

  • 学者:14.3%

  • 其他 /NA:7.1%


区域分布为:


  • 美国 / 加拿大:37.9%

  • 欧洲:28.3%

  • 亚洲:19.3%

  • 拉丁美洲:6.1%

  • 非洲 / 中东:4.8%

  • 其他:3.5%


作者介绍:


Gregory Piatetsky-Shapiro 博士是 KDnuggets 的总裁,也是大数据、数据挖掘和数据科学领域的领军人物。他是数据挖掘和数据科学领先研究会议 KDD 的共同创始人,也是 ACM SIGKDD 的共同创始人和前任主席。他还是两家初创公司的首席科学家。


原文链接:


Which Data Science Skills are core and which are hot/emerging ones?


2019-10-11 18:242960
用户头像

发布了 376 篇内容, 共 207.3 次阅读, 收获喜欢 949 次。

关注

评论

发布
暂无评论
发现更多内容

毕业参加工作了,记住一句话,攒钱绝对靠谱

Java 程序员 后端

最新阿里Java面试题整理+进阶资料分享,看完直接收藏

Java 程序员 后端

正则表达式--只求能看懂别人写的正则表达式是什么意思

Java 程序员 后端

死锁终结者:顺序锁和轮询锁!

Java 程序员 后端

来自北京大学NOIP金牌选手yxc的常用代码模板3——搜索与图论

Java 程序员 后端

来说说缓存穿透、缓存击穿、缓存雪崩都是什么?怎么解决?

Java 程序员 后端

新年红包封面来了,3000万份红包封面来啦!到点直领!

Java 程序员 后端

最快最强?腾讯高级技术专家深入浅出整理Java性能优化全栈笔记,强了不止一点

Java 程序员 后端

最新美团滴滴Java岗虚拟机面经:2020下半年你还想不想涨薪?

Java 程序员 后端

案例教你一步步设计DDD微服务项目

Java 程序员 后端

新人一看就懂:Dubbo+Zookeeper的RPC远程调用框架demo

Java 程序员 后端

新年红包封面来了,3000万份红包封面来啦!到点直领!(1)

Java 程序员 后端

来自一位阿里朋友的组件化架构实践

Java 程序员 后端

来自北京大学NOIP金牌选手yxc的常用代码模板1——基础算法

Java 程序员 后端

数据结构之链表复习

Java 程序员 后端

杀无赦!斩了Java拦路虎之红黑树篇

Java 程序员 后端

每天5分钟吃透华为18级架构师推荐252页Docker容器技术入职华为云

Java 程序员 后端

新鲜的字节跳动、美团、B站、京东Java面经,程序员你眼馋了吗

Java 程序员 后端

毕业参加工作了,记住一句话,攒钱绝对靠谱(1)

Java 程序员 后端

月薪3K与月薪3万的程序员,差距在哪里?

Java 程序员 后端

树莓派3B+搭建OpenCV3(1)

Java 程序员 后端

树莓派3B搭建Flink集群

Java 程序员 后端

毕业三年,从小公司到大厂,先后四面阿里、小米、美团等

Java 程序员 后端

教妹学Java(二十四):一文了解 Java 中的方法

Java 程序员 后端

无锁并发框架-Disruptor的使用(二)

Java 程序员 后端

普通本科毕业一年,刷完这 1000 道 JAVA 面试题,成功逆袭上岸

Java 程序员 后端

树莓派3B+搭建OpenCV3

Java 程序员 后端

死磕18个Java8日期处理,工作必用!

Java 程序员 后端

数据结构与算法-链表

Java 程序员 后端

数据结构之栈应用

Java 程序员 后端

日志规范多重要,这篇文章告诉你!

Java 程序员 后端

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?_大数据_Gregory Piatetsky_InfoQ精选文章