10月21日,杭州云栖大会-技术&可持续发展论坛,注册有礼 了解详情
写点什么

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?

2019 年 10 月 11 日

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?

本文最初发布于 KDnuggets 网站,经 KDnuggets 官方授权由 InfoQ 中文站翻译并分享。


我们确定了两类主要的数据科学技能:一类是大多数受访者所拥有的稳定技能,这一类有 13 项核心技能;另一类是大多数受访者尚未拥有但想掌握的热门 / 新兴技能。请参阅我们详细的分析。


最新的 KDnuggets 投票调查问了如下两个问题:


  1. 你目前拥有哪些技能 / 知识领域(在工作或研究中可以使用的水平)?

  2. 你想增加或提高哪些技能?


我们根据 KDnuggets 之前的一些文章和投票调查,选出了 30 项技能。


这次投票调查总共收到了超过 1500 张投票,这是一个足够大的样本,可以做出有意义的推论。平均每个投票者报告声称其拥有 10 项技能,并希望增加或者提高 6~7 项技能。


下面的图 1 显示了关键的调查结果,x 轴表示 % 已拥有技能,显示的是第一个投票问题的答案;y 轴表示的是 % 想拥有的技能,显示的是第二个投票问题的答案。每个圆形的大小与已拥有该技能的投票者的百分比成正比,而颜色取决于“想拥有 / 已有用”的比率(>1,比率越高颜色越红;<1,比率越低颜色越蓝)。



图 1. 与数据科学相关的技能,已拥有技能 vs 想增加 / 提高技能


在这种图表中,我们注意到有两个主要的集合。


图表右侧蓝色虚线矩形为第一个集合,该集合包含超过 40% 投票者所拥有的技能,以及“想要拥有 / 已经拥有”的比率小于 1。我们称之为核心数据科学技能。它们将在表 1 中列出。


表 1:核心数据科学技能,按 % 已拥有技能降序排列。


技能 % 已拥有 % 想拥有 % 想拥有 / % 已拥有
Python71.2%37.1%0.52
数据可视化69.0%25.3%0.37
批判性思维66.7%15.5%0.23
Excel66.5%4.6%0.07
交流沟通技巧65.9%16.5%0.25
机器学习64.3%41.0%0.64
统计学63.8%27.8%0.44
SQL/ 数据库代码实现57.3%16.0%0.28
业务理解57.0%22.2%0.39
数学52.6%17.5%0.33
ETL - 数据准备48.3%14.1%0.29
R45.1%19.8%0.44
Scikit-learn44.1%24.0%0.54


其中,最希望添加或提升的技能是机器学习(41%)和 Python(37%)。增长最少的是 Excel——只有 7% 的人想增加或提高他们的 Excel 技能。


图 1 左侧用红色边框标记的第二个集合,包括目前不太流行(% 已拥有技能 <30%)但正在增长的技能,“想拥有 / 已有用”的比率大于 1,请见表 2。我们将其称为热门 / 新兴数据科学技能。


表 2:热门 / 新兴数据科学技能,按“想拥有 / 已拥有”降序排列。


技能 % 已拥有 % 想拥有 % 想拥有 / % 已拥有
Pytorch7.0%29.6%4.26
Scala4.2%13.3%3.14
其他大数据工具8.9%27.4%3.08
TensorFlow19.1%46.4%2.44
Apache Spark16.0%34.6%2.16
Hadoop10.9%22.7%2.08
深度学习25.9%49.6%1.92
No-SQL 数据库14.0%23.2%1.65
自然语言处理 - 文本处理25.0%33.8%1.35
Kaggle14.5%18.4%1.27
非结构化数据22.3%27.7%1.24


有趣的是,尽管有人认为 Hadoop 正在走下坡路,但在这次投票调查中,想学习 Hadoop 的人比已经知道它的人还多,所以 Hadoop 有可能仍然会越来越受欢迎。尽管 Julia 的“想拥有 / 已拥有”的比率为 3.4,但我们仍然没有将它包括在热门 / 新兴技能中,因为只有 2% 的投票者选择了它,因此它并不具备足够的支持。


其余的技能,如 XGBoost、软件工程、Java、MATLAB、SAS 只被 10%~30% 的投票者拥有,但没有增长:“想拥有 / 已拥有”的比率小于 1。


表 3:其他数据科学技能,按 % 已拥有的百分比递减


技能 % 已拥有 % 想拥有 % 想拥有 /% 已拥有
软件工程25.7%15.2%0.59
XGBoost22.3%19.0%0.85
Java15.1%7.7%0.51
SAS12.7%7.2%0.57
MATLAB10.9%7.9%0.73
Julia2.0%6.9%3.44


小假面是关于投票调查的更多细节。图 2 按 % 已拥有进行降序排列。



图 2:KDnuggets 读者拥有的数据科学技能


图 3 显示了读者想要增加或提高的技能,以及他们所拥有的技能。



图 3:KDnuggets 读者想要增加或提高的数据科学技能(红色)和已拥有的数据科学技能(蓝色)。


我们看到,现有的和有意向的数据科学家想要添加的顶级技能是深度学习、TensorFlow、机器学习和 Python。


投票调查还询问了就业类型:


  • 行业 / 自雇:64.4%

  • 政府 / 非营利组织:7.2%

  • 学术界 / 大学:7.0%

  • 学者:14.3%

  • 其他 /NA:7.1%


区域分布为:


  • 美国 / 加拿大:37.9%

  • 欧洲:28.3%

  • 亚洲:19.3%

  • 拉丁美洲:6.1%

  • 非洲 / 中东:4.8%

  • 其他:3.5%


作者介绍:


Gregory Piatetsky-Shapiro 博士是 KDnuggets 的总裁,也是大数据、数据挖掘和数据科学领域的领军人物。他是数据挖掘和数据科学领先研究会议 KDD 的共同创始人,也是 ACM SIGKDD 的共同创始人和前任主席。他还是两家初创公司的首席科学家。


原文链接:


Which Data Science Skills are core and which are hot/emerging ones?


2019 年 10 月 11 日 18:242206
用户头像

发布了 339 篇内容, 共 131.6 次阅读, 收获喜欢 860 次。

关注

评论

发布
暂无评论
发现更多内容

FIL分币平台|FIL算力系统软件开发技术

量化系统19942438797

#区块链# fil币

看完字节大佬的算法刷题宝典,我直接手撕了500道算法算法题

Java~~~

Java 面试 算法 二叉树 架构师

一个弱鸡管理者如何带领一支牛逼的队伍?

弱鸡管理者

安全 技术人 创新 技术人应知的创新思维模型 管理经验

阿里首席官珍藏,SpringCloud精通日记,血汗全在这了

Java~~~

Java 面试 微服务 Spring Cloud 架构师

Python代码阅读(第4篇):过滤掉列表中的唯一值

Felix

Python 编程 Code Programing 阅读代码

阿里云-云开发平台入门篇——静态网站的全生命周期实战

若尘

阿里云 8月日更

防止数据丢失和减轻勒索软件攻击的 5 种方法

九河云安全

不愧为京东内部Spring Boot全解笔记,真的是把精髓全总结出来了

Java~~~

Java 面试 Spring Boot 架构师 京东

Kubernetes配置热更新的两种方式

普普通通程序员

九大核心专题,630页内容,熬夜23天吃透,我收割了3个大厂offer

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

普通大专生:Java工作难找,想问问那些拿到大厂offer的大专生

互联网架构师小马

单点登录(Single Sign On)解决方案

Java技术那些事

Java 程序员 计算机 单点登录 8月日更

632页!我熬夜读完这份“高分宝典”,竟4面拿下字节跳动offer

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

面试阿里P6,过关斩将直通2面,结果3面找了个架构师来吊打我?

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

Serverless 全能选手,再添一“金”

Serverless Devs

Serverless 互联网 云原生

如何保存数据并更快地从勒索软件攻击中恢复

九河云安全

历经30天,说说我的支付宝4面+美团4面+拼多多四面,侥幸全获Offer

Crud的程序员

Java 架构 编程语言

三面阿里被挂,竟获内推名额,历经5面拿下口碑offer(Java后台)

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

限12小时删!白嫖对标阿里P5—P8的Java学习路线+大厂刷题秘籍

Java架构追梦

Java 阿里巴巴 架构 面试

模块4作业

gevin

架构实战营

50 亿观众的 “云上奥运”,顶级媒体背后的数智化力量

阿里云视频云

阿里云 直播技术 视频制作 视频云 奥运

这本“算法宝典”讲得透彻,完全掌握后,我竟拿到字节跳动offer

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

在阿里晋升3次,5年拿下P8岗位,这份pdf记录了我的整个成长过程

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

百度智能云遇到三一重机,工程机械维保有了新方案

百度大脑

人工智能 三一重工

iOS开发-为 iOS 编写 Kotlin Parcelize 编译器插件

iOSer

ios 编译器 编译器原理 iOS 知识体系 Kotlin Parcelize

还不懂「JVM-类加载」么?面试官又在问了!

普普通通程序员

【Vue2.x 源码学习】第二十七篇 - Vue 生命周期的实现

Brave

源码 vue2 8月日更

Spark 架构剖析:一个任务是怎么运行的

程序员赤小豆

大数据 spark 架构

2021第二届云原生编程挑战赛正式启动,抢先报名!

阿里巴巴云原生

阿里云 Serverless RocketMQ 云原生 dubbo

基于香港服务器的应用开发中测试数据管理的 3 个最佳实践

九河云安全

去中心化市值管理机器人开发|去中心化做市机器人

橙子区块链l53o56oloo3

量化交易机器人系统开发 市值管理机器人系统开发 去中心化市值管理机器人

数据cool谈(第1期)数据库寻路,开源有态度

数据cool谈(第1期)数据库寻路,开源有态度

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?-InfoQ