2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?

  • 2019-10-11
  • 本文字数:1844 字

    阅读完需:约 6 分钟

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?

本文最初发布于 KDnuggets 网站,经 KDnuggets 官方授权由 InfoQ 中文站翻译并分享。


我们确定了两类主要的数据科学技能:一类是大多数受访者所拥有的稳定技能,这一类有 13 项核心技能;另一类是大多数受访者尚未拥有但想掌握的热门 / 新兴技能。请参阅我们详细的分析。


最新的 KDnuggets 投票调查问了如下两个问题:


  1. 你目前拥有哪些技能 / 知识领域(在工作或研究中可以使用的水平)?

  2. 你想增加或提高哪些技能?


我们根据 KDnuggets 之前的一些文章和投票调查,选出了 30 项技能。


这次投票调查总共收到了超过 1500 张投票,这是一个足够大的样本,可以做出有意义的推论。平均每个投票者报告声称其拥有 10 项技能,并希望增加或者提高 6~7 项技能。


下面的图 1 显示了关键的调查结果,x 轴表示 % 已拥有技能,显示的是第一个投票问题的答案;y 轴表示的是 % 想拥有的技能,显示的是第二个投票问题的答案。每个圆形的大小与已拥有该技能的投票者的百分比成正比,而颜色取决于“想拥有 / 已有用”的比率(>1,比率越高颜色越红;<1,比率越低颜色越蓝)。



图 1. 与数据科学相关的技能,已拥有技能 vs 想增加 / 提高技能


在这种图表中,我们注意到有两个主要的集合。


图表右侧蓝色虚线矩形为第一个集合,该集合包含超过 40% 投票者所拥有的技能,以及“想要拥有 / 已经拥有”的比率小于 1。我们称之为核心数据科学技能。它们将在表 1 中列出。


表 1:核心数据科学技能,按 % 已拥有技能降序排列。


技能 % 已拥有 % 想拥有 % 想拥有 / % 已拥有
Python71.2%37.1%0.52
数据可视化69.0%25.3%0.37
批判性思维66.7%15.5%0.23
Excel66.5%4.6%0.07
交流沟通技巧65.9%16.5%0.25
机器学习64.3%41.0%0.64
统计学63.8%27.8%0.44
SQL/ 数据库代码实现57.3%16.0%0.28
业务理解57.0%22.2%0.39
数学52.6%17.5%0.33
ETL - 数据准备48.3%14.1%0.29
R45.1%19.8%0.44
Scikit-learn44.1%24.0%0.54


其中,最希望添加或提升的技能是机器学习(41%)和 Python(37%)。增长最少的是 Excel——只有 7% 的人想增加或提高他们的 Excel 技能。


图 1 左侧用红色边框标记的第二个集合,包括目前不太流行(% 已拥有技能 <30%)但正在增长的技能,“想拥有 / 已有用”的比率大于 1,请见表 2。我们将其称为热门 / 新兴数据科学技能。


表 2:热门 / 新兴数据科学技能,按“想拥有 / 已拥有”降序排列。


技能 % 已拥有 % 想拥有 % 想拥有 / % 已拥有
Pytorch7.0%29.6%4.26
Scala4.2%13.3%3.14
其他大数据工具8.9%27.4%3.08
TensorFlow19.1%46.4%2.44
Apache Spark16.0%34.6%2.16
Hadoop10.9%22.7%2.08
深度学习25.9%49.6%1.92
No-SQL 数据库14.0%23.2%1.65
自然语言处理 - 文本处理25.0%33.8%1.35
Kaggle14.5%18.4%1.27
非结构化数据22.3%27.7%1.24


有趣的是,尽管有人认为 Hadoop 正在走下坡路,但在这次投票调查中,想学习 Hadoop 的人比已经知道它的人还多,所以 Hadoop 有可能仍然会越来越受欢迎。尽管 Julia 的“想拥有 / 已拥有”的比率为 3.4,但我们仍然没有将它包括在热门 / 新兴技能中,因为只有 2% 的投票者选择了它,因此它并不具备足够的支持。


其余的技能,如 XGBoost、软件工程、Java、MATLAB、SAS 只被 10%~30% 的投票者拥有,但没有增长:“想拥有 / 已拥有”的比率小于 1。


表 3:其他数据科学技能,按 % 已拥有的百分比递减


技能 % 已拥有 % 想拥有 % 想拥有 /% 已拥有
软件工程25.7%15.2%0.59
XGBoost22.3%19.0%0.85
Java15.1%7.7%0.51
SAS12.7%7.2%0.57
MATLAB10.9%7.9%0.73
Julia2.0%6.9%3.44


小假面是关于投票调查的更多细节。图 2 按 % 已拥有进行降序排列。



图 2:KDnuggets 读者拥有的数据科学技能


图 3 显示了读者想要增加或提高的技能,以及他们所拥有的技能。



图 3:KDnuggets 读者想要增加或提高的数据科学技能(红色)和已拥有的数据科学技能(蓝色)。


我们看到,现有的和有意向的数据科学家想要添加的顶级技能是深度学习、TensorFlow、机器学习和 Python。


投票调查还询问了就业类型:


  • 行业 / 自雇:64.4%

  • 政府 / 非营利组织:7.2%

  • 学术界 / 大学:7.0%

  • 学者:14.3%

  • 其他 /NA:7.1%


区域分布为:


  • 美国 / 加拿大:37.9%

  • 欧洲:28.3%

  • 亚洲:19.3%

  • 拉丁美洲:6.1%

  • 非洲 / 中东:4.8%

  • 其他:3.5%


作者介绍:


Gregory Piatetsky-Shapiro 博士是 KDnuggets 的总裁,也是大数据、数据挖掘和数据科学领域的领军人物。他是数据挖掘和数据科学领先研究会议 KDD 的共同创始人,也是 ACM SIGKDD 的共同创始人和前任主席。他还是两家初创公司的首席科学家。


原文链接:


Which Data Science Skills are core and which are hot/emerging ones?


2019-10-11 18:242855
用户头像

发布了 376 篇内容, 共 199.6 次阅读, 收获喜欢 949 次。

关注

评论

发布
暂无评论
发现更多内容

天翼云探索云原生、边缘计算融合新思路

天翼云开发者社区

删除视图——基于函数的视图 Django

海拥(haiyong.site)

Python django 6月月更

【OpenI开源项目推荐-GammaGL】支持国内外主流深度学习框架的图神经网络算法库

OpenI启智社区

人工智能 算法 图神经网络

Java——流输入输出

武师叔

6月月更

DevSecOps: CI/CD 流水线安全的最佳实践

SEAL安全

CI/CD DevSecOps

网络安全的五大特点有哪些?五大属性是什么?

行云管家

网络安全 数据安全 网络安全法

重磅直播|BizDevOps:数字化转型浪潮下的技术破局之路

阿里云云效

阿里云 DevOps 研发效能 BizDevOps 场数字化转型

大数据培训 | 电商用户行为分析之商业指标统计分析

@零度

大数据开发

直播出海 | 国内直播间再出爆品,「外卷」全球如何致胜

融云 RongCloud

轻松上手Fluentd,结合 Rainbond 插件市场,日志收集更快捷

北京好雨科技有限公司

Kubernetes EFK Fluentd rainbond

假如,程序员面试的时候说真话

AlwaysBeta

程序员 面试

Development status of full color LED display

Dylan

LED display full-color LED display Outdoor LED display

10款超牛Vim插件,爱不释手了

Jackpop

定金预售的规则思路详解

CRMEB

力扣每日一练之双指针2Day9

京与旧铺

6月月更

加密市场进入寒冬,是“天灾”还是“人祸”?

股市老人

多年亿级流量下的高并发经验总结,都毫无保留地写在了这本书中

博文视点Broadview

web前端开发培训 | React面向组件编程

@零度

前端开发 React

6月《中国数据库行业分析报告》发布!智能风起,列存更生

墨天轮

数据库 TiDB 国产数据库 列式存储

口令安全是什么意思?等保2.0政策中口令安全标准条款有哪些?

行云管家

网络安全 口令安全 等保 等保2.0 口令

新版负载均衡WebClient CRUD

Damon

微服务架构 微服务框架 6月月更

uni-app进阶之https请求方式/状态管理【day11】

恒山其若陋兮

6月月更

知识管理在业务中的价值如何体现

小炮

知识管理

ironSource Luna 推出苹果搜索广告限时优惠,注册即享3个月免费服务

科技热闻

入驻快讯|欢迎极狐GitLab 正式入驻 InfoQ 写作社区!

极狐GitLab

gitlab git 学习 #GitLab DevOps工具

畅享高性能计算!天翼云HPC解决方案来了

天翼云开发者社区

得物技术复杂 C 端项目的重构实践

得物技术

前端 大前端 重构 框架 社区

天翼云数字政府智慧数据中台通过认证

天翼云开发者社区

加密市场进入寒冬,是“天灾”还是“人祸”?

鳄鱼视界

TDengine 连接器上线 Google Data Studio 应用商店

TDengine

tdengine 时序数据库 Google Data Studio

MongoDB在腾讯零售优码中的应用

杨亚洲(专注MongoDB及高性能中间件)

mongodb 分布式数据库mongodb 构架 NoSQL 数据库 数据库·

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?_大数据_Gregory Piatetsky_InfoQ精选文章