【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

成为卓越数据科学家必备的 13 项技能

  • 2019-08-02
  • 本文字数:4061 字

    阅读完需:约 13 分钟

成为卓越数据科学家必备的13项技能

一周前,我在 LinkedIn 上问了一个问题:优秀的数据科学家与卓越的数据科学家之间的区别是什么?令人惊讶的是,我得到了来自各行各业的许多顶尖数据科学家的积极反馈。我发现这非常实用和有趣。为了进一步了解二者间的区别,我一直在网上寻找答案……直到发现了这篇文章——《成为数据科学家必备的九项技能》。综上,我总结了相关信息,列出了一份成为卓越的数据科学家应该掌握的技能清单。虽然,数据科学家不可能具备下列所有技能。但在我看来,正是这些技能让卓越的数据科学家与优秀的数据科学家区分开来。我希望这些技能会对你的职业生涯有所帮助。


1. 教育

一般来说,数据科学家的受教育程度普遍较高。至少 88%拥有硕士学位,46%拥有博士学位。虽然有一些例外,但通常情况下,亮眼的教育背景意味着具备数据科学家所需的知识深度。要想成为一名数据科学家,你可以攻读计算机科学、社会科学、物理科学和统计学的学士学位。最常见的研究领域是数学和统计学(32%),其次是计算机科学(19%)和工程学(16%)。以上任何一个学位都能让你掌握处理和分析大数据所需的技能。


修读完学士学位后,你还得继续深造。事实上,大多数数据科学家都拥有硕士或博士学位。此外,他们还接受在线培训,学习特殊技能,像如何使用 Hadoop 或大数据查询等等。因此,你可以学习数据科学、数学、天体物理学或任何其他相关领域的硕士学位课程。攻读硕博学位期间所学的技能将帮助你轻松过渡到数据科学。


除了课堂学习,你还可以通过创建应用程序、博客或尝试数据分析来实践你在课堂上学到的东西,从而让你收获更多。


在我看来,硕士或博士学位并不是必须的,只要你能胜任你的工作便可。在大多数工作中,只要你能够解决业务问题,就不需要研究和掌握最前沿的机器学习模型。


这里有一本很好的免费电子书可供参考:《成为专业数据科学家的74个秘密》

2. R 语言

每一位数据科学家至少要深入研究一种最新的分析工具,而 R 语言通常是首选。R 语言是专门为数据科学设计的。你可以利用它解决在数据科学中遇到的任何问题。事实上,43%的数据科学家使用 R 语言来解决统计问题。然而,R 语言的学习曲线并不太容易,尤其是当你已经掌握了一门编程语言,R 就更难学了。尽管如此,在网上依然有很多资源可以帮助你学习,比如 Simplilearn 的 R 语言数据科学培训。对于数据科学家来说,这是一个很好的学习资源。

3.Python

Python 是我在数据科学研究中接触到的最常见的编程语言,此外,还有 Java、Perl 和 C/ C++。在 O 'Reilly 调查中,40%的受访者将 Python 作为他们主要的编程语言。


由于其通用性,你可以将 Python 应用于几乎所有涉及到数据科学的步骤中。它可以使用各种格式的数据,轻松地将 SQL 表导入代码。它允许创建数据集,也可以很便捷地帮助你在谷歌上找到任何类型的数据集。


你可以通过以下书籍了解更多关于 Python 的基础知识以及它在数据科学中的应用:


4. Hadoop 平台

虽然 Hadoop 并不是必需掌握的,但在许多情况下,它是数据科学运算的首选。如果熟悉 Hive 或 Pig 很不错,熟悉 Amazon S3 等云工具也有好处。CrowdFlower 对 3490 个 LinkedIn 数据科学职位进行的一项研究将 Apache Hadoop 列为数据科学家第二重要的技能,获得了 49%的评分。


作为一名数据科学家,你可能会遇到这样的情况:你拥有的数据量超过了系统的内存,或者你需要将数据发送到不同的服务器,这时候你就需要用到 Hadoop 了。你可以使用 Hadoop 将数据快速传递到系统上的各个点。它的功能还有很多,比如数据探索、数据过滤、数据采样和汇总等。

5. SQL 数据库/编码

尽管 NoSQL 和 Hadoop 已经成为数据科学的一个重要组成部分,但是公司还是希望员工能够使用 SQL 编写和执行复杂的查询。SQL(结构化查询语言)是一种编程语言,它可以帮助你在数据库中执行添加、删除和提取数据等操作,它还可以帮助你执行分析功能和转换数据库结构。


作为一名数据科学家,你需要精通 SQL。这是因为 SQL 是专门为访问、交互和处理数据而设计的。当你使用 SQL 查询数据库时,它往往会给你一些额外的收获。它有简洁的命令,可以帮你节省时间,减少执行复杂查询所需的编程工作。学习 SQL 将帮助你更好地理解关系数据库,并增强你作为数据科学家的个人能力。

6. Apache Spark

Apache Spark 正在成为全球最流行的大数据技术。它是一个类似 Hadoop 的大数据计算框架。唯一的区别在于 Spark 比 Hadoop 更快。这是因为 Hadoop 读取和写入磁盘,这会使它的速度变慢,但 Spark 会将其计算缓存于内存中。


Apache Spark 是专门为数据科学设计的,它可以更快地运行复杂的算法。在处理大量数据时,它可以分发数据处理,从而节省时间。它还帮助数据科学家处理复杂的非结构化数据集。你也可以在一台机器或一组机器上使用它。


Apache spark 可防止数据科学研究中的数据丢失。它的优势在于速度和平台,这使得数据科学项目的实施变得更容易。使用 Apache spark,你可以完成从数据接收到分布式计算的所有分析工作。

7. 机器学习和人工智能

许多数据科学家并不精通机器学习领域的技术,包括神经网络、强化学习、对抗性学习等。但如果你想从其他数据科学家中脱颖而出,你需要了解机器学习技术,如监督机器学习、决策树、逻辑回归等,这些技能将帮助你解决基于主要组织结果预测的不同数据科学问题。


数据科学需要在机器学习的不同领域应用技能。据 Kaggle 的一项调查显示,只有一小部分专业人员掌握高级机器学习技能,如监督机器学习、非监督机器学习、时间序列、自然语言处理、离群值检测、计算机视觉、推荐引擎、生存分析、强化学习和对抗学习等。


数据科学涉及大量数据集的处理,你可以在这里继续了解机器学习。

8. 数据可视化

商业化社会经常产生大量的数据,这些数据需要转换成易于理解的格式。比起原始数据,人们更容易理解图片。俗话说,“一图胜千言”。


作为一名数据科学家,你必须学会使用诸如 ggplot、d3.js、Matplotlib 以及 Tableau 等数据可视化工具,这些工具将帮助你把项目中的复杂结果转换为易于理解的格式。问题是,很多人不理解序列相关的 P 值,你需要直观地向他们展示这些术语在结果中表示的含义。


数据可视化为决策者提供了直接处理数据的机会。他们能够通过这种方式迅速洞察数据,从而抓住新的商业机会,并在竞争中保持领先地位。


我特别写了一篇文章,讨论数据可视化的重要性,以及如何用数据更好地讲故事。感兴趣的话,你可以了解一下。

9. 非结构化数据

能够处理非结构化数据对数据科学家来说是至关重要的。非结构化数据是不适合数据库表的未定义内容,包括视频、博客文章、客户评论、社交媒体文章、视频摘要、音频等。这些类型的数据排序很困难,因为它们不是结构化的。


由于非结构化数据的复杂性,大多数人称其为“黑暗分析”。分析非结构化数据可以帮助你寻找对决策有用的见解。作为一名数据科学家,你必须具备理解和操作来自不同平台的非结构化数据的能力。

10. 求知欲

“我没有什么特殊的才能,我只是充满了好奇心。”

——爱因斯坦


当然,你可能经常看到这句话,因为它与数据科学家有很大的相关性。Frank Lo 在几个月前发表的博客中阐述了它的含义,并谈到了其他必要的“软技能”。


好奇心可以被定义为渴望获得更多的知识。数据科学领域是一个发展非常迅速的领域,你必须学习更多才能跟上它的步伐。你需要定期阅读关于数据科学趋势的在线内容或书籍来更新你的知识。不要被网上飞来飞去的海量数据所淹没,你必须知道如何理解这一切。好奇心是一名成功的数据科学家必备的技能之一。刚开始你可能没有从收集的数据中看到有价值信息的洞察力,但好奇心会驱使你从数据中筛选出答案和更多的价值。

11. 商业敏感性

要想成为一名数据科学家,你需要对你所从事的行业有扎实的了解,并知道你的公司想要解决哪些问题。就数据科学而言,除了确定处理数据要利用的新方法之外,能够识别出哪些问题是处理业务的关键点同样至关重要。


要做到这一点,你必须了解你所解决的问题是如何影响业务的。这就是为什么你需要了解企业是如何运作的,这样你才能朝着正确的工作方向前进。

12. 沟通技巧

大多数公司都缺少掌握沟通技巧的数据科学家,因为这样的员工能够清晰顺畅地将他们的技术成果传达给非技术团队,如市场或销售部门。除了理解非技术同事的需求之外,数据科学家还必须为业务提供量化的数据,从而使业务部门能够做出正确决策。


当然,不仅仅是使用大家都能理解的语言,他们还要懂得用数据讲故事。作为一名数据科学家,你必须知道如何围绕数据创建一个故事线,以便任何人都能轻松地理解。单纯展示数据表不如以讲故事的形式分享数据背后的含义有效,讲故事能帮助你更好地向雇主传达见解。


在交流时,要注意分析数据中所包含的结果和价值。大多数企业家并不想知道你分析了什么,他们感兴趣的是它将如何对其业务产生积极的影响。你还可以通过阅读这篇文章进一步学习,如何通过沟通传递价值,并建立持久的联系。

13. 团队合作

数据科学家并非独立工作,他们通常需要和公司高管一起研究策略,和产品经理、设计师一起讨论产品,和营销人员一起商量营销活动的优化方案,与客户端和服务器软件开发人员一起工作,以创建数据管道,并改进工作流。他们必须和公司里的每一个人一起工作,包括客户。


本质上,数据科学家还需要与团队成员协作开发用例,以便了解业务目标和数据。你需要了解正确处理用例的方法、解决问题所需的数据,以及如何将结果转换并呈现为每个相关人员都可以轻松理解的内容。


总结


如果你对以上提到的技能不知所措、一脸茫然,也是可以理解的。说到底,这些技能并不是成为数据科学家所必备的,但与其他一般的数据科学家相比,它们确实会让你与众不同。


我知道,你希望变得不一般!


作者介绍:


Admond Lee是一名非常受欢迎的数据科学家顾问。他在数据科学咨询方面拥有深厚的专业积累,善于帮助初创企业的创始人和各种公司解决数据使用方面的问题。如果你有数据科学方面的问题,可以在LinkedInMediumTwitterFacebook上与他联系。


原文链接:


Top 13 Skills To Become a Rockstar Data Scientist


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-08-02 21:113269

评论 1 条评论

发布
用户头像
这样的人根本不存在
2019-08-07 00:33
回复
没有更多了
发现更多内容

Linux下驱动开发_块设备驱动开发(内存模拟存储)

DS小龙哥

10月月更

Linux下驱动开发_块设备驱动开发(硬件上采用SD卡+SPI协议)

DS小龙哥

10月月更

Lerna最佳实践(内含大量代码)

鲸品堂

代码 lerna

React源码分析1-jsx转换及React.createElement

goClient1992

React

CEF | CEF浏览器客户端功能扩展:实现下载列表功能

YOLO.

qt 10月月更 C++

数据驱动型企业如何借助「新一代智能协作」提升研发效能?

LigaAI

人工智能 数据驱动 亚马逊云科技 企业号十月PK榜

掌握这个方法,让工作经验配得上工作时间!

博文视点Broadview

一种基于柔性事务的分布式事务解决方案设计探究

京东科技开发者

分布式事务 事务 分布式架构 事务回滚 分布式处理

React组件之间的通信方式总结(下)

beifeng1996

React

react源码分析:babel如何解析jsx

flyzz177

React

无法吃午餐的学生数量

掘金安东尼

算法 10月月更

CEF | CEF浏览器客户端功能扩展:实现前进、后退、刷新、调用控制台、设置cookie、网页自适应窗体大小

YOLO.

qt 10月月更 C++

react源码分析:组件的创建和更新

flyzz177

React

OKR之剑·理念篇03:OKR理念认同

vivo互联网技术

团队管理 OKR 目标管理

react源码中的协调与调度

flyzz177

React

前端关于面试你可能需要收集的面试题

loveX001

JavaScript

Linux下IIC驱动编写,介绍IIC子系统框架的使用

DS小龙哥

10月月更

Java中的接口详解

共饮一杯无

Java 接口 10月月更

部署 SAP UI5 应用到 SAP BTP 时遇到的 error retrieving MTA 错误消息

Jerry Wang

云原生 Cloud 云平台 SAP 10月月更

React面试八股文(第二期)

beifeng1996

React

React组件之间的通信方式总结(上)

beifeng1996

React

react源码中的fiber架构

flyzz177

React

C++中变化布局实现思路

中国好公民st

c++ 布局 10月月更

Redis是如何保证数据一致性的

芥末拌个饭吧

后端 redis 底层原理 10月月更

js异步编程面试题你能答上来几道

loveX001

JavaScript

React源码分析2-深入理解fiber

goClient1992

React

华为云从入门到实战 | 云速建站服务与企业主机安全服务

TiAmo

华为 华为云 云开发 10月月更

HashMap源码分析(一)

知识浅谈

hashmap 10月月更

Linux下RTC驱动开发(硬件采用DS1302)

DS小龙哥

10月月更

谈谈spark性能调优的方法

芥末拌个饭吧

spark 后端 10月月更

你知道Redis为什么要设计成单线程吗

芥末拌个饭吧

后端 redis 底层原理 10月月更

成为卓越数据科学家必备的13项技能_大数据_Admond Lee_InfoQ精选文章