GTLC全球技术领导力峰会·上海站,首批讲师正式上线! 了解详情
写点什么

只懂机器学习就 OUT 了,下一代数据科学家得是“全栈型“

2020 年 11 月 26 日

只懂机器学习就 OUT 了,下一代数据科学家得是“全栈型“

人人都在谈论数据科学,没有人真正知道如何去做,每个人都认为别人在做,所以所有人都声称自己在做数据科学。


本文最初发表于 Towards Data Science 博客,经原作者 Jay Kachhadia 授权,InfoQ 中文站翻译并分享。


本文探讨了成为一名机器学习数据科学家需要具备的条件,以跟上行业不断变化的需求。


多年来,对于拥有计算机科学、统计学、商业分析、工程管理、物理学、数学或数据科学学士、硕士或博士学位的年轻人而言,数据科学一直是他们的目标。然而,人们对于数据科学有很多误解。这已经不仅仅是机器学习和统计学了。


这些年来,我已经与许多有志于数据科学领域的人讨论过要进入这个领域的想法。为什么数据科学如此火爆?或者统计学和机器学习能帮助你进入这个领域吗?它还会是未来吗?


即使我和你们都在同一条船上,但我现在正在体验到,目前对于下一代数据科学家进入这一领域的需求是如何形成的。我并不会教你如何进入数据科学领域,因为在互联网上,已经有很多人这样做了。


为什么数据科学如此火爆?


人人都想进入数据科学领域。几年前,这个领域就存在供需问题:数据科学家的供给减少了,需求却在 DJ Patil 博士和 Jeff Hammerbacher 抛出“数据科学”这个术语之后增加了。但是现在,到了 2020 年,情况发生了逆转。来自于正规 /MOOC 教育的数据科学爱好者的流入增加了,需求也增加了,但是还没有达到那种程度。这一术语已经演变得越来越广泛,包括人们从事数据科学所需要的大部分辅助功能。我想引用我最喜欢的一句话,来自 KDnuggets:


“人人都在谈论数据科学,没有人真正知道如何去做,每个人都认为别人在做,所以所有人都声称自己在做数据科学。”


说到这里,以下是我觉得数据科学如此火爆的原因:


  1. 数据科学家头街背后的奥秘。

  2. 工作满意度高。

  3. 巨大的商业影响。

  4. 很多求职网站将其列为最热门工作(Glassdoor 网站过去 3 年将其列为美国最热门的工作)。

  5. 前沿发展。

  6. 越来越多的数据生成。

  7. 很多提供数据科学学位的学校和训练营,良莠不齐。

  8. 数据是美丽的!


自称数据科学家的人


有些人会这样说,所以让我来谈谈目前行业状况的一些真相。随着数据科学家头街的需求和声望的增长,许多公司已经开始将数据科学家的头街改成产品分析师、商业情报分析师、商业分析师、供应链分析师、数据分析师和统计学家,因为人们离职是为了获得数据科学家的头街,而这些头街正是他们从事同样的工作所得到的。所有这一切都是尊重的问题,很多角色因为字面上的细微变化而受到尊重。


因此,公司开始以同样的方式改变头街,让它变得更加耀眼、更令人向往,正如数据科学家——分析、产品数据科学家、数据科学家——增长、数据科学家——供应链、数据科学家——可视化或数据科学家——还有什么不是?


大多数追求教育 / 在线培训的人都有这样的误解,认为所有的数据科学家都在构建奇特的机器学习模型,但事实并不总是如此。至少,当我开始攻读应用数据科学硕士学位的时候,我以为大多数数据科学家都会进行机器学习,但是直到我在美国实习和工作的时候,我才开始了解真实的情况。驱使人们追求数据科学的力量源自于炒作人工智能及其商业影响。


下一代数据科学家——机器学习


对于那些想以数据科学家的身份从事应用机器学习的人——机器学习(这就是我要命名的头街,因为它不是数据科学家——分析),在 2020 年还没有博士学位的时候,机器学习还有更多的事情要做,而不是仅仅知道如何将机器学习应用于数据集,几乎所有人现在都能做到。我从自己的经历中还发现了其他几件重要的事情,它们可以帮助你在面试过程中找到数据科学家的角色,甚至能帮你入围:


1、分布式数据处理 / 机器学习:掌握Apache Spark、Apache Hadoop、Dask 等技术的实践经验,将有助于证明你可以大规模创建数据 / 机器学习管道。对其中任何一个有实践经验的话,应该会很好,但是我建议将 Apache Spark(Python 或 Scala)作为首选。


2、生产机器学习 / 数据管道:如果你能获得使用Apache Airflow的实践经验,Apache Airflow 是一种标准的开源作业编排工具,可用于创建数据/机器学习管道。这个工具现在在业界都在使用,所以,我建议大家学习和参与一些相关项目。


3、DevOps/ 云:DevOps 被大多数追求数据科学的人所忽视。如果你没有基础设施,你要怎么构建机器学习管道呢?这并不像我们在课程中做的那般容易,构建 notebook 或代码在本地机器上运行就可以了。你编写的代码应该能够扩展到你或者其他人可能在你的团队中创建的基础设施中。很多可能尚未部署好机器学习基础设施的公司可能正在寻找合适的人选。即使是在课程学习期间,也要熟悉DockerKubernetes以及使用 Flask 等框架构建机器学习应用程序,这些应该都是你的标准实践。我喜欢 Docker,因为它具有可扩展性,你可以构建基础设施映像,并在 Kubernetes 集群上的服务器 / 云上复制同样的内容。


4、数据库:必须了解数据库和查询语言。尽管 SQL 在很大程度上被人们忽视了,但它在任何云平台和任何数据库上都仍然是行业标准。在Leetcode网站上开始练习复杂的 SQL,这将会帮助你在数据科学个人资料中编写面试的某些部分,因为你将负责从仓库中导入数据,并进行即时的预处理,这会减轻你在运行机器学习模型之前的预处理工作。大多数特征工程可以使用 SQL 将数据传输到模型的同时进行,这是很多人都忽视的一个方面。


5、编程语言:推荐的数据科学编程语言是 Python、R、Scala 和 Java。掌握它们中的任何一种都是很棒的,而且能够做到。而对于机器学习类的角色来说,面试过程中也会有现场编码环节,所以你需要在你觉得舒服的任何地方进行练习——Leetcode、hackerank,或者任何你喜欢的地方。


所以,现在光知道机器学习或统计学,并不会让你进入数据科学领域从事机器学习的,除非你很幸运,在行业内有一些很好的人脉(你显然应该经营人脉,这是非常重要的!),或者你名下已经有了杰出的研究记录。业务应用和领域知识往往是随着经验的积累而积累,不可能通过预先学习而获得,除非在相关行业进行实习。


关于我


两个月前,我研究生刚毕业,就以数据科学家的身份加入了媒体巨头ViacomCBS。除了研究助理和实习经历之外,我完全没有任何全职的行业经验。我在这家公司的职责包括从构思——开发——生产机器学习产品,其中我使用了本文上面所列的大部分内容。我希望本文对所有有抱负的数据科学家和有意进入该领域的机器学习工程师有所帮助。


作者介绍:


Jay Kachhadia,ViacomCBS 数据科学家,构建智能数据产品。


原文链接:


https://towardsdatascience.com/full-stack-data-science-the-next-gen-of-data-scientists-cohort-82842399646e


2020 年 11 月 26 日 08:001093
用户头像
刘燕 InfoQ记者

发布了 558 篇内容, 共 174.9 次阅读, 收获喜欢 1060 次。

关注

评论

发布
暂无评论
发现更多内容

SaaS是「包治百病」的良药吗?

ToB行业头条

路过,凌晨2点的南京

小天同学

总结 思考 个人感悟 夜归人

第6周课后练习-请简述CAP原理

Dawn

极客大学架构师训练营

java 后端博客系统文章系统——No5

猿灯塔

Java

Spring循环依赖及解决方式

张sir

Java spring 循环依赖

第6周作业

andy

数据结构学习心得

程李文华

架构师训练营第六周作业

一剑

指数 | 2020年6月北京BGP机房网络质量评测报告

博睿数据

评测 博睿宏远 指数

再强调一遍, 我为什么不建议大家接外包干私活?

非著名程序员

程序员 外包 提升认知 程序员成长 接私活

HashMap学习总结

大刘

hashmap hash

MySQL 三万字精华总结 + 面试100 问,和面试官扯皮绰绰有余(收藏系列)

海星

Java MySQL 面试

MySQL性能优化(七):MySQL执行计划,真的很重要,来一起学习吧

xcbeyond

MySQL MySQL性能优化 执行计划

案例解析丨金蝶K/3 Wise接入华为云RDS数据库SQL Server

华为云开发者社区

MySQL 数据库 Serverless 数据 华为云

详解区块链应用市场与落地应用现状

CECBC区块链专委会

MySQL性能优化(六):常见优化SQL的技巧

xcbeyond

MySQL MySQL性能优化 SQL优化 优化技巧

课程总结

Thrine

开源数据交换(client)

李孟

Java 大数据 flink spark 数据交换

你与30W奖金只差一个 Apache Flink 极客挑战赛的报名

Apache Flink

flink

现在微服务这么火,你还不了解吗?阿里P8推荐的微服务学习指南

互联网架构师小马

Docker 微服务 Spring Cloud Spring Boot dubbo

第6周总结

andy

未来的智慧城市:未来的城市生活愿景

网站,小程序,APP开发定制

JDK1.8新特性(一):JDK1.8究竟有哪些新特性呢

xcbeyond

jdk8 新特性

博睿宏远获颁“2020开发与技术企业服务奖”

博睿数据

运维自动化 开发工具 博睿宏远

没错,用三方 Github 做授权登录就是这么简单!(OAuth2.0实战)

程序员内点事

Java GitHub oauth2.0

分布式存储系统doris

Thrine

天元MegEngine深度学习框架贡献者计划全面启动!

flashrunrun

人工智能 学习 AI 开源项目

MySQL 连接查询超全详解

X先生

MySQL 数据库

互联网大厂根本没有题库!了解这些却能让你掌握“隐形题库”

互联网架构师小马

程序员 面试 面试题 Java 面试 找工作

CAP Theorem

dongge

如何在 3 个小时内完成一周的工作

escray

DNSPod与开源应用专场

DNSPod与开源应用专场

只懂机器学习就 OUT 了,下一代数据科学家得是“全栈型“-InfoQ