NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

从学界到业界:关于数据科学的误解与事实

  • 2015-11-15
  • 本文字数:1933 字

    阅读完需:约 6 分钟

在从学界(粒子物理学博士后研究员)进入业界(数据科学领域)时,Emily Thompson 也曾有过犹疑。而现在,在担任 Insight 项目总监 10 个月之后,她对数据科学家有了自己独特的看法。近日,她在一篇文章中就当前人们对数据科学的误解谈了自己的看法,主要涉及数据科学家的职责、应用领域、工作环境、职业发展、技能集合等方面。。

误解一:“‘数据科学家’只是‘业务分析师’的一种花哨叫法,他们本质上是相同的”

在数据科学领域,业务分析师仍然占了很大一部分,而数据科学家也构建数据产品,创建软件平台,实现可视化和仪表板,开发前沿机器学习算法。“数据科学家”与“分析师”的最大差别可能是角色的独立性水平。传统的业务分析师需要别人给他们提供已经做过清理并打包好的数据供他们使用;而数据科学家必须是熟练的程序员,他们能够抽取、转换、加载数据,对其他团队的依赖较少。

误解二:“数据科学没什么用,我未必会进入广告行业,或成为一名股市分析员”

数据科学的应用领域同数据科学领域本身一样多样化。计量金融和广告是使用数据挖掘的两个相对传统的行业。医疗行业正在经历一场数据革命。可穿戴技术让收集、聚合、分析大量个人数据成为可能,从如何恰当地锻炼睡眠如何影响情绪。多媒体是另一个数据科学的重大应用领域。比如,像News Corp.、The New York Times 和Bloomberg 等大型媒体公司都雇用数据科学家研究读者行为和读者保持;Netflix 通过数据分析实现影片推荐;湾区创业公司 Samba TV 借助机器学习技术实现内容推荐。

误解三:“我希望对世界产生积极的影响……为公司赚钱似乎与此存在利益冲突”

为营利公司工作与对人们的生活产生积极影响并不冲突。例如, Premise 是一家实时经济数据跟踪平台。他们使用机器学习技术来发现一些不易发现的问题,比如,帮助发展银行将钱投资到有需要的邻国, Stitch Fix 使用机器学习技术从库存商品中选择客户喜欢的衣服等等。

误解四:“在学术领域,我自己说的算,我喜欢这种自由。我不认自己适合公司结构的环境”

企业结构确实跟学术组织不同,但现如今,在以数据为中心的企业中,那种狂人风格也不是那么普遍。如果你是初创公司最初的成员之一,那么你还有机会影响公司的发展方向。而像 Facebook 和 LinkedIn 这样的大公司会分成若干较小的工作组,以保留初创公司的工作氛围。虽然可能会有团队负责人,但数据科学团队是高度协作的。而且,越来越多的公司实现了在家工作策略,数据科学家可以拥有“无限”假期。

误解五:“我觉得,如果不知道未来 10 年我的职业生涯是个什么样子,就贸然离开学术界,风险太大。要是我就职的公司跨了怎么办?”

不管在哪里,职业生涯都不是可以预测的。数据科学家在一家公司任职的时间平均为 3 到 4 年。数据科学家会留在有挑战的岗位上,但一段时间之后,会寻找新的挑战。好处是,数据科学领域有许多选择,而且正在不断发展,对数据科学家的需求很高。在任何一家公司任职,不管成功与否,都会获得宝贵的经验。在找第一份数据科学工作时,最看中的应该是一个可以从同事那里学得大量知识的协作环境。另一个需要关注的点是,在从学界进入业界时,要努力构建一个强大的关系网络(参加聚会、出席数据大会),它能为你提供建议和其他团队的内部信息。

误解六:“数据科学是泡沫”

有人认为,一旦数据分析实现自动化,数据科学家的角色就不存在了。但数据量正呈指数增长,没有任何迹象表明从数据中寻找答案的需求会慢下来。即使数据科学的某些部分可以自动化,但这个行业仍然需要数据科学家的技能。数据可能会很乱,无法应用恰当的工具或者无法了解所有相关的特性,这会产生有误导性的结果。而且,受过良好训练的数据科学家对数据有更好的理解,他们是大数据时代应对数据挑战的最佳人选。

误解七:“我担心自己不具备成为数据科学家的技能”

编码能力强很重要,但数据科学不全是软件工程。数据科学家集编码、统计分析和判断思维于一身。广受欢迎的硬技能、统计知识、编码能力是一名优秀数据科学家的基本工具。还有一项不容易明确定义的技能,就是博士研究员阶段所接受的良好训练。但是,要成为一名数据科学家,并一定要有物理、统计或计算机科学学位。 June Andrews 的研究显示,在 LinkedIn 从事数据科学工作的人所拥有的学位差别很大。数据科学本身就具有多学科的特点,而且一些公司开始使用领域专属的数据。因此,只要有量化思维,喜欢摆弄数据,对数据如何引导你提出和回答问题心存好奇,那么你就可以脱离学术界,进入数据科学领域。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群InfoQ 好读者)。

2015-11-15 18:002073
用户头像

发布了 1008 篇内容, 共 374.5 次阅读, 收获喜欢 341 次。

关注

评论

发布
暂无评论
发现更多内容

模块1作业

卡西毛豆静爸

架构实战营

事件驱动架构在 vivo 内容平台的实践

vivo互联网技术

微服务 云原生 事件驱动架构

MySQL 如何解决幻读(MVCC原理分析)

Ayue、

MySQL InnoDB 1月月更

基于Flink CDC打通数据实时入湖

五分钟学大数据

flink 1月月更

再谈:我对测试行业发展和自我价值诉求的思考

老张

测试工程师 职场发展

架构训练营 week6 课程总结

红莲疾风

「架构实战营」

架构实战营模块六作业

Jude

架构实战营

RavenDB起步--第一个 RavenDB 程序

喵叔

RavenDB起步--安装以及示例数据库

喵叔

ReactNative进阶(三十一): IoC 框架 InversifyJS 解读

No Silver Bullet

​React Native 1月月更 InversifyJS

华青融天加入,龙蜥社区再添科技风险监测领域新伙伴

OpenAnolis小助手

Linux 开源 合作伙伴

分享四款H5怀旧小游戏魔塔+伏魔记+三国霸业+寻仙纪

echeverra

前端 游戏

看过来!腾讯文档上架优麒麟软件商店啦

优麒麟

Linux 开源 腾讯 操作系统 麒麟操作系统

TDSQL-A技术架构演进及创新实践

腾讯云数据库

tdsql 国产数据库

架构训练营 毕业设计

dog_brother

「架构实战营」

为什么ConcurrentHashMap是线程安全的?

王磊

一、数据结构

喵叔

TDSQL-C PostgreSQL版的高可用特性

腾讯云数据库

tdsql 国产数据库

鸿蒙轻内核M核源码分析:LibC实现之Musl LibC

华为云开发者联盟

鸿蒙 内存分配 LibC Musl LibC Musl

中科柏诚:积极践行为中小企业服务宗旨,同乡村振兴有效衔接

联营汇聚

TDSQL PostgreSQL执行计划详解

腾讯云数据库

tdsql 国产数据库

Redis:我是如何与客户端进行通信的

华为云开发者联盟

redis 通信 协议 指令 客户端

智联生活行业加速器热门FAQ:物联网企业该如何与华为云合作?

华为云开发者联盟

物联网 华为云 智联生活 智联生活行业加速器 云市场

架构实战营毕业设计

VegetableBird

架构实战营 #架构实战营 架构师实战营 「架构实战营」

一个cpp协程库的前世今生(二十三)env自动回收

SkyFire

c++ cocpp

RavenDB起步--使用 RavenDB Studio

喵叔

1月月更|推荐学java——Spring事务

逆锋起笔

spring事务管理 spring ioc java 编程 Spring Java Spring事务

为数据库性能调优插上 AI 的翅膀 | 调优测试框架 Matrix 团队访谈

PingCAP

20000字详解大厂实时数仓建设 | 社区征文

五分钟学大数据

数据仓库 实时数仓 1月月更 新春征文

Go 语言快速入门指南:Go 读取文本文件

宇宙之一粟

Go 数据读取 Go 语言 1月月更

RavenDB起步--客户端API(一)

喵叔

从学界到业界:关于数据科学的误解与事实_语言 & 开发_谢丽_InfoQ精选文章