写点什么

从学界到业界:关于数据科学的误解与事实

  • 2015-11-15
  • 本文字数:1933 字

    阅读完需:约 6 分钟

在从学界(粒子物理学博士后研究员)进入业界(数据科学领域)时,Emily Thompson 也曾有过犹疑。而现在,在担任 Insight 项目总监 10 个月之后,她对数据科学家有了自己独特的看法。近日,她在一篇文章中就当前人们对数据科学的误解谈了自己的看法,主要涉及数据科学家的职责、应用领域、工作环境、职业发展、技能集合等方面。。

误解一:“‘数据科学家’只是‘业务分析师’的一种花哨叫法,他们本质上是相同的”

在数据科学领域,业务分析师仍然占了很大一部分,而数据科学家也构建数据产品,创建软件平台,实现可视化和仪表板,开发前沿机器学习算法。“数据科学家”与“分析师”的最大差别可能是角色的独立性水平。传统的业务分析师需要别人给他们提供已经做过清理并打包好的数据供他们使用;而数据科学家必须是熟练的程序员,他们能够抽取、转换、加载数据,对其他团队的依赖较少。

误解二:“数据科学没什么用,我未必会进入广告行业,或成为一名股市分析员”

数据科学的应用领域同数据科学领域本身一样多样化。计量金融和广告是使用数据挖掘的两个相对传统的行业。医疗行业正在经历一场数据革命。可穿戴技术让收集、聚合、分析大量个人数据成为可能,从如何恰当地锻炼睡眠如何影响情绪。多媒体是另一个数据科学的重大应用领域。比如,像News Corp.、The New York Times 和Bloomberg 等大型媒体公司都雇用数据科学家研究读者行为和读者保持;Netflix 通过数据分析实现影片推荐;湾区创业公司 Samba TV 借助机器学习技术实现内容推荐。

误解三:“我希望对世界产生积极的影响……为公司赚钱似乎与此存在利益冲突”

为营利公司工作与对人们的生活产生积极影响并不冲突。例如, Premise 是一家实时经济数据跟踪平台。他们使用机器学习技术来发现一些不易发现的问题,比如,帮助发展银行将钱投资到有需要的邻国, Stitch Fix 使用机器学习技术从库存商品中选择客户喜欢的衣服等等。

误解四:“在学术领域,我自己说的算,我喜欢这种自由。我不认自己适合公司结构的环境”

企业结构确实跟学术组织不同,但现如今,在以数据为中心的企业中,那种狂人风格也不是那么普遍。如果你是初创公司最初的成员之一,那么你还有机会影响公司的发展方向。而像 Facebook 和 LinkedIn 这样的大公司会分成若干较小的工作组,以保留初创公司的工作氛围。虽然可能会有团队负责人,但数据科学团队是高度协作的。而且,越来越多的公司实现了在家工作策略,数据科学家可以拥有“无限”假期。

误解五:“我觉得,如果不知道未来 10 年我的职业生涯是个什么样子,就贸然离开学术界,风险太大。要是我就职的公司跨了怎么办?”

不管在哪里,职业生涯都不是可以预测的。数据科学家在一家公司任职的时间平均为 3 到 4 年。数据科学家会留在有挑战的岗位上,但一段时间之后,会寻找新的挑战。好处是,数据科学领域有许多选择,而且正在不断发展,对数据科学家的需求很高。在任何一家公司任职,不管成功与否,都会获得宝贵的经验。在找第一份数据科学工作时,最看中的应该是一个可以从同事那里学得大量知识的协作环境。另一个需要关注的点是,在从学界进入业界时,要努力构建一个强大的关系网络(参加聚会、出席数据大会),它能为你提供建议和其他团队的内部信息。

误解六:“数据科学是泡沫”

有人认为,一旦数据分析实现自动化,数据科学家的角色就不存在了。但数据量正呈指数增长,没有任何迹象表明从数据中寻找答案的需求会慢下来。即使数据科学的某些部分可以自动化,但这个行业仍然需要数据科学家的技能。数据可能会很乱,无法应用恰当的工具或者无法了解所有相关的特性,这会产生有误导性的结果。而且,受过良好训练的数据科学家对数据有更好的理解,他们是大数据时代应对数据挑战的最佳人选。

误解七:“我担心自己不具备成为数据科学家的技能”

编码能力强很重要,但数据科学不全是软件工程。数据科学家集编码、统计分析和判断思维于一身。广受欢迎的硬技能、统计知识、编码能力是一名优秀数据科学家的基本工具。还有一项不容易明确定义的技能,就是博士研究员阶段所接受的良好训练。但是,要成为一名数据科学家,并一定要有物理、统计或计算机科学学位。 June Andrews 的研究显示,在 LinkedIn 从事数据科学工作的人所拥有的学位差别很大。数据科学本身就具有多学科的特点,而且一些公司开始使用领域专属的数据。因此,只要有量化思维,喜欢摆弄数据,对数据如何引导你提出和回答问题心存好奇,那么你就可以脱离学术界,进入数据科学领域。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群InfoQ 好读者)。

2015-11-15 18:002396
用户头像

发布了 1008 篇内容, 共 419.7 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

Go 1.24.0 重磅发布:新特性、新工具,开发者必看!

陈明勇

Go go 1.24

Unity 专家分享2025年移动游戏行业七大趋势展望

极客天地

腾讯大数据基于 StarRocks 的向量检索探索

StarRocks

向量检索

全球人形机器人行业2024年度汇总和行业前瞻报告

机器人头条

科技 大模型 人形机器人 具身智能

低代码开发平台与 Vue.js 的深度融合

秃头小帅oi

“言出图随”:三星绘图助手解锁图像创作的“豆包解法”

极客天地

OpenSearch LLM 智能问答版基于 Deepseek-R1 一分钟搭建 RAG 系统

阿里云大数据AI技术

人工智能 阿里云 LLM OpenSearch DeepSeek

DS缩写乱争:当小海豚撞上AI顶流,技术圈也逃不过“撞名”修罗场

白鲸开源

开源 Apache DolphinScheduler DeepSeek DeepSeek v3 DeepSeek-R1、

DeepSeek正重构人形机器人和具身大模型赛道!

机器人头条

科技 大模型 人形机器人 具身智能

项目管理资格证书对职业发展的7大影响

薛同学

WebGL游戏开发入门全攻略

xuyinyin

普通人怎样用好DeepSeek

易成研发中心

DeepSeek

Klook获1亿美元融资,推动全球旅游体验行业持续增长

财见

全链路数据引擎:WhaleStudio驱动下的大数据调度与同步智能革新

白鲸开源

数据集成 数据源 数据调度 白鲸开源 WhaleStudio

人工智能丨deepseek是什么?我们能用它来做什么?

测试人

人工智能

高效前端应用:基于 Vue3 的低代码开发实践

秃头小帅oi

零基础玩转淘宝数据抓取:手把手教你调用商品详情API

代码忍者

淘宝API接口

本地搭建DeepSeek和知识库

秃头小帅oi

借助GPT-4开启游戏开发之旅

xuyinyin

【YashanDB知识库】MySQL和YashanDB 隐式转换不一致引起的报错

YashanDB

数据库 yashandb

曲多多客户端V0.3.0下载:内含百万版权音乐和音效,在线授权。广告、宣传片、自媒体、影视配乐应有尽有

曲多多(嗨翻屋)版权音乐

版权音乐 音乐版权 曲多多 版权音乐平台 音乐素材网

从学界到业界:关于数据科学的误解与事实_语言 & 开发_谢丽_InfoQ精选文章