NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

一位数据科学家的独白

  • 2020-02-26
  • 本文字数:2098 字

    阅读完需:约 7 分钟

一位数据科学家的独白

最近几年,云的出现以及企业纷纷向互联网转型导致了数据大爆炸。因此,数据科学家在市场上供不应求。据《哈佛商业评论》称,21 世纪数据科学家是最性感的职业。他们每天畅游在大数据的海洋里,与 AI 和深度学习为伴,探索并发现撬动世界变革的力量。 而在真正的数据科学家眼中,他们对自己的认知却与外界有所不同,本文就是一位数据科学家的自白。


过去 5 年,我一直从事“ 数据科学家 ”这个工作,人们都觉得这个工作“很性感”,但其实我始终弄不明白到底哪儿“性感”。可能除了我新烫的头发看起来有点像韩国欧巴外,其他的都和性感这个词不沾边儿。


那么,我就先来为大家揭秘数据科学家每天要做的工作有哪些?


通过分析 LinkedIn 上的职位发布,我得出了以下内容,我总结了一些最为日常的工作内容:


  • 了解业务和客户,对假设问题进行验证;

  • 建立预测模型和机器学习流水线,进行 A / B 测试;

  • 历史数据的分析挖掘:包括跟各种产品线相关的业务分析,用户画像,用户行为分析,用户留存分析等;

  • 开发算法为业务线赋能;

  • 进行实验并研究新技术和方法,提高技术能力;


这些工作听起来是不是很性感?


而这些,仅仅是数据科学家工作的“冰山一角”。


在 CrowdFlower 的一份调查中揭露了数据科学家每天的日常工作:



通常,我们认为数据科学家每天都在构建算法、研究数据并进行预测分析。从上表中可以看出,这并不是他们的主要工作内容,实际上,他们大部分时间都在收集数据集、清理和管理数据。

为什么需要高效的数据清理专家?

数据湖是存储公司所有数据的集中存储库。企业或组织可以使用数据湖中的数据来构建机器学习模型。但令人不解的是,有人把数据湖当成了数据存储中转站,或者是超大硬盘。


许多组织最初实施数据湖时,对如何处理收集中的数据一无所知。他们不明就里地去收集一切数据,根本不去考虑其实际用途。尽管数据湖的核心作用是将公司的所有数据集中在一个地方,但需要根据特定的项目需求对数据湖进行定制化设计。不进行合理规划就像创建一个新的“未命名文件夹 ”,然后在其中复制并粘贴公司所有数据,到头来只会变为一团乱麻。


及时清理数据是十分必要的。其实,数据科学家并不喜欢处理杂乱的数据,所以他们不得不花费很长的时间来进行数据清理、数据标记和数据精练。在调查数据科学家最不喜欢做的工作排名时,我们得到了这样的结论:他们最不喜欢的,也是花费时间最长的工作就是清理和管理数据。



数据科学家最不喜欢的工作内容排名

“脏数据”无所不在

每个处理数据的人都应该听说过“ 脏数据”一词。因为原始数据存在各种各样的问题,如篡改数据、数据不完整、数据不一致、数据重复、数据存在错误、异常数据等,这些情况我们统称为存在“脏数据”。“脏数据”的存在不仅浪费时间,而且可能导致最终分析有误。


数据不完整是指某些基础特征缺失。例如,假设你的任务是预测房价,在这其中“房子的面积”对于预测房价来说至关重要,但是如果这部分信息缺失,这项任务很可能就无法完成,因此模型的效果也就会不佳。


数据不准确和不一致是指数值在技术上是正确的,但放在场景中就是错误的。例如,一名员工变更了他的地址,但是并未及时更新,或者某一组数据有多个副本,但是数据科学家使用的版本是过时的版本,这些都指的是数据的不准确和不一致。


重复数据是一个普遍的问题。我与大家分享下我在一家电商公司发生的一件事。根据设计,当访问者单击“领取优惠券”按钮时,网站会响应到服务器上,随后我们就能计算出有多少用户收集到了优惠券。


网站一直运行良好,但突然有一天网站发生了点状况,而我却对此一无所知。前端开发人员在有人成功领取优惠券时添加了另外一个响应,理由是某些优惠券可能缺货。他们新添加的另外一个响应是想跟踪单击该按钮的访问者以及已经领取完优惠券的访问者。


在添加完新的响应后,两个响应结果都发到了同一个日志表中。等我再查看我的报告工具时,发现领取的优惠券的数量似乎在一夜之间翻了一番!在前一天部署模型时,我还天真地以为我的新模型会很完美,但后来我才意识到我只是做了重复计算。



数据科学家最应该掌握的十大技能

除了数据清理和管理,数据科学家还要做什么?

这个世界每天都充斥着海量的数据,有的来自人工输入,有的来自机器日志,但无论是那种数据,数据整理都是现实世界中数据科学家工作的重要部分。为了使监督学习更加有效,我们需要可靠的、带有标签的数据,标记错误的数据无法建立预训练模型,但问题在于,没有人喜欢这项繁杂的、枯燥的数据标记工作。


许多人将数据科学家的工作描述为 80/20 原则。也就是说他们会用 20%的时间来构建模型,而其他 80%的时间用于收集、分析、清理和重组数据。处理脏数据是数据科学家工作中最耗时的部分。


尽管这项工作做起来很让人厌烦,但数据清理在任何一个项目中都是十分重要的,凌乱的数据不会产生好的结果,就像很多人都听过一句话“输入的是垃圾,得到的也会是垃圾”。


如果要来对我的工作进行个总结,我会认为我是 40%的数据清洁工、40%的数据管理员,最后 20%的…算命先生,因为我还要在出现问题时进行诊断和分析,找出症结所在。


原文链接:


https://towardsdatascience.com/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-02-26 10:521488

评论

发布
暂无评论
发现更多内容

软件测试开发/全日制/测试管理/人工智能丨如何合理制定职业规划

测试人

软件测试

专业的青否数字人系统源码!

青否数字人

数字人

Parallels Desktop 19 for mac完美破解版下载

影影绰绰一往直前

揭秘阿里自研搜索引擎Havenask在线检索服务

阿里技术

搜索引擎 开源 搜索 Havenask 在线检索

鼠标增强软件BetterMouse for Mac v1.5 (4424)中文激活版

影影绰绰一往直前

AI数字人IP为企业创造无限商业价值!

青否数字人

数字人

软件测试开发/全日制/测试管理丨利用ChatGPT生成自动化测试脚本

测试人

软件测试 测试开发 ChatGPT

康威定律:AI时代的IT组织变革

FinClip

【第七在线】智能商品系统和ERP、BI系统的区别

第七在线

Navicat Premium 15 mac(数据库开发软件)v15.0.30完美激活版

mac

苹果mac Windows软件 Navicat Premium 15 数据库开发软件

炸裂!「用嘴编程」的时代真的来了,席卷8000多家企业的Comate大升级

飞桨PaddlePaddle

人工智能 深度学习 编程语言

百度搜索exgraph图执行引擎设计与实践

百度Geek说

百度搜索 企业号 1 月 PK 榜 图执行 图执行引擎 DAG执行图

数字化时代下的数字化资产及其治理 |京东云技术团队

京东科技开发者

Butler for Mac v4.4.8激活版下载 Mac菜单栏快速启动工具

影影绰绰一往直前

找软件开发公司做软件,三种付款比例,降低支付风险

软件开发-梦幻运营部

Mac电脑版文件启动器:Butler 激活最新版

胖墩儿不胖y

Mac软件 文件启动器

一分钟了解深度学习算法

小齐写代码

Java药物不良反应ADR智能监测系统源码

源码星辰

Java 源码 ADR智能监测系统

记一次JSF异步调用引起的接口可用率降低

京东科技开发者

【推文】企业级AI问答知识库训练营,火热开营中!

阿里云大数据AI技术

Final Draft 12 for Mac激活版下载 剧本写作软件

影影绰绰一往直前

【大型模】模型型飞跃升级—文档图像识别领域迎来技术巨变

颜淡慕潇

ChatGPT OCR技术 垂直大模型 图像识别模型

Boxy SVG for Mac(矢量图编辑器) v4.21.0免激活版

影影绰绰一往直前

智能商品系统如何协同其他系统共享数据和优化供应链决策?

第七在线

mybatisplus推荐用法

meacial

分层架构 设计原则 开发规范 MyBatisPlus

JavaScript 常见错误与异常处理

京东科技开发者

简单好用的思维导图推荐:simplemind最新中文版

mac大玩家j

思维导图软件 Mac软件推荐

iCompta for Mac v6.1.11激活版下载(个人财物管理工具)

影影绰绰一往直前

不是每个企业都要数字化转型,但是每个企业都要进行数字化升级!

天津汇柏科技有限公司

数字化转型

这些常见的python编码习惯,你都会吗

华为云开发者联盟

Python 开发 华为云 华为云开发者联盟

GreatSQL喊你来考证啦~

GreatSQL

一位数据科学家的独白_大数据_Jingles_InfoQ精选文章