武汉的开发者们注意啦!AI技术战略、框架以及最佳实战尽在Azure OpenAI Day 了解详情
写点什么

分析师凭什么要做数据科学领域的“二等公民”?

  • 2020-04-20
  • 本文字数:5605 字

    阅读完需:约 18 分钟

分析师凭什么要做数据科学领域的“二等公民”?

小心你所热衷的技能,因为不明智的选择可能带来毁灭性的后果。除了团队管理不善和不必要的录用之外,你还会看到真正的英雄辞职或接受再教育,以适应你当前的激励机制。这种现象的一个典型例子就是分析学。

寻找顶尖人才

数据科学领域的顶尖人才很难找到,这并不奇怪:“全栈”数据科学家意味着精通机器学习统计分析。当团队无法得到三合一的博学者时,他们就把目光放在了吸引单一专家中最令人印象深刻的角色上。谁获得了宠爱?


如今,数据科学的流行趋势是,华而不实的复杂技术加上一点科幻色彩,让人工智能和机器学习成为招聘领域的宠儿。挑战其第一位置的其他挑战者来自统计,这要感谢其一个世纪以来的严谨声誉和数学优势。那分析师呢?

分析是二等公民

如果你的主要技能是分析(或数据挖掘或商业智能),那么当前面提到的那些人昂首挺胸地从你身边走过,而就业市场又毫不避讳地告诉你需要提升自己的技能才能加入他们时,你的自信心很可能会受到打击。


优秀的分析师是数据工作有效的先决条件。让他们放弃对你来说很危险,但如果你低估了他们,他们就会这么做。


外行人很少能理解的是,在数据科学的环境里,这三种职业是完全不同的。但相似之处是,他们可能使用相同的公式。优秀的分析人员绝不是其他数据科学角色的残缺版本,而是数据工作有效的先决条件。让他们放弃对你来说很危险,但如果你低估了他们,他们就会这么做。

同样受人尊敬

与其要求分析师开发他们的统计机器学习技能,不如考虑鼓励他们首先寻求在自己的学科上达到一定的高度。数据科学这个东西,一个领域的卓越胜过两个领域的平庸。


这三个数据科学学科都有自己的优点。统计学家带来严谨,ML 工程师带来效能,分析师带来速度。


在最高级的专业知识方面,这三个角色都同样受人尊敬,但它们提供的服务非常不同。为了理解其中的微妙之处,让我们来看看在每一门数据科学学科中成为真正优秀的人意味着什么,他们能带来什么价值,以及在每一份工作中需要具备哪些性格特征。

统计人员的优秀之处:严谨

作为在数据之外得出结论的专家,统计学家是避免你在一个不确定的世界里自欺欺人的最佳保护。对他们来说,草率地推断某件事比让你的大脑一片空白更不可取,所以我们会希望有一位优秀的统计学家来抑制你的兴奋。他们总是小心翼翼地关注所采用的方法是否适合问题,并为从手头信息中推断出的哪些结论有效而烦恼。


大多数人都没有意识到统计学家本质上是知识学家。既然没有什么魔法能让不确定性变成确定性,那么他们的角色就不是生产真理,而是将令人愉快的假设与可获得的信息合理地结合。


结果呢?提供一个帮助领导者以风险控制的方式做出重要决定的视角。


不出所料,许多统计学家对“自命不凡的人”的反应都是尖酸而刻薄,这些人只是学习些公式,却没有汲取任何哲学知识。如果与统计学家打交道让你感觉筋疲力尽,这里有一个快速解决方案:不要数据之外的任何结论,你也不需要他们的服务。(说起来容易做起来难,对吧?特别是如果你想做一个重要的发布决定。)

机器学习人员的优秀之处:效能

如果你对“我打赌你不能建立一个准确率 99.99999%测试模型”的回答是“看我的。”,那么你可能是一名应用机器学习/AI 工程师。


有了编码能力,可以建立起可行的原型和生产系统,以及延续数年每小时都失败的强大恢复能力(如果那是必要的),机器学习专家知道,他们无法在教科书中找到完美的解决方案。相反,他们将陷入一场马拉松式的反复试验对他们尝试每一个新选项需要多长时间有良好的直觉是一个巨大的优势,而且比深入了解算法的工作原理更有价值(尽管两者兼而有之也很好)。


结果呢?这个系统可以很好地自动化一项复杂的任务,从而通过统计人员的严格测试,并提供业务领导者所要求的非常规效能。


效能不仅仅意味着明确一个度量标准——它还意味着可靠、可伸缩和易于维护的模型,这些模型在生产中表现良好。优秀的工程设计是必须的。

广度 vs. 深度

前面两个角色的共同点是,它们都为特定的问题提供了高质量的解决方案。如果他们处理的问题不值得解决,你最终会浪费他们的时间和金钱。业务负责人经常会发出这样的叹息:“我们的数据科学团队毫无用处。”而问题通常在于缺少分析专家。


统计学家机器学习工程师是窄而深的工作人员(顺便说一句,就像兔子洞的形状),所以为他们指出值得努力解决的问题是非常重要的。如果你的专家们正在小心地解决错误的问题,那么你在数据科学上的投资当然只会获得低回报。为了确保你可以很好地利用窄而深的专家,你需要确定你已经有了正确的问题,或者你需要一个宽而浅的方法来找到一个问题。

分析人员的优秀之处:速度

最好的分析师是快速的程序员,他们可以快速浏览大量的数据集,比其他专家所说的“白板”更快地发现并提出潜在的见解。他们有些马虎的编码风格让传统的软件工程师感到困惑……直到把他们远远甩在后面。速度是其最大的优点,其次是不忽视可能有用的东西。掌握信息的可视化表示有助于解决大脑方面的速度瓶颈:漂亮而有效的图表让大脑可以更快地提取信息,快速获得潜在的见解。


在统计学家和 ML 人员反应迟钝的领域,分析师是决策者和其他数据科学同事的灵感旋风。


结果是:企业摸清了脉搏,看到了以前未知的未知。这带来了灵感,帮助决策者选择有价值的任务并将其发送给统计学家和 ML 工程师,将他们从数学上令人印象深刻而又实际没用的兔子洞中拯救出来。

草率的废话,还是精彩的故事?

“但是,”反对统计学家的人说,“他们大多数所谓的见解都是胡说八道。”他们的意思是,这些人的探究结果可能只反映噪音。也许吧,但还有更多的故事。


分析师是数据故事的讲述者。他们的任务是总结有趣的事实,并小心地指出,如果没有统计跟踪,任何伴随而来的诗意灵感都不会被认真对待。


买家注意:有很多数据骗子冒充数据科学家。没有什么魔法能使不确定性变成确定性。


优秀的分析师对他们职业中的一条黄金法则有着坚定不移的尊重:不要在数据之外得出结论(并阻止你的受众这么做)。不幸的是,货真价实的分析师相对较少——买家注意:有许多冒充数据科学家的数据骗子。他们胡言乱语,毫无章法地跳出数据,“支持”一厢情愿的决定。如果你的道德标准是宽松的,也许你会把这些蛇油推销员留在身边,让他们成为你的业务营销黑魔法的一部分。就我个人而言,我宁愿不要。


优秀的分析师对他们职业中的一条黄金法则有着坚定不移的尊重:不要在数据之外得出结论。


只要分析师坚持事实(“这里就是这个。”这是什么意思?“只是:这里就是这个。”),不要对他们过于严肃,他们犯下的最严重的罪行就是浪费别人的时间。出于对他们的黄金法则的尊重,优秀的分析师会使用温和的、模棱两可的语言(例如,不是“我们得出结论”,而是“我们被激发出好奇心”),通过强调对每一种见解都有多种可能的解释,来打击领导者的过度自信。


虽然检验假设需要统计技能,但分析人员是首先提出这些假设的最佳人选。例如,他们可能会说“这只是一种相关性,但我怀疑它可能是由……”,然后解释为什么他们会这么想。


这需要对数据之外可能发生的事情有很强的直觉,以及将选项传达给决策者的沟通技巧,决策者通常会决定哪些假设(许多假设)足够重要,值得统计学家付出努力。随着分析师的成熟,他们将开始掌握窍门,判断什么东西是重要的,什么东西是有价值的,从而让决策者摆脱中间人的角色。


在这三类人中,分析师是最有可能继承王位的人。


因为学科问题专家可以帮助你更快地发现数据中有趣的模式,所以最好的分析师会认真地熟悉这个领域。不这样做是一个危险的信号。当他们的好奇心促使他们对业务产生一种感觉时,他们的产出就会从一堆错误的警报转变为一套决策者更有可能关心的、精心策划的见解。


为了避免浪费时间,分析师应该列出他们想要讲述的故事,并从多个角度进行后续调查,看看它是否站得住脚,然后再提交给决策者。如果决策者处于被一个鼓舞人心的故事驱使采取重要行动的危险之中,这是统计人员介入的信号,根据决策者愿意接受并承担风险的假设,检查(当然是在新数据中)行动是明智的选择。

分析师和统计学家的复合人才

对于坚持事实的分析师来说,没有什么会错,只会慢。在“做正确的事情”中加入统计专业知识忽略了一个重要的点,特别是因为在探索性数据分析和统计严谨性之间有一个非常重要的过滤器:决策者。具有决策责任的人必须在业务影响上签字,确认分析师的见解值得花费专家大量的时间。除非分析学家和统计学家的复合体同时也是一个有经验的决策者和业务负责人,否则他们的技能组合形式就像一个有夹层的三明治。


然而,一位填补这一缺口的分析师,其价值堪比黄金。请珍惜他们!

机器学习和 AI 分析学

机器学习专家将大量潜在的数据输入算法,调整设置,并不断迭代,直到产生正确的输出。虽然听起来似乎这里没有分析的角色,但在实践中,一家企业往往有太多可能的配料,无法一下子把它们全部塞进搅拌机里。


分析师是短跑运动员;他们具有帮助你快速查看和总结“是什么”的能力,而这种能力是你的流程的超能力。


有一种方法可以筛选到一个有价值的集合来尝试,那就是领域专家——询问一个人对事情如何运作的看法。另一种方法是通过分析。跟烹饪做个类比,机器学习工程师擅长在厨房里修修补补,但现在他们正站在一个巨大而黑暗的仓库前,里面装满了可能的配料。他们可以随意取一些,把它们带回厨房,也可以先派一个带着手电筒的短跑运动员穿过仓库。你的分析师就是短跑运动员;他们具有帮助你快速查看和总结“这里是什么”的能力,而这种能力是你的流程的超能力。

分析师和机器学习专家复合人才

分析人员可以加速机器学习项目,因此双重技能非常有用。不幸的是,由于分析和ML工程之间的编码风格和方法差异,个人拥有最高专业知识的情况并不常见(更罕见的是,在需要的时候,他会变得迟钝而富有哲理,这就是为什么真正的全栈数据科学家确实是一头罕见的野兽)。

长期低估的危险

一个专家分析师不是机器学习工程师的一个粗制滥造的版本,他们的编码风格特意针对速度做过优化。他们也不是糟糕的统计学家,因为他们根本不处理不确定性,他们处理的是事实。“这是我们的数据,我的工作不是讨论现有数据之外的意义,但它可能会激励决策者与统计学家一起探讨这个问题……”


初学者没有意识到,这项工作需要顶级分析师对数据科学的数学理解比其他任何一种角色都要好。除非这项任务非常复杂,需要发明一种新的假设检验或算法(这是研究人员的工作),否则统计学家和 ML 专家可以依赖于检查现成的软件包并检验它们是否适合这项工作,但他们通常可以不必亲自面对这些公式。


例如,统计学家可能会忘记 t 检验的p值公式,因为他们是通过点击并运行一个软件包来得到它,但他们永远不会忘记如何以及何时使用它,以及对结果的正确哲学解释。另一方面,分析师们并不打算对此做出解释。他们想要一个骇人而巨大的多维数据集。通过了解 p 值公式对数据集的切片方式,他们可以对原始数据集中的模式形成一个反向视图,从而生成他们看到的数字。没有对数学的理解,你就不会得到那个观点。然而,与统计学家不同的是,他们并不关心 t 检验是否适用于数据。他们关心的是 t 检验能让他们对当前数据集中发生的事情有一个有用的看法。区别很细微,但很重要。


统计学家处理数据之外的事情,而分析师则专注于数据内部的事情。


对于最优秀的人员,他们都是非常数学化的,他们经常使用相同的公式,但他们的工作是完全不同的。


类似地,分析人员经常使用机器学习算法对数据进行切片,识别引人注目的分组,并检查异常情况。因为他们的目标不是效能,而是灵感,所以他们的方法不同,并且对ML工程师来说可能显得草率。同样,这是在不同的工作中使用相同的工具。


用一个类比来总结一下:外科医生、裁缝和办公室职员都用大头针。这并不意味着这些工作是相同的,甚至可以相提并论,鼓励你的所有裁缝和办公室工作人员学习外科手术来提升他们的职业生涯是危险的。


每项业务都需要的唯一角色是决策制定者和分析师。如果你失去了分析师,谁来帮你找出哪些问题值得解决?


如果你过分强调雇佣和奖励机器学习和统计方面的技能,你就会失去分析师。那么谁来帮你找出哪些问题值得解决呢?你将只剩下一群可怜的专家,他们一直被要求从事毫无价值的项目或分析任务,而他们并不是主动要参加这些项目或任务。你的数据将毫无用处。

关心和培养研究人员

如果这听起来还不够糟糕,许多领导者试图聘请博士,并过分强调研究——而不是应用——统计学家和 ML 工程师的版本……而又没有一个有价值的、重要的、已知算法不可能解决的问题。


只有当你投资于一个研究部门,而且你不打算询问你的研究人员最近为你做了什么时,这样做才合适。为研究而研究是一项高风险的投资,很少有公司能够承担得起,因为从研究中得不到任何有价值的东西是一种非常现实的可能性。


只有当你有合适的问题需要研究人员解决时,他们才不属于研究部门——他们的技能是在现成的版本并不存在时从零开始创建新的算法和检验——否则他们将经历一个暗淡的西西弗斯螺旋(这将完全是你的错,而不是他们的)。研究人员通常要花上 10 年多的时间进行培养,这至少值得尊重,因为他们不必投入到完全无关的任务中去。


如果有疑问,首先雇佣分析师,而不是其他角色


因此,在分析人员帮助你确定了一个有价值的项目,并尝试借助应用数据科学家来完成它,但已经失败之后,才应该将他们召到一个应用项目中。那就是你培养专业发明家的时候了。

小 结

如果有疑问,首先雇佣分析师,而不是其他角色。感激他们并给予奖励。鼓励他们在他们所选择的事业(而不是其他人的)上达到顶点。在这篇文章提到的角色中,只有决策者和分析师是每项有数据的业务都需要的角色。其他的角色只有当你确切知道需要它们做什么的时候才有用。从分析开始,并为你的新能力感到自豪,你可以睁开眼睛,丰富和美丽的信息就在你的面前。灵感是一种强大的东西,不容忽视。


查看英文原文:


https://towardsdatascience.com/data-sciences-most-misunderstood-hero-2705da366f40


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-04-20 15:501422
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 261.0 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

不要再问我 In,Exists 走不走索引了

做梦都在改BUG

《2023大型企业财务数智化白皮书》:大型企业财务数智化建设应用架构

用友BIP

财务数智化 智能财务

字节三面被挂后,狂刷算法,意外斩获阿里offer,定级P6+

做梦都在改BUG

Java 数据结构 面试 算法

2023金三银四最新Java面试题大全(整理版)1000+面试题附答案详解

架构师之道

程序员 java面试

建木缓存—提升构建速度,让你不加班!

Jianmu

maven 缓存 持续集成 CI/CD 流水线

给跪了!阿里P7技术专家进阶必备,架构进阶宝典

做梦都在改BUG

Java 进阶 架构师

分析 | NFTScan NFT API 在加密钱包开发中的应用

NFT Research

API NFT

线上sql执行慢,分享3个优化案例

采菊东篱下

MySQL

中小企业运维安全审计用什么软件好?有推荐吗?

行云管家

信息安全 堡垒机 运维审计

想稳中求进?字节大佬的硬核学习神器《图解Java并发编程》看了吗

Java你猿哥

Java 面试 Java并发 ssm 面经

见技术大佬,领惊喜好礼!快来领取数据库峰会邀请函!

InfoQ写作社区官方

数据库 云原生 阿里 热门活动 阿里云瑶池数据库峰会

轻松搞定面试拿offer的Java面试宝典(全彩图文版)24个Java技术栈

Java你猿哥

Java 面试 ssm 面经 java技术栈

布隆过滤器(Bloom Filters)的原理及代码实现(Java)

做梦都在改BUG

Java 布隆过滤器

GO语言集成开发: GoLand 2022 中文激活版

真大的脸盆

Mac 代码开发 Mac 软件 代码编辑 代码编辑工具

阿里巴巴灵魂一问:说说触发HashMap死循环根因

Java你猿哥

Java jdk 后端 ssm

【IT小知识】扩容是什么意思?扩容的近义词有哪些?

行云管家

扩容 IT运维

爱了!阿里P8纯手码出489页SQL优化手册,附笔记源码

做梦都在改BUG

Java 数据库 sql 面试

3月27日“文心一言云服务”系列产品将发布 已有21家企业签约

Geek_2d6073

瓴羊Quick BI作为自定义数据门户,在企业的有效管理中发挥巨大作用

流量猫猫头

让国内顶尖程序员社区“牛客网”低头的这份Java面试手册真的强

程序知音

Java 编程语言 java面试 java架构 八股文

IPQ5018 cooperate QCN6122 / QCN6102 high performance high speed wi-fi connection

Cindy-wallys

ipq5018 QCN6102 QCN6122 IPQ5010

美团二面特点:喜欢写一个 SQL 语句,然后问你加了哪些锁!

Java你猿哥

Java 数据库 sql ssm InnoDB存储引擎

建木v2.7.0发布

Jianmu

node.js maven 缓存 CI/CD 流水线

终于扒完国内算法第一人10年经验总结的数据结构与算法详解文档

程序知音

Java 算法 编程语言 数据结构与算法 后端技术

TechBits | TCP 使用 WireShark 进行抓包

Java你猿哥

Java 后端 ssm

Java体系最强干货分享—挑战40天准备Java面试,最快拿到offer!

Java你猿哥

Java 后端 ssm 面经 春招

Apache Doris 1.2.3 Release 版本正式发布

SelectDB

数据仓库 数据湖 Doris 数据湖Catalog catalog

硬核!腾讯大佬最新手打的Spring Boot笔记,从原理到实战再到源码

Java你猿哥

Java Spring Boot 后端 面经

京东三面:说说synchronized和volatile的区别

Java你猿哥

Java 面试 ssm 面经 Java多线程

Go Slice 扩容的这些坑你踩过吗?

王中阳Go

Go golang 高效工作 学习方法 面试题

如何基于 Apache Doris 与 Apache Flink 快速构建极速易用的实时数仓

SelectDB

flink 数据湖 实时数仓 Doris 数据库、

分析师凭什么要做数据科学领域的“二等公民”?_AI&大模型_Cassie Kozyrkov_InfoQ精选文章