AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

想留住人才?先要管理好数据科学团队

  • 2019-08-30
  • 本文字数:5187 字

    阅读完需:约 17 分钟

想留住人才?先要管理好数据科学团队

本文最初发布于 Domino 官方博客,经原作者授权由 InfoQ 中文站翻译并分享。


不管在什么地方做一名管理者,都不是一件易事,但管理一支数据科学团队的话,可能就特别富有挑战性了。角色仍然不断变化,加之人员流动率居高不下,公司正在寻找团队运作的最佳实践方式。而成为一名技术专家,却未必能让你为管理他人做好准备。


无论你现在是在管理一支数据科学团队,还是准备启动一支数据科学团队,亦或者希望将来能够成立一支数据科学团队,本指南将使你成为企业中更好的数据科学团队管理者。

如何聘用和留住数据科学家

在最近举行的数据科学领袖 Rev 峰会上的小组讨论中,三位专家分享了他们有关聘用、留住和培养数据科学人才的建议。


他们的建议总结如下。

来自数据科学管理者的建议

首先,招募领导者

如果你从初级员工或刚从学术界毕业的人开始,没有导师指导的话,他们很有可能会感到迷茫和沮丧。ShopRunner 的数据科学高级总监 Michelangelo D’Agostino 建议,首先要安排一个更有经验的人来带领团队。

谨慎甄选管理者

不要只关注技术人才和经验。小组成员一致认为,谦逊、好奇心以及倾听和接受反馈的能力,是担任高级职位的关键特征。D’Agostino 说:“即将负责的人必须清楚,他们并没有所有的好主意或者答案。”他建议,让未来的员工描述他们失败的情况,听听他们将如何避免重蹈覆辙,以此来衡量他们自我反省的能力。

反思数据挑战

鉴于竞争激烈的招聘环境,繁重的开卷考试可以筛选出合格的求职者,要营造出一种紧张的考试氛围。Insight Data Science 的首席数据科学家 Patrick Phelps 表示,其实无需这些挑战就能招到优秀员工。“这真的很难衡量……并且评分需要很长的时间,”他说,“我宁愿让一名优秀的数据科学家和我的团队在一个房间里呆上一个小时。”如果确实包含挑战的话,D’Agostino 建议,让求职者在办公室完成一次编码练习,并像在非正式的代码审查中进行讨论。

数据科学家的招聘和入职计划

这个招聘和入职计划模板通过关键问题来帮助团队寻找和培训新的数据科学家。计划模板包括吸引顶尖人才、招聘流程、入职、留任等关键问题。


通过采取系统的方法,数据科学领导者将最大限度发现并培养一个团队,这个团队要大于团队组成部分的总和。


可以下载这份招聘计划的 PDF 版本,便于打印。

吸引顶尖人才

  • 你对候选数据科学家的不同价值主张是什么?列出三个独一无二的事情,你认为这些事情能让你与目标候选人群产生共鸣。在小组中测试你的演讲,获取反馈。

  • 有哪些 1~3 级风险,可能会让机会不如竞争机会那般有吸引力?你如何减轻或者超越它们呢?

招聘过程

  • 你的应聘者最重要的三个特征是什么?

  • 你对每个人的评估计划是什么?

入职

  • 在最初的 30 天、60 天和 90 天内需要完成哪些活动和成果?

  • 你的新员工需要知道的最重要的“部落知识”是什么?她 / 他将如何学习这些知识?例子包括数据源、项目方法、利益相关者动态、显著的得失等。

留任和管理

  • 你希望应聘者在一年内发展什么技能?

  • 一年后,哪些指标将决定该应聘者是否成功?例子包括某些业务指标、社区贡献、生成的见解数目或项目迭代速度。

留住你的人才

  • 不要过分夸大这个角色。约有半数的数据科学家在他们的岗位上不超过两年。Domino 的客户成功经理 Conor Jensen 建议,为了降低人员流动率,要诚实地告诉应聘者你正在招聘的职位的具体情况。“要非常现实地知晓关于角色的定位,痛苦将会是什么,你认为影响会在哪里,以及时间线是什么样的。”他说,“很多时候,我们对作为数据科学家将要完成的事情感到亢奋,而且我们可以领先一步。”

  • 了解团队成员的动机。 Jensen 建议花点时间去发现每个员工的目标、兴趣和个人激励。然后你可以将它们与奖励项目配对,并以一种有意义的方式来认可他们的成就。

  • 提供支持。 Phelps 说:“数据科学可能是一门失败的学科:模型失败、流程失败、数据源变得糟糕透顶。”他建议提供积极的支持,并提醒团队成员,可能需要数年的时间才能看到影响。Jensen 还建议将问题分解成可控的小块,这样员工就不会被巨大的项目给吓破胆。

  • 创造学习机会。 D’Agostino 观察到,数据科学家经常因为感到无聊而辞职。如果核心项目不够前沿,他建议为团队成员创造学习新事物的机会,例如,每周一次午餐讨论最新的研究成果,或者偶尔举办黑客马拉松来测试新的软件框架和计算技术。

成功数据科学管理者的习惯

以下是我们在许多成功的数据科学管理者身上观察到的七个习惯,没有特定的顺序。


  1. 与其他利益相关者建立联系。 通过打开与其他团队的沟通渠道,避免摩擦和交叉。在每个新项目开始之前,考虑让数据科学家和产品经理在一个房间呆上一个小时,以确保他们达成共识。让数据科学家不带笔记本电脑参加会议,可以迫使他们与其他利益相关者沟通。给数据科学家机会向工程师、产品经理和其他人解释他们的工作,也可以改善沟通。

  2. 跟踪性能。使用模板来跟踪你所讨论的内容、你所设定的目标,以及你在单独讨论会议中给出的反馈。依靠记忆是行不通的。

  3. 目标是将项目投入到生产中。准备团队部署他们自己的 API 服务并生成代码,可以帮助你更快地工作,并且,你还不会被可能无法使用的工程资源所阻塞。

  4. 开始随叫随到的轮换。随着团队规模的扩大,每周安排一次数据科学家随叫随到的轮换,以修复出现故障的模型。这样有助于更好地编制文档,并让那些没有安排随叫随到的人有时间专注于核心项目。

  5. 敢于问一些愚蠢的问题。看似简单的问题,可以为发现和解决基本问题打开大门。

  6. 活到老,学到老。 进行大量的阅读以跟上这个快速发展的领域的步伐。不仅要阅读技术材料,还要了解管理和组织心理学相关的知识。

  7. 放下,但不至于永远。 如果你是新任管理者,请考虑三到六个月放下编码的工作。否则,你可能永远不会真正接受管理者的角色转变,而且可能为团队提供的服务水平低下。成功进入角色之后,你就可以自由地处理那些非关键项目,或者那些没有人愿意做的事情。

知识管理

数据科学家经常对知识管理这一话题感到恐惧。有些人认为这是对他们从“真正的”工作中分散注意力;其他人并没有完全理解这意味着什么。甚至很多人看到这个概念的价值,也会觉得这个过程很痛苦。


但是,Point72 的首席市场情报官 Matthew Granade 和 Domino 数据实验室产品总监 Mac Steele 表示,知识管理能力将成为企业竞争优势的一个关键因素。在下面的视频中,他们两人阐述了为什么知识管理很重要,以及企业应该如何优先考虑知识管理。


数据科学团队的知识管理要点如下。

什么是知识管理?

知识管理的目标就是捕获洞察力,这可以定义为“更好的理解”。因此,洞察力是相对的:它是关于不断改进之前的想法。从 Einstein 到 Freud,洞察力往往被视为“孤独天才”的专利。事实上,大多数洞察力来自于与他人的合作和对现有想法的拓展。


创建这种“复合机器”需要一种获取知识的方法,一种供用户遵循的框架,以及通过反馈改进的机制。企业的未来将越来越多地取决于它们在这方面的表现。随着更多的算法和基础设施得到广泛的应用,数据科学人才库不断增长,数据共享需求不断扩大,捕获和增强独特洞察力的能力将成为一个关键的差异化因素。

为何知识管理如此困难?

知识管理的一些挑战困扰着每个行业:


  • 提前组织知识很困难。分类往往过于死板,因为你不知道将来什么才是重要的。

  • 几乎没有参与的动机。正如一位数据科学家所言,“我今年所做的工作是有报酬的,而不是维护我去年所做的工作。”

  • 这是一个典型的集体行动问题。没有人想成为第一个在文档上花费时间的人。当知识被捕获时,人们很难知道如何将其付诸行动。

  • 系统总是落后于现实。如果知识管理需要额外的时间,并且是在与核心工作不同的系统中进行的,那么它的质量势必会受到影响。


其他障碍则是数据科学团队独有的:


  • 人们使用不同的工具。当团队中一些成员使用 R 语言,而另一些成员使用 Python;当一些成员在 GitHub 中存储代码,而另一些人在电子邮件中存储代码时,知识管理就变得更加困难了。由于人员流动率较高,培训人员使用相同的系统就变成了一粧难事。

  • 单个项目的组成部分是分散的。制品和洞察力可以通过 Docker 商店、wiki、幻灯片演示等传播。

  • 如果你有代码,但这并不意味着你可以重新运行这段代码。对 600 篇计算机研究论文进行的元分析发现,只有 20% 的代码可以重新运行;其中,许多第二次尝试的结果略有不同。

如何提高知识管理水平

有四个步骤可以帮助数据科学领导者改进其企业组织中的知识管理水平:

1. 在一个地方尽可能多地获取知识。

里面的东西越多,你与它们之间的联系就越多,价值就以这种方式增长。你不希望人们在边缘工作。一个包含核心工作和知识管理的公共平台是确保完成工作并将负担最小化的关键。如果你不能捕捉一切,那就从最有价值的模型或知识开始,然后围绕它构建一个系统。


测试:分别询问贵司的五位数据科学家:“您认为这个团队现在正在做多少个项目?”他们可能会给出不同的答案。

2. 选择一个允许发现、来源、重用和模块化的知识管理系统。

发现: 数据科学家耗费大量时间来搜索信息,从而降低了工作效率。团队必须做出决定是采用管理知识(Yahoo 方法)还是索引知识(Google 方法)。当领域相对稳定时,内容管理就有意义了。当领域是流动的时候,索引和搜索是最好的方案,而且你也不可能事先知道分类法应该是什么样子的。


测试:让新员工来处理某个主题,并计算他们收集正确的制品需要多长时间。如果是几周或几个月的话,那就是个危险的信号。


来源: 让人们专注于知识管理的重要方面。使用一个平台,让人们可以综合他们的工作,而不必跟踪他们使用的软件版本。


测试:事先写下你认为团队成员应该花在文档上的时间百分比。然后问他们实际花了多长时间。这可能会让你感到大开眼界。


重用: 如果它不能运行,那么就不会被重用。这不仅需要访问代码,还需要访问数据集的历史版本。


测试:请新员工重现另一位数据科学六个月前所做的工作,最好是已经离开团队或组织的人。让他用最新的数据来更新它。如果这过程需要一周或一个月,那就麻烦了。


分解与模块化: 确保人们有动机和工具来创建可重用、构建的构件块。


测试:请两个从事过类似项目的团队进行事后分析,并确定重叠的工作。

3. 确定正确的知识单元

复合系统依赖于知识单元。在学术界中,这些都是书籍和论文;而在软件中,这些都是代码。在数据科学中,模型是组织的正确选择,因为它是数据科学家所做的事情。模型包括数据、代码、参数和结果。

4. 超越技术进行思考

人员和流程层面的变化也很重要。重新定义人们如何看待自己的工作:他们应该花更少的时间去做事,花更多的时间去整理和学习。在招聘和薪酬方面,要将合作放在首位。最后,虽然知识管理应该被视为每个人的工作,但一些组织为管理或促进知识创造了新的角色。

合作

以下三个视频提供了一系列关于数据科学家与企业内其他利益相关者之间合作的经验教训。

促进合作的内部实践

视频链接:

https://www.dominodatalab.com/resources/field-guide/managing-data-science-teams/?wvideo=f4vx20cf39

营造合作环境

视频链接:

https://www.dominodatalab.com/resources/field-guide/managing-data-science-teams/?wvideo=ommsdpxse7

如何影响公司变革

视频链接:

https://www.dominodatalab.com/resources/field-guide/managing-data-science-teams/?wvideo=zz4ifvz4jr

壮大数据科学团队

气候公司(The Climate Corporation)科学副总裁 Erik Andrejko 花了数年的时间关注这一问题,建立并发展多学科数据科学团队。


在下面的视频中,Erik 讨论了如何继续建设世界级的数据科学团队。他还讨论了数据科学的实践、组织的扩展以及数据科学项目的关键组成部分与最佳实践。


视频链接:

https://www.dominodatalab.com/resources/field-guide/managing-data-science-teams/?wvideo=nxv79gqolp

来自财富 500 强的经验教训

通过与从敏捷初创公司到财富 500 强等公司合作,我们已经能够策划这些组织的用例,并从这些组织中了解不断增长的数据科学团队所面临的挑战和成功。


在这段视频中,我们分享了其中的一些经验,包括:数据科学项目的目标、挑战、执行诊断、管理项目和系统,以及利用数据科学平台进行扩展。


视频链接:

https://www.dominodatalab.com/resources/field-guide/managing-data-science-teams/?wvideo=glml8q24a1

后续步骤

本指南涵盖了管理企业中数据科学团队的人力资源的各个环节:招聘和入职,扶持团队走向成功,培养正确的习惯,获取和管理知识,以及促进合作。现在,是时候让这些数据科学家需要做点什么了。了解如何在企业重管理数据科学项目。


作者介绍:


Domino Data Lab(Domino 数据实验室),提供了一个开放、统一的平台,可以大规模构建、验证、交付和监控模型。他们帮助客户接受模型管理,快速交付高影响力的模型,并使数据科学成为客户的竞争优势之一。Domino 是一个数据科学平台,使数据科学团队能够快速开发和部署推动突破性创新和竞争优势的模型。


原文链接:


Enterprise Data Science Field guide > Managing Data Science Teams


2019-08-30 14:2918215
用户头像

发布了 375 篇内容, 共 187.9 次阅读, 收获喜欢 945 次。

关注

评论 2 条评论

发布
用户头像
可当前中小公司不愿付出时间金钱留住这些人才
2019-09-02 09:19
回复
用户头像
虽然是国外的经验,但看起来这些经验也适用于国内。
2019-08-30 14:37
回复
没有更多了
发现更多内容

KubeVela 稳定性及可扩展性评估

阿里巴巴云原生

阿里云 开源 云原生 KubeVela

一文了解 Zebec Labs 投资的 Coral Finance,空投计划或在不久推出

股市老人

新手如何学习挖漏洞?看这篇就够了【网络安全】

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

The Foundry Modo 16 16.1v3激活版 专业3D建模软件

Rose

3d建模 The Foundry Modo

阿里巴巴爆款“Spring Cloud Alibaba 全彩笔记”正式发布

采菊东篱下

微服务

假期做了一项调研:大厂为啥都自研RPC?结果合乎情理!

冰河

程序员 RPC 架构师 技术提升 大厂招聘

2023-05-03:给你一棵 二叉树 的根节点 root ,树中有 n 个节点 每个节点都可以被分配一个从 1 到 n 且互不相同的值 另给你一个长度为 m 的数组 queries 你必须在树上执行

福大大架构师每日一题

Go 算法 福大大

与伙伴同行,Serverless 让创新触手可及

阿里巴巴云原生

阿里云 Serverless 云原生

Django操作异步任务

乌龟哥哥

三周年连更

硬核Prompt赏析:与Auto-GPT的“契约”

无人之路

ChatGPT Prompt

【web 开发】PHP 特殊的对象引用 "$this"(62)

迷彩

php 面向对象 this指针 三周年连更

Mac M1 安装SD不折腾版本

IT蜗壳-Tango

三周年连更

云原生底座之上,这些企业领跑行业的秘密

阿里巴巴云原生

阿里云 容器 微服务 云原生

汽油价格变动实时短信通知

DS小龙哥

三周年连更

xmind怎么导出为pdf?Xmind最全入门教程

Rose

Xmind 2022 XMind下载 思维导图软件

史上最强升级!音乐制作软件Logic Pro中文特别版

Rose

Logic Pro Mac音乐软件下载 Logic Pro破解版

Prometheus 瘦身第一步,使用 mimirtool 找到没用的 Prometheus 指标

巴辉特

Grafana Prometheus Mimir mimirtool

AI 作画火了,如何用 Serverless 函数计算部署 Stable Diffusion?

阿里巴巴云原生

阿里云 Serverless 云原生 AIGC

习惯了和AI聊天,感觉我更加社恐了......

FN0

人工智能 AI AIGC

Mac音乐制作软件推荐:Ableton Live 11 Suite中文版「win/Mac」

Rose

Ableton Live 11破解版 Ableton Live 11中文版 苹果软件下载

HTML和xml有哪些区别?

海拥(haiyong.site)

三周年连更

一文看懂:StopWatch 源码解读

后台技术汇

三周年连更

Flink应用框架层

阿泽🧸

flink 三周年连更

针对容器层的五种攻击手段

穿过生命散发芬芳

容器安全 三周年连更

如何解决Paragon NTFS for Mac安装分卷失败?

Rose

Paragon NTFS ntfs 安装分卷失败

新来个技术总监:发现谁再用 delete 删数据直接开除!

Java你猿哥

Java MySQL ssm 存储 delete

C++智能指针和内存管理:使用指南和技巧

小万哥

c++ 后端 开发 内存管理 智能指针

MATLAB实现航天相关的仿真

袁袁袁袁满

三周年连更

Java面试题1000+附答案大全(合适各级Java开发人员)

架构师之道

Java 面试

阿里巴巴官方上线!号称国内2023最新Java八股文天花板(终极版)首次开源

程序员小毕

程序员 微服务 JVM java面试 Java八股文、

想留住人才?先要管理好数据科学团队_AI&大模型_Domino Data Lab_InfoQ精选文章