写点什么

数据科学团队管理实战

  • 2017-08-21
  • 本文字数:2426 字

    阅读完需:约 8 分钟

数据科学团队的运营不是通过观看 Coursera 和 Udemy 上的讲座和视频就可以学会的。不要误解我们的意思,这两个网站是学习数据科学和机器学习理论及实践问题的好地方。

不过,它们不教授有效的商业实践,也不教授如何运营商业环境里的数据团队。了解算法,知道如何使用 Hadoop,并不足以让我们拥有一个高效的数据团队

给数据科学团队的建议

团队需要和其他部门一起工作,他们需要维护软件,向主管报告,当然,带来商业价值!与分析和商务智能一样,数据科学也只是让企业更高效地赚钱的工具。

大多数数据科学课程都没有提及上述内容。这就是为什么不仅自定义数据科学算法和模型是我们的重点之一,数据科学团队建设也是我们的重点之一。

我们希望提供一些好的方法,帮助数据科学团队取得更大的成功。这与算法和模型无关,一切都是关于企业里的数据专家如何运营数据团队。

ROI Vs. 算法与技术

作为程序员、数据科学家和工程师,对于我们的数据项目或者正在开发的软件,我们大多数人都把更多的注意力放在了技术方面。我们开发产品不只是为了钱,而是为了证明我们能做什么。这是一个挑战!我们是问题解决者。

也许我们希望证明,我们能够开发出一个算法,预测一款产品是否受欢迎。仅仅是为了好玩!

不过,归根结底,我们数据科学家、数据顾问和软件工程师都受雇于企业,而那些企业希望看到财政营收。你是使用了基于神经网络的算法,还是基于支持向量机的算法,这并没什么关系,只要最大限度地节省成本,或者带来最大的收益。

重要的是记住,数据科学家或大数据分析师越快弄清楚这个问题,就越能有效地发挥他们的作用。数据科学家都要有一点企业家精神

数据科学家寻找机会为企业省钱,或者发现新的价值流。我们经常是正确的,因为我们不仅了解业务,我们还有数据支撑我们的观点。

这就是有一个与企业步调一致的数据团队的价值之一。他们有推动决策的数据。

数据工程

有个方面有时候会完成得比较仓促,那就是数据工程。它可能看上去不重要,可能看上去很容易修改。但是,如果数据的设计规划不便于操作和开发,那么数据科学家在设计算法和下游工作流时会陷入时间地狱。

这是indeed.com 上数据工程师的职位需求占比高于数据科学家的原因之一。

数据的组织方式在分析方面非常重要。我们团队有几名成员最初就是数据工程师,这就是为什么他们如此重要。他们不仅能够创建优美的算法,还能够创建数据管道,让数据能够自然地从点A 到点B,从数据仓库到算法。

经过良好设计规划的数据易于修改,容易接入新模块及报告新指标,等等。它可能看起来奇怪,但借助良好的数据工程,一切都是有可能的!

系统设计也是为了数据科学家

设计算法的时候很容易忘记,设计结果是需要真正地在生产环境中实现的。

数据科学家不能只是设计算法并就此止步。相反,那通常需要某种形式的数据仓库或数据存储中心,而且作为一个系统,既提供数据,又记录来自开发好的模型的数据。算法不是一个本身可以创造美元的独立岛屿。

通常也会有一些某种形式的接口,用户可以与之交互。

举例来说,这可能是一个网站或者一个故事板。其目的是让终端用户对直接传达给他们的东西有可行且可理解的见解,而不用他们转换模型产生的随机数和输出。

当我们只是在课堂上做一个Kaggle 题目或者创建一个项目时,这会被忽略。这就是为什么像Galvanize 这样的项目会让他们的学生和实际的企业建立合作伙伴关系,因为将一个算法投入生产环境所需要完成的工作比只是开发它要多。

需要操作老系统,筛选API 文档,还有缺陷、变通方案,当然还有公司政治。

公司政治,是的,你会卷入的

企业总是有政治,没有办法可以绕过。数据科学高管和项目负责人需要能够和其他团队共事,像其他部门一样筹集资金。

这需要了解其他高管想要什么又需要什么,务必保证他们支持你的项目。如果他们不支持你的项目,如果他们等待机会背后捣鬼(而且那种情况出现了),那么你的项目就会失败。

不要控制,而是要引导其他团队的负责人,让他们同意你的观点,或交换方案,或折中方案。务必确保你没有触到任何人的痛点……至少,在你的数据团队多次证明自己之前不要。即使已经多次证明过自己,也不要让自己变得难以共事。

否则,没有人会为你的业务团队提供资源。

文档是数据团队的朋友

好吧,有件事85% 的程序员都得承认,就是他们讨厌文档。没关系,这不是最有趣的事。不过,坚持编写文档非常重要。

不要等项目结束了再写文档!!!

数据科学算法、数据结构、软件都需要不断地记录到文档上。

没有人要求数据团队再写一本《汤姆·索亚历险记》。务必保证注释清晰易懂,任何程序员都可以理解。

你永远不知道一个团队成员何时会离开,从而留下一堆进行到一半而又没有文档的项目。

因此,为了保持可维护性,务必让你的数据团队随着项目进行编写项目文档。那会让你的团队节省大量处理技术债务的时间,并确保你的项目可以继续运转下去。

数据科学项目需要有软件QA 和生命周期

数据科学是软件开发的一部分。就是说,需要有一个流程来确保开发出的代码健壮、可维护。

怎么做?

针对代码和数据设定一个不错的 QA 流程,确保代码从开发环境进入生产环境有一个标准化的流程。

不,你不应该在生产环境中测试代码!

问题就是那样出现的!!!

不要误解我们的意思,你需要推出代码,但不能以破坏构建为代价。

同行审查、QA 和单元测试可以帮数据团队避免许多麻烦。确保不要出现持续的干扰,如一名工程师花很长的时间对其他人的代码进行同行审查。

同时,确保你没有让开发出的代码直接进入生产环境里!!

算法不是数据科学的全部

事实上,数据科学和分析并不是一颗魔弹。它只是另外一种工具,企业可以用它增加收益,降低成本。如果运营得当,它会产生巨大的竞争优势。如果数据设计规划良好,那么团队其他的业务也会运转良好。

查看英文原文 Practically Managing A Data Science Team


感谢蔡芳芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-08-21 19:002242
用户头像

发布了 1008 篇内容, 共 423.2 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

将不费吹灰之力成为卷王的秘籍传授于你!

龙智—DevSecOps解决方案

Jira插件 龙智自研插件 Jira飞书插件

【高并发】你知道吗?大家都在使用Redisson实现分布式锁了!!

冰河

并发编程 多线程 高并发 异步编程 6月月更

了解es6语法简介

小恺

6月月更

使用Sonar来优化您的基础架构代码

龙智—DevSecOps解决方案

漏洞 SonarQube

从冬奥跳台飞跃向千家万户:联通“臻宽带”的起跳瞬间

脑极体

字节跳动数据库的过去、现状与未来

火山引擎开发者社区

数据库 微服务 分布式数据库

孩子上网冲浪更安全,这份儿童节礼物值得拥有

最新动态

InfoQ 极客传媒 15 周年庆!无限生长未来可期!

InfoQ写作社区官方

热门活动 InfoQ极客传媒15周年庆

DataPipeline:让数据生产力的历史进程,再前进一步

DataPipeline数见科技

DataOps 数据管理

顶级好用的 React 表单设计生成器,可拖拽生成表单

蒋川

低代码 开发工具 React 表单 组件

OpenHarmony 3.1 Release版本关键特性解析——OpenHarmony新音视频引擎——HiStreamer

OpenHarmony开发者

Open Harmony

看完这篇异地多活的改造,我决定和架构师battle一下 / 得物技术

得物技术

架构 容灾 双活 双活容灾 异地多活

C#入门系列(一) -- 初识C#语言

陈言必行

C# 6月月更

八大误区,逐个击破:担忧安全防护与合规性?这可能是您对云最大的误解

龙智—DevSecOps解决方案

Atlassian atlassian云版 Atlassian白皮书

2022云原生网络趋势 | K8s托管整个基础设施、多云、边缘计算、安全等场景,将云原生网络带向新战场

York

云原生 网络 Kube-OVN cni 6月月更

Redis 忽然变慢了如何排查并解决?

码哥字节

redis Redis 核心技术与实战 6月月更

博睿数据拨测入场加速广电深度融合

博睿数据

智能运维 博睿数据 智慧广电

雅加达利用SAS优化抗疫救助资金发放,帮助中小微企业度过难关

E科讯

特别的儿童节,OceanBase 送上一份特别的惊喜

OceanBase 数据库

oceanbase

将虚幻引擎5与Perforce Helix Core集成使用吧!

龙智—DevSecOps解决方案

perforce 虚幻引擎5 Helix Core

MSVC编译动态库

Loken

音视频 5月月更

展示 Postlight 的 WordPress + React Starter Kit

海拥(haiyong.site)

WordPress 6月月更

24小时无人自助洗车要如何加盟?

共享电单车厂家

自助洗车加盟

6元自助洗车机一般都什么价位

共享电单车厂家

自助洗车加盟 6元自助洗车机

有了这个云端Mock功能,你的简历起码提升30分!

Liam

前端 Postman 前端教程 API文档 前端工具

为什么PO的角色在Scrum框架中不可替代

ShineScrum

Scrum 产品经理 PO 产品负责人

关键点标注的酷炫,你想象不到

澳鹏Appen

人工智能 数据标注 数据训练 关键点检测 关键点

那些年,我们在Apache SeaTunnel 2.1.0部署中踩过的坑【含源码分析】

Apache SeaTunnel

Apache 大数据 开源 workflow Seatunnel

哪些人比较适合加盟自助洗车

共享电单车厂家

加盟自助洗车

洗车行业前景好不如开个自助洗车店

共享电单车厂家

自助洗车加盟 开自助洗车店

自助洗车机还能加盟你不知道吧?

共享电单车厂家

自助洗车机 自助洗车加盟

数据科学团队管理实战_大数据_SeattleDataGuy_InfoQ精选文章