把握行业变革关键节点,12 月 19 日 - 20 日,AICon北京站即将重磅启幕! 了解详情
写点什么

你不是谷歌或脸书,如何建立机器学习团队?

  • 2018-11-26
  • 本文字数:2202 字

    阅读完需:约 7 分钟

你不是谷歌或脸书,如何建立机器学习团队?

AI 前线导读:

最近,各种规模、各种行业的公司的朋友都问我同样的问题,“我如何将机器学习应用于我的业务?”这些人都认识到,机器学习有很合适的应用场景。但是,每个人都在让机器学习发挥作用、雇佣员工、获得成功方面陷入了困境。根据业务规模,我将介绍三种分别适用于小型团队、中型团队和大型公司的方法。

更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)


最近,各种规模、各种行业的公司的朋友都问我同样的问题,“我如何将机器学习应用于我的业务?”这些人都认识到,机器学习有很合适的应用场景。但是,每个人都在让机器学习发挥作用、雇佣员工、获得成功方面陷入了困境。


根据业务规模,我将介绍我的三种主要方法。

小型团队

这些是我对处于早期阶段的公司或非营利组织提出的关于机器学习应用场景的建议。对于一家规模小、没有资金或资金不足的公司来说,在内部获得机器学习的专业知识感觉是不可能的。好消息是,许多 ML 从业者对这种工作感到兴奋。寻找关心公司使命的人。在这种规模下,你将依赖 ML 从业者来实现从数据收集、清理到部署的所有端到端的一切。实际的机器学习部分几乎可以肯定是非常小的。


雇佣一个在工程和数据方面都比较擅长的人绝对是最好的选择。一个经验丰富的工程师,如果他回到学校,或者做过一些机器学习方面的线上工作,那么他就能很好地发挥作用,因为他的目标不是完美,而是让一个系统完成端到端的工作,然后慢慢地优化所有的步骤。我要找一份简历,上面写着参加过一些 Kaggle 竞赛或自主项目。在面试中,我要找的是既思想开放又务实的候选人。在构建和测试一个模型之前,想要把一种模型应用于所有事情的研究人员或者想要花费几个月的时间来优化数据管道的研究人员都不太适合。

中型团队

当我在一家正在成长的初创企业或中型企业中组建团队,而他们对多种机器学习应用程序感兴趣时,我采取了一种略有不同的方法。与谷歌不同,你雇不起这么多研究人员。你负担不起让机器学习专家撰写研究论文的费用。这里的关键是雇佣一个非常优秀的机器学习研究人员,并为他们配备数据工程师,使他们非常有生产力。找一个有良好背景和记录的人,确保人们愿意和他们一起工作。像使用宝贵的资源一样使用他们——不要让他们编写代码——让工程师围绕在他们周围,从他们那里学习,并让他们教工程师如何进行机器学习。


有些公司会建立一个实用的机器学习小组,有些公司会将机器学习包含到团队中。许多人对此有强烈的看法,但我是务实的,我看到过,两种组织结构都可以奏效。单独的机器学习团队可以真正地帮助人才,这往往是最大的瓶颈。在这种方法中,你需要谨慎管理团队,以确保他们正在为组织处理最重要的任务。把机器学习的专业知识分散到整个组织中,可以使实际的机器学习专家感到高兴,因为他们更接近最终用户,但那会增加招聘的难度。


雇佣更多的机器学习工程师,而不是机器学习科学家,并让他们配合工作,这至关重要。机器学习团队使用他们的算法进行优化的事情经常与业务需求有根本的不同。如果没有一个可工作的端到端系统,这种失调可能会持续数月而无法发现。另一个常见的问题是训练数据需要修改或更新,但直到训练和部署算法时才发现。由于这些原因,在迭代端到端的系统之前,让端到端系统尽可能快地运行起来至关重要。

大型公司

在与许多大型公司的合作中,我一次又一次地看到同样的错误。在这个范围内,一家公司可以雇佣高质量的 ML 人才,但却没有足够的预算与行业巨头竞争。


Facebook 和谷歌的精英团队正在使用标准的开源模型和架构。最近,我与许多《财富》500 强的企业进行了交谈,他们正在构建自己的神经网络体系结构,但没有测试是否有必要这样做。机器学习研究人员喜欢做研究,而管理者欺骗了自己,让自己认为研究人员正在构建有价值的知识产权。他们不是。他们浪费了大量的时间来重新发明轮子,而这些时间最好花在最新的、最前沿的模型上。在复杂度上,最好从最简单、最标准的东西和层面开始。每一个额外的部分都会对算法的性能产生重大影响


大公司应该避免建立自己的机器学习基础设施。与我交谈过的几乎每家科技公司都在建立自己的机器学习库,而且他们的团队对这方面的工作非常有热情。这种趋势让我想起了 2005 年,一些公司构建了自己的 Web 应用程序框架,在难以标准化的定制平台上进行开发。当时已经有良好的基础设施,而且一直在改善。与构建和维护定制基础设施相比,使用开源工具要更可持续。


大型公司应该培训他们的工程师做机器学习。工程师们非常渴望学习机器学习,现代基础设施工具使机器学习变得越来越简单。在这一点上,我认为,与教机器学习实践者如何成为一个好的工程师相比,教一个工程师机器学习更有效。无论如何,经过一些机器学习训练的工程师在很多方面都可以发挥作用。有些公司正在这样做,但我很惊讶,更多的公司没有意识到这一点。

值得吗?

雇佣 ML 团队的成本很高,而且工作量很大。有些公司雇了一个 ML 团队来吸引投资者——这永远不会有好结果。不管你的规模有多大,如果你没有一个清晰的机器学习应用,你会后悔你的投资。要问自己几个关键问题:


  1. 我有需要机器学习来解决的问题吗?(关于这一点,我有一个视频。)

  2. 我能够标注或收集相关的训练数据吗?

  3. 我要解决的问题对于业务而言很关键吗?


如果所有这些问题的答案都是“是”,那么你已经做好了成功的准备。


查看英文原文:https://www.wandb.com/blog/how-to-build-a-machine-learning-team-when-you-are-not-google-or-facebook



2018-11-26 14:321558
用户头像

发布了 1008 篇内容, 共 445.4 次阅读, 收获喜欢 346 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

领域驱动设计入门与实践[下]

LigaAI

团队管理 DDD 领域驱动设计思想 LigaAI

天翼云新一代V5云主机,Kvm之生,Xen之死!

天翼云开发者社区

每周更新 | Verilog测试用例及波形展示图功能上线

ShowMeBug

打造中国优质奶源基地 筑牢高质量发展基石

科技新消息

使用 Amazon Cloud WAN 构建您的全球网络

亚马逊云科技 (Amazon Web Services)

Builder 专栏

【网络安全】网络安全堡垒机多少钱?有什么用?

行云管家

网络安全 信息安全 数据安全 堡垒机 企业安全

再论ORACLE上云通用技术方案

天翼云开发者社区

芝士就是力量!蒙牛2021年报笑出大大的CHEESE

科技新消息

61%!产品+渠道创新 蒙牛冰淇淋业绩收录有史高增长

科技新消息

设计消息队列存储消息数据的 MySQL 表格

唐尤华

架构实战营

TypeScript 之 any:哪里可以用?哪里不能用?

杨成功

4月月更

PolarDB-X 正式发布2.1.0版本,Paxos 重磅开源

阿里云数据库开源

数据库 阿里云 开源 分布式 PolarDB-X

教你三步实现CDH到星环TDH的平滑迁移

星环科技

国产数据库

自动化运维发展趋势以及好用工具推荐

行云管家

运维 IT运维 自动化运维

把一整个生态圈藏进大沙漠 看蒙牛如何在每一滴奶中藏进玄机

科技新消息

蒙牛2021年报:数智化大脑为乳业插上腾飞翅膀

科技新消息

java培训浅谈程序员怎么避免面试过程中碰壁

@零度

面试 JAVA开发

Linux 管道操作符详解

CRMEB

专属云资源包计算规格探秘

天翼云开发者社区

天翼云分布式缓存服务(Redis)的几个核心概念

天翼云开发者社区

制造业企业数据平台建设最佳实践分享

华为云开发者联盟

数字化转型 数据平台 制造业 华为工业云平台 数据应用

压测做的不对,等于白做

基调听云

性能测试 压测 全链路压测

墨天轮访谈 | 腾讯张铭:带你揭秘王者荣耀背后的游戏数据库 TcaplusDB

墨天轮

数据库 TcaplusDB 国产数据库

天翼云分布式缓存服务(Redis)的应用场景(干货)

天翼云开发者社区

夯实领军者地位 奶酪业务协同发展领先赛道

科技新消息

龙蜥社区&龙蜥开发者获CSDN 2021年度技术影响力「年度开源项目」奖和「年度社区之星」

OpenAnolis小助手

开发者 开源项目 龙蜥社区 年度影响力 社区之星

手绘模型图带你认识Kafka服务端网络模型

华为云开发者联盟

kafka 多线程 网络模型 Reactor多线程 Processor

人工智能融合赋能平台,赋能智慧城市智能化升级

脑极体

整机生产制造头部厂商雷神科技加入龙蜥社区

OpenAnolis小助手

Linux 开源 整机

爆款国民冰淇淋原来是这样“凝冻”出来的

科技新消息

易观分析:海外业务亮眼,研发+IP运营助力中手游持续增长

易观分析

IP 中手游

你不是谷歌或脸书,如何建立机器学习团队?_文化 & 方法_Lukas Biewald_InfoQ精选文章