写点什么

你不是谷歌或脸书,如何建立机器学习团队?

  • 2018-11-26
  • 本文字数:2202 字

    阅读完需:约 7 分钟

你不是谷歌或脸书,如何建立机器学习团队?

AI 前线导读:

最近,各种规模、各种行业的公司的朋友都问我同样的问题,“我如何将机器学习应用于我的业务?”这些人都认识到,机器学习有很合适的应用场景。但是,每个人都在让机器学习发挥作用、雇佣员工、获得成功方面陷入了困境。根据业务规模,我将介绍三种分别适用于小型团队、中型团队和大型公司的方法。

更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)


最近,各种规模、各种行业的公司的朋友都问我同样的问题,“我如何将机器学习应用于我的业务?”这些人都认识到,机器学习有很合适的应用场景。但是,每个人都在让机器学习发挥作用、雇佣员工、获得成功方面陷入了困境。


根据业务规模,我将介绍我的三种主要方法。

小型团队

这些是我对处于早期阶段的公司或非营利组织提出的关于机器学习应用场景的建议。对于一家规模小、没有资金或资金不足的公司来说,在内部获得机器学习的专业知识感觉是不可能的。好消息是,许多 ML 从业者对这种工作感到兴奋。寻找关心公司使命的人。在这种规模下,你将依赖 ML 从业者来实现从数据收集、清理到部署的所有端到端的一切。实际的机器学习部分几乎可以肯定是非常小的。


雇佣一个在工程和数据方面都比较擅长的人绝对是最好的选择。一个经验丰富的工程师,如果他回到学校,或者做过一些机器学习方面的线上工作,那么他就能很好地发挥作用,因为他的目标不是完美,而是让一个系统完成端到端的工作,然后慢慢地优化所有的步骤。我要找一份简历,上面写着参加过一些 Kaggle 竞赛或自主项目。在面试中,我要找的是既思想开放又务实的候选人。在构建和测试一个模型之前,想要把一种模型应用于所有事情的研究人员或者想要花费几个月的时间来优化数据管道的研究人员都不太适合。

中型团队

当我在一家正在成长的初创企业或中型企业中组建团队,而他们对多种机器学习应用程序感兴趣时,我采取了一种略有不同的方法。与谷歌不同,你雇不起这么多研究人员。你负担不起让机器学习专家撰写研究论文的费用。这里的关键是雇佣一个非常优秀的机器学习研究人员,并为他们配备数据工程师,使他们非常有生产力。找一个有良好背景和记录的人,确保人们愿意和他们一起工作。像使用宝贵的资源一样使用他们——不要让他们编写代码——让工程师围绕在他们周围,从他们那里学习,并让他们教工程师如何进行机器学习。


有些公司会建立一个实用的机器学习小组,有些公司会将机器学习包含到团队中。许多人对此有强烈的看法,但我是务实的,我看到过,两种组织结构都可以奏效。单独的机器学习团队可以真正地帮助人才,这往往是最大的瓶颈。在这种方法中,你需要谨慎管理团队,以确保他们正在为组织处理最重要的任务。把机器学习的专业知识分散到整个组织中,可以使实际的机器学习专家感到高兴,因为他们更接近最终用户,但那会增加招聘的难度。


雇佣更多的机器学习工程师,而不是机器学习科学家,并让他们配合工作,这至关重要。机器学习团队使用他们的算法进行优化的事情经常与业务需求有根本的不同。如果没有一个可工作的端到端系统,这种失调可能会持续数月而无法发现。另一个常见的问题是训练数据需要修改或更新,但直到训练和部署算法时才发现。由于这些原因,在迭代端到端的系统之前,让端到端系统尽可能快地运行起来至关重要。

大型公司

在与许多大型公司的合作中,我一次又一次地看到同样的错误。在这个范围内,一家公司可以雇佣高质量的 ML 人才,但却没有足够的预算与行业巨头竞争。


Facebook 和谷歌的精英团队正在使用标准的开源模型和架构。最近,我与许多《财富》500 强的企业进行了交谈,他们正在构建自己的神经网络体系结构,但没有测试是否有必要这样做。机器学习研究人员喜欢做研究,而管理者欺骗了自己,让自己认为研究人员正在构建有价值的知识产权。他们不是。他们浪费了大量的时间来重新发明轮子,而这些时间最好花在最新的、最前沿的模型上。在复杂度上,最好从最简单、最标准的东西和层面开始。每一个额外的部分都会对算法的性能产生重大影响


大公司应该避免建立自己的机器学习基础设施。与我交谈过的几乎每家科技公司都在建立自己的机器学习库,而且他们的团队对这方面的工作非常有热情。这种趋势让我想起了 2005 年,一些公司构建了自己的 Web 应用程序框架,在难以标准化的定制平台上进行开发。当时已经有良好的基础设施,而且一直在改善。与构建和维护定制基础设施相比,使用开源工具要更可持续。


大型公司应该培训他们的工程师做机器学习。工程师们非常渴望学习机器学习,现代基础设施工具使机器学习变得越来越简单。在这一点上,我认为,与教机器学习实践者如何成为一个好的工程师相比,教一个工程师机器学习更有效。无论如何,经过一些机器学习训练的工程师在很多方面都可以发挥作用。有些公司正在这样做,但我很惊讶,更多的公司没有意识到这一点。

值得吗?

雇佣 ML 团队的成本很高,而且工作量很大。有些公司雇了一个 ML 团队来吸引投资者——这永远不会有好结果。不管你的规模有多大,如果你没有一个清晰的机器学习应用,你会后悔你的投资。要问自己几个关键问题:


  1. 我有需要机器学习来解决的问题吗?(关于这一点,我有一个视频。)

  2. 我能够标注或收集相关的训练数据吗?

  3. 我要解决的问题对于业务而言很关键吗?


如果所有这些问题的答案都是“是”,那么你已经做好了成功的准备。


查看英文原文:https://www.wandb.com/blog/how-to-build-a-machine-learning-team-when-you-are-not-google-or-facebook



2018-11-26 14:321486
用户头像

发布了 1008 篇内容, 共 421.7 次阅读, 收获喜欢 346 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

测试测试从

delete is create

《信息技术服务 智能运维 第2部分:数据治理》国家标准2024年第一次线下编写会议成功召开

云智慧AIOps社区

运维

深度解密京东中台底层支撑框架

京东零售技术

Java 后端 企业号 4 月 PK 榜

选择SD-WAN带宽时需要考虑什么?

Ogcloud

SD-WAN 企业网络 SD-WAN组网 SD-WAN服务商 SDWAN

让你的文档从静态展示到一键部署可操作验证

阿里巴巴云原生

阿里云 云原生

产品待办列表梳理步骤

ShineScrum

Paper Digest | GPT-RE:基于大语言模型针对关系抽取的上下文学习

可信AI进展

语言模型 #大模型

负载均衡:实现高效稳定的网络服务

gogo

天池医疗AI大赛[第一季] Rank8解决方案[附TensorFlow/PyTorch/Caffe实现方案]

阿里云天池

人工智能 阿里云

正则表达式-子表达式&回溯引用

追随月光的战士

#正则表达式

智能商品管理:品牌实现以销定产的新引擎

第七在线

利用AI大模型实现自然语言到SQL的转换及其优化

百度开发者中心

自然语言处理 AI大模型

大模型LLM在Text2SQL上的应用实践

百度开发者中心

自然语言处理 大模型 LLM

Web3 游戏周报(3.24-3.30)

Footprint Analytics

gamefi #Web3

使用EasyRec快速构建推荐模型

阿里云天池

阿里云

云智慧发布对象关系型数据库CloudPanguDB,打破传统技术壁垒

云智慧AIOps社区

数据库

云行|中国速度,智算未来!天翼云为宁波数智化发展注入新动能!

天翼云开发者社区

人工智能 云计算 云服务

玩转云端| 网络也i人?咋变显眼包?天翼云AccessOne边缘接入来了!

天翼云开发者社区

云计算 网络安全 云服务 边缘安全

NeuronEX 3.2.0 发布:增强数据采集、分析计算和管理功能

EMQ映云科技

为什么要开展业务串讲?

老张

业务流

SD-WAN降低网络运维难度的三大关键技术

Ogcloud

SD-WAN 企业网络 SD-WAN组网 SD-WAN服务商 SDWAN

【机器学习入门】拥抱人工智能,从机器学习开始

阿里云天池

机器学习 阿里云

建议有这些需求的企业部署SD-WAN!

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

通义灵码走进武汉大学:让 AI 编码助手激活大学生的创造力

阿里巴巴云原生

阿里云 AI 云原生

升级ChatGPT4.0,原来还需要注意这些?

蓉蓉

openai #人工智能 ChatGPT GPT-4

Vision Pro 开发实践(一)

京东零售技术

人工智能 企业号 4 月 PK 榜 Vision pro

你不是谷歌或脸书,如何建立机器学习团队?_文化 & 方法_Lukas Biewald_InfoQ精选文章