“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

你不是谷歌或脸书,如何建立机器学习团队?

  • 2018-11-26
  • 本文字数:2202 字

    阅读完需:约 7 分钟

你不是谷歌或脸书,如何建立机器学习团队?

AI 前线导读:

最近,各种规模、各种行业的公司的朋友都问我同样的问题,“我如何将机器学习应用于我的业务?”这些人都认识到,机器学习有很合适的应用场景。但是,每个人都在让机器学习发挥作用、雇佣员工、获得成功方面陷入了困境。根据业务规模,我将介绍三种分别适用于小型团队、中型团队和大型公司的方法。

更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)


最近,各种规模、各种行业的公司的朋友都问我同样的问题,“我如何将机器学习应用于我的业务?”这些人都认识到,机器学习有很合适的应用场景。但是,每个人都在让机器学习发挥作用、雇佣员工、获得成功方面陷入了困境。


根据业务规模,我将介绍我的三种主要方法。

小型团队

这些是我对处于早期阶段的公司或非营利组织提出的关于机器学习应用场景的建议。对于一家规模小、没有资金或资金不足的公司来说,在内部获得机器学习的专业知识感觉是不可能的。好消息是,许多 ML 从业者对这种工作感到兴奋。寻找关心公司使命的人。在这种规模下,你将依赖 ML 从业者来实现从数据收集、清理到部署的所有端到端的一切。实际的机器学习部分几乎可以肯定是非常小的。


雇佣一个在工程和数据方面都比较擅长的人绝对是最好的选择。一个经验丰富的工程师,如果他回到学校,或者做过一些机器学习方面的线上工作,那么他就能很好地发挥作用,因为他的目标不是完美,而是让一个系统完成端到端的工作,然后慢慢地优化所有的步骤。我要找一份简历,上面写着参加过一些 Kaggle 竞赛或自主项目。在面试中,我要找的是既思想开放又务实的候选人。在构建和测试一个模型之前,想要把一种模型应用于所有事情的研究人员或者想要花费几个月的时间来优化数据管道的研究人员都不太适合。

中型团队

当我在一家正在成长的初创企业或中型企业中组建团队,而他们对多种机器学习应用程序感兴趣时,我采取了一种略有不同的方法。与谷歌不同,你雇不起这么多研究人员。你负担不起让机器学习专家撰写研究论文的费用。这里的关键是雇佣一个非常优秀的机器学习研究人员,并为他们配备数据工程师,使他们非常有生产力。找一个有良好背景和记录的人,确保人们愿意和他们一起工作。像使用宝贵的资源一样使用他们——不要让他们编写代码——让工程师围绕在他们周围,从他们那里学习,并让他们教工程师如何进行机器学习。


有些公司会建立一个实用的机器学习小组,有些公司会将机器学习包含到团队中。许多人对此有强烈的看法,但我是务实的,我看到过,两种组织结构都可以奏效。单独的机器学习团队可以真正地帮助人才,这往往是最大的瓶颈。在这种方法中,你需要谨慎管理团队,以确保他们正在为组织处理最重要的任务。把机器学习的专业知识分散到整个组织中,可以使实际的机器学习专家感到高兴,因为他们更接近最终用户,但那会增加招聘的难度。


雇佣更多的机器学习工程师,而不是机器学习科学家,并让他们配合工作,这至关重要。机器学习团队使用他们的算法进行优化的事情经常与业务需求有根本的不同。如果没有一个可工作的端到端系统,这种失调可能会持续数月而无法发现。另一个常见的问题是训练数据需要修改或更新,但直到训练和部署算法时才发现。由于这些原因,在迭代端到端的系统之前,让端到端系统尽可能快地运行起来至关重要。

大型公司

在与许多大型公司的合作中,我一次又一次地看到同样的错误。在这个范围内,一家公司可以雇佣高质量的 ML 人才,但却没有足够的预算与行业巨头竞争。


Facebook 和谷歌的精英团队正在使用标准的开源模型和架构。最近,我与许多《财富》500 强的企业进行了交谈,他们正在构建自己的神经网络体系结构,但没有测试是否有必要这样做。机器学习研究人员喜欢做研究,而管理者欺骗了自己,让自己认为研究人员正在构建有价值的知识产权。他们不是。他们浪费了大量的时间来重新发明轮子,而这些时间最好花在最新的、最前沿的模型上。在复杂度上,最好从最简单、最标准的东西和层面开始。每一个额外的部分都会对算法的性能产生重大影响


大公司应该避免建立自己的机器学习基础设施。与我交谈过的几乎每家科技公司都在建立自己的机器学习库,而且他们的团队对这方面的工作非常有热情。这种趋势让我想起了 2005 年,一些公司构建了自己的 Web 应用程序框架,在难以标准化的定制平台上进行开发。当时已经有良好的基础设施,而且一直在改善。与构建和维护定制基础设施相比,使用开源工具要更可持续。


大型公司应该培训他们的工程师做机器学习。工程师们非常渴望学习机器学习,现代基础设施工具使机器学习变得越来越简单。在这一点上,我认为,与教机器学习实践者如何成为一个好的工程师相比,教一个工程师机器学习更有效。无论如何,经过一些机器学习训练的工程师在很多方面都可以发挥作用。有些公司正在这样做,但我很惊讶,更多的公司没有意识到这一点。

值得吗?

雇佣 ML 团队的成本很高,而且工作量很大。有些公司雇了一个 ML 团队来吸引投资者——这永远不会有好结果。不管你的规模有多大,如果你没有一个清晰的机器学习应用,你会后悔你的投资。要问自己几个关键问题:


  1. 我有需要机器学习来解决的问题吗?(关于这一点,我有一个视频。)

  2. 我能够标注或收集相关的训练数据吗?

  3. 我要解决的问题对于业务而言很关键吗?


如果所有这些问题的答案都是“是”,那么你已经做好了成功的准备。


查看英文原文:https://www.wandb.com/blog/how-to-build-a-machine-learning-team-when-you-are-not-google-or-facebook



公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2018-11-26 14:321281
用户头像

发布了 1008 篇内容, 共 372.1 次阅读, 收获喜欢 340 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

不服!阿里P8手写489页SQL优化通关手册,解决你百思不得其解问题

996小迁

sql 程序员 架构 面试 计算机

开源GitHub标星30K的腾讯Redis笔记,阿里技术专家看到都赞不绝口

小Q

Java 学习 编程 架构 面试

架構師訓練營第 1 期 - 第 08 周作業

Panda

架構師訓練營第 1 期

手把手教你使用ModelArts的自动学习识别毒蘑菇分类

华为云开发者联盟

学习 AI 图像识别

28天刷完这份内容多大349页的阿里Java面试通关手册,我成功闯进了字节跳动!

Java架构之路

Java 程序员 架构 面试 编程语言

看完之后,不要再说不懂代理IP了!

前嗅大数据

大数据 静态IP 代理IP 短效代理 动态IP

关于静态分析技术符号执行,从一个故事讲起······

华为云开发者联盟

代码 分析 静态

python+flask编写一个简单的登录接口例子

测试人生路

Python 接口测试

Nacos配置中心和服务的注册发现

牛初九

微服务 Spring Cloud nacos spring cloud alibaba

技术实践丨基于MindSpore的ResNet-50蘑菇“君”的识别应用体验

华为云开发者联盟

网络 mindspore 识别推理

如何使用JavaScript实现前端导入和导出excel文件(H5编辑器实战复盘)

徐小夕

Java node.js 大前端 React 数据可视化

LeetCode题解:剑指 Offer 22. 链表中倒数第k个节点,递归,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

成长为软件教练的三千大道之一

华为云开发者联盟

Java 敏捷开发

架构师训练营 -week08-作业

大刘

极客大学架构师训练营

架构师训练营 1 期 -- 第八周作业

曾彪彪

极客大学架构师训练营

【再见 — JVM】,需要”我”为你做些什么?

洛神灬殇

Java JVM Java 25 周年 1 周年盛典 InfoQ 写作平台 1 周年

嗯,挺全乎儿的,Spring Boot 多环境配置都在这里了,你喜欢哪种?

比伯

Java spring 编程 程序员 架构

炸了!一口气间了我18个JVM问题!

面试 jvm调优 JVM垃圾回收原理

你应该知道的数仓安全——默认权限实现共享schema

华为云开发者联盟

数据库 数据 schema

程序员在编程过程中,经常会在代码中使用到“where 1=1”,这是为什么呢?

小Q

Java 数据库 学习 架构 面试

架构师训练营 1 期 - 第八周 - 性能优化 2

三板斧

极客大学架构师训练营

第八周学习性能优化 2 总结

三板斧

极客大学架构师训练营

七张图了解Kubernetes内部的架构

网管

Kubernetes k8s k8s入门

架构知识学习总结

小黄鱼

极客大学架构师训练营

阿里又出一座丰碑!P9级架构师整合出最新最全微服务1700页手册,下载下来慢慢啃

Java架构追梦

Java 架构 微服务 springboot SpringCloud

解密猫晚直播技术:如何保障全球200多个国家和地区同时在线狂欢?

阿里云视频云

隧道视野效应 - 认知局限

石云升

教育 认知 隧道视野效应

前端如何一键生成多维度数据可视化分析报表

徐小夕

Java node.js 大前端 React 数据可视化

天秀!这份由阿里数位大牛编写的777页高可用架构+MySQL

Java~~~

Java MySQL 编程语言 高并发 架构师

朋友推荐我这份阿里面试通关手册,我却选择了字节的offer

小Q

Java 学习 程序员 架构 面试

58个基础案例+2个综合案例带你探索微服务的神秘世界

小Q

Java 学习 编程 面试 开发

你不是谷歌或脸书,如何建立机器学习团队?_文化 & 方法_Lukas Biewald_InfoQ精选文章