AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

年薪百万的机器学习专家,为什么不产生价值?

  • 2017-05-09
  • 本文字数:1837 字

    阅读完需:约 6 分钟

编者按:“范式大学”由第四范式发起,致力于成为培养工程师转型为数据科学家的“黄埔军校”。专栏专注于以人工智能解决具体商业问题。在这里你将会看到,企业如何通过可实施的方法完成 AI 转型;个人如何通过最新的科技工具,快速成为能解决问题的机器学习工程师。

Part 1:

一个朋友的企业,他们招聘了 2 名机器学习方向的数据科学家,加起来年薪百万。

但一段时间的蜜月期后,他们发现机器学习专家没有给公司带来实际价值。高管们不知道他们具体做了什么,业务人员每周都给他们提出预测需求,却很少能在短时间得到回应。

不到一年,公司和机器学习专家们就不欢而散 o 了。

Part 2:

巧合的是,从他们公司离职的机器学习专家是我的朋友。

当我问他这个问题时,他说自己每天都忙得不可开交,却得不到公司其他人的理解。他和我描述了自己的工作过程。

他花了很多时间搭建了机器学习需要的计算环境。

他花了很多时间做建模前的数据清洗和处理。

他花了很多时间做模型选择和参数调整,以得到更好的结果。

他花了很多时间做实时预测的功能,为了达到毫秒级的延迟花费了大量心血。

……

实际上,要完成一个机器学习的模型要做很多事情。团队人数本来就少,事情又多,他的兴趣只能集中在模型本身上了。

至于这些模型对应的业务问题,例如怎么定义问题,确定哪个指标?虽然也重要,但他觉得这些主要是业务人员去解决的。

(估计业务人员也觉得,这是属于机器学习专家解决的事情)

Part 3:

实际上,这个问题不是个例,大部分公司在引入机器学习专家后,都会面临这样的疑问。

来自 MIT 的机器学习研究员 Kalyan Veeramachaneni 曾经做过一次调查,在一个 150 个机器学习爱好者的小组中,他询问说:“你们有多少人建立过机器学习的模型?”大约有 1/3 的人举手。而当他进一步问:“有多少人使用这个模型产生价值并衡量它?”结果没有一个人举手。

换句话说,机器学习专家们把 90% 的时间都放在了数据准备、处理、特征工程、建模、调参上,而背后的业务问题和商业问题, 很多时候没有纳入严格的考虑。

但是要让数据产生真正的价值,就要把数据和商业价值联系起来,这至少要花费 50% 以上的精力。

Part 4:

相比之下,更为理想的局面是建立机器学习工程和商业价值之间的平衡。一般来说有 5 个原则:

1. 从最简单的模型开始

逻辑回归或者那些基于随机森林、决策树的模型,就足以解决大部分的问题。所以你的重点,应该放在缩短数据采集和模型建立的时间。

2. 探索更多问题

相比于通过一个难以置信的模型探索一个业务问题,你应该探索数十个问题,然后为每个问题都创造一个相对简单的预测模型,并评估模型背后的商业价值。

3. 用全部的数据和特征训练模型

过去机器学习的能力不够,很多时候是依靠人力筛选出样本数据和特征进行模型训练。但随着计算资源越来越便宜,人力成本越来额越高,你应该用全部的数据和特征训练模型,以得到更好的效果。

4. 业务驱动模型

让机器学习专家和业务人员有更多的配合。实际上,很多想法都来自于业务部门的设想,机器学习专家和他们一起探索出对公司有价值的解决方案。

5. 专注于自动化

为了更快地获得第一个模型,缩短探索问题的速度,公司要自动执行通常由手动完成的任务。我们发现在不同的数据问题中,背后都应用了类似的数据处理技术,无论是在数据清洗、准备阶段,还是在数据建模阶段,亦或是在模型上线阶段。

Part 5:

这 5 个原则说的是,如果说机器学习是一场战役,过去强调的是战士的能力和经验,现在则更为强调军火的选择。

就像在伊拉克战争中,美国部队强调的是每平方公里的弹药投放量,最终投放了 60 亿颗弹药。虽然是一个不太恰当的比喻,但是机器学习未来的趋势就是大规模机器学习平台的出现,通过大规模计算解决具体的业务问题。大规模机器学习平台,就是企业未来最重要的军火。

所以对于机器学习专家来说,他也许不能一个人就把事情做完,但是给他工具就可以了。

Part 6:

在我的介绍下,那位机器学习专家又回到了那家公司,1 个人,1 个月,完成了过去 1 年都没完成的工作。

参考资料:

https://hbr.org/2016/12/why-youre-not-getting-value-from-your-data-science

https://inform.tmforum.org/sponsored-feature/2017/04/data-no-value-lacks-purpose/

http://blog.predikto.com/2016/12/28/the-missing-link-in-why-youre-not-getting-value-from-your-data-science/


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-05-09 19:002194

评论

发布
暂无评论
发现更多内容

2021最新分享字节四面成功拿Offer!

Java 程序员 后端

2021最新分享成功入职阿里巴巴(口碑部门)面经

Java 程序员 后端

3 条掏心掏肺的建议,新手学习编程必备,快上车!

Java 程序员 后端

4年Java程序员十面阿里终拿下offer,评级P6+年薪30-40w无股票

Java 程序员 后端

Android C++系列:认识JNI

轻口味

c++ android jni 11月日更

进击的Java(二)

ES_her0

11月日更

Prometheus HTTP API 查询(四)Target 和查询结果格式

耳东@Erdong

Prometheus PromQL HTTP API 11月日更

69-个经典-Spring-面试题和答案详解(下)

Java 程序员 后端

2021最新分享“天猫”面经:10万字大厂面试总结

Java 程序员 后端

2021社招阿里、腾讯、蚂蚁金服「4面」Java面试高频题分享

Java 程序员 后端

System.Text.Json 中的字符编码

喵叔

11月日更

2021阿里巴巴钻石级级“Docker全线笔记”新鲜出炉

Java 程序员 后端

21世纪什么最贵?“人才”看阿里大佬用一本书带你读懂TCP-IP协议

Java 程序员 后端

22款终端生产力工具,效率飞起!

Java 程序员 后端

2年Java,面试蚂蚁金服总结

Java 程序员 后端

为什么区块链和加密资产对于实现元宇宙很重要?

CECBC

2021最新分享成功入职腾讯(后台开发岗)面经

Java 程序员 后端

2021美团高级工程师亲自汇总九大面试专题(附1000字解析)

Java 程序员 后端

2021,你还在写“赤裸裸”的API吗?

Java 程序员 后端

4月面试5月成功入职阿里,工作之余整理复盘:面试经历+备战经验分享!

Java 程序员 后端

588页!三个通宵学完这份“宝典”,4面斩获字节跳动offer

Java 程序员 后端

2021金三银四,献给程序员从入门到放弃的 Java 架构师面试题

Java 程序员 后端

22道Java Spring Boot高频面试题

Java 程序员 后端

容器 & 服务:Helm Charts配置文件分析

程序员架构进阶

容器 Helm 11月日更 chart

2021阿里大牛最新发布:Java高频面试题和核心技术(已涨薪6K)

Java 程序员 后端

Redis 6.0 新特性篇:多线程网络模型全面解密

码哥字节

redis 多线程 IO多路复用 11月日更

解决:interface conversion: interface {} is float64, not int

liuzhen007

11月日更

2021,你还在写“赤裸裸”的API吗?(1)

Java 程序员 后端

7月份了,再不准备金九银十就晚了,阿里2021最新数据结构与算法面试题手册

Java 程序员 后端

25 大 Java 后端面试指南,3000 道面试题解析

Java 程序员 后端

【Promise 源码学习】第三篇 - 实现一个简版 Promise

Brave

Promise 11月日更

年薪百万的机器学习专家,为什么不产生价值?_语言 & 开发_王嘉俊_InfoQ精选文章