时隔16年Jeff Barr重返10.23-25 QCon上海站,带你看透AI如何重塑软件开发! 了解详情
写点什么

年薪百万的机器学习专家,为什么不产生价值?

  • 2017-05-09
  • 本文字数:1837 字

    阅读完需:约 6 分钟

编者按:“范式大学”由第四范式发起,致力于成为培养工程师转型为数据科学家的“黄埔军校”。专栏专注于以人工智能解决具体商业问题。在这里你将会看到,企业如何通过可实施的方法完成 AI 转型;个人如何通过最新的科技工具,快速成为能解决问题的机器学习工程师。

Part 1:

一个朋友的企业,他们招聘了 2 名机器学习方向的数据科学家,加起来年薪百万。

但一段时间的蜜月期后,他们发现机器学习专家没有给公司带来实际价值。高管们不知道他们具体做了什么,业务人员每周都给他们提出预测需求,却很少能在短时间得到回应。

不到一年,公司和机器学习专家们就不欢而散 o 了。

Part 2:

巧合的是,从他们公司离职的机器学习专家是我的朋友。

当我问他这个问题时,他说自己每天都忙得不可开交,却得不到公司其他人的理解。他和我描述了自己的工作过程。

他花了很多时间搭建了机器学习需要的计算环境。

他花了很多时间做建模前的数据清洗和处理。

他花了很多时间做模型选择和参数调整,以得到更好的结果。

他花了很多时间做实时预测的功能,为了达到毫秒级的延迟花费了大量心血。

……

实际上,要完成一个机器学习的模型要做很多事情。团队人数本来就少,事情又多,他的兴趣只能集中在模型本身上了。

至于这些模型对应的业务问题,例如怎么定义问题,确定哪个指标?虽然也重要,但他觉得这些主要是业务人员去解决的。

(估计业务人员也觉得,这是属于机器学习专家解决的事情)

Part 3:

实际上,这个问题不是个例,大部分公司在引入机器学习专家后,都会面临这样的疑问。

来自 MIT 的机器学习研究员 Kalyan Veeramachaneni 曾经做过一次调查,在一个 150 个机器学习爱好者的小组中,他询问说:“你们有多少人建立过机器学习的模型?”大约有 1/3 的人举手。而当他进一步问:“有多少人使用这个模型产生价值并衡量它?”结果没有一个人举手。

换句话说,机器学习专家们把 90% 的时间都放在了数据准备、处理、特征工程、建模、调参上,而背后的业务问题和商业问题, 很多时候没有纳入严格的考虑。

但是要让数据产生真正的价值,就要把数据和商业价值联系起来,这至少要花费 50% 以上的精力。

Part 4:

相比之下,更为理想的局面是建立机器学习工程和商业价值之间的平衡。一般来说有 5 个原则:

1. 从最简单的模型开始

逻辑回归或者那些基于随机森林、决策树的模型,就足以解决大部分的问题。所以你的重点,应该放在缩短数据采集和模型建立的时间。

2. 探索更多问题

相比于通过一个难以置信的模型探索一个业务问题,你应该探索数十个问题,然后为每个问题都创造一个相对简单的预测模型,并评估模型背后的商业价值。

3. 用全部的数据和特征训练模型

过去机器学习的能力不够,很多时候是依靠人力筛选出样本数据和特征进行模型训练。但随着计算资源越来越便宜,人力成本越来额越高,你应该用全部的数据和特征训练模型,以得到更好的效果。

4. 业务驱动模型

让机器学习专家和业务人员有更多的配合。实际上,很多想法都来自于业务部门的设想,机器学习专家和他们一起探索出对公司有价值的解决方案。

5. 专注于自动化

为了更快地获得第一个模型,缩短探索问题的速度,公司要自动执行通常由手动完成的任务。我们发现在不同的数据问题中,背后都应用了类似的数据处理技术,无论是在数据清洗、准备阶段,还是在数据建模阶段,亦或是在模型上线阶段。

Part 5:

这 5 个原则说的是,如果说机器学习是一场战役,过去强调的是战士的能力和经验,现在则更为强调军火的选择。

就像在伊拉克战争中,美国部队强调的是每平方公里的弹药投放量,最终投放了 60 亿颗弹药。虽然是一个不太恰当的比喻,但是机器学习未来的趋势就是大规模机器学习平台的出现,通过大规模计算解决具体的业务问题。大规模机器学习平台,就是企业未来最重要的军火。

所以对于机器学习专家来说,他也许不能一个人就把事情做完,但是给他工具就可以了。

Part 6:

在我的介绍下,那位机器学习专家又回到了那家公司,1 个人,1 个月,完成了过去 1 年都没完成的工作。

参考资料:

https://hbr.org/2016/12/why-youre-not-getting-value-from-your-data-science

https://inform.tmforum.org/sponsored-feature/2017/04/data-no-value-lacks-purpose/

http://blog.predikto.com/2016/12/28/the-missing-link-in-why-youre-not-getting-value-from-your-data-science/


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-05-09 19:002409

评论

发布
暂无评论
发现更多内容

英特尔开源项目推动SYCL标准采用,打破单个厂商封闭生态系统

科技之家

大数据学习必备 | 推荐几个牛X 的 github 项目,助你事半功倍

大数据梦想家

大数据 学习资料 Github'

百度智能小程序巡检调度方案演进之路

百度Geek说

PingCAP Clinic 服务:贯穿云上云下的 TiDB 集群诊断服务

PingCAP

YARN Federation技术解析及应用

移动云大数据

YARN

Fastjson官方再次披露高危漏洞,包括rocketmq、jeecg-boot等近15%的github开源项目受影响

墨菲安全

安全 idea插件 Fastjson 依赖漏洞检测 墨菲安全

小区适合投放自助洗车机吗?

共享电单车厂家

自助洗车加盟 小区投放自助洗车机

没有店面店铺可以做自助洗车吗?

共享电单车厂家

自助洗车加盟 自助洗车店面

为什么穷人越穷,富人越富?

大数据梦想家

程序人生

智能汽车领域的开源软件供应链安全检测工具分享

墨菲安全

idea插件 工具分享 开源安全 墨菲安全 软件供应链

自助手动洗车设备洗车怎么样?

共享电单车厂家

自助洗车加盟 自助洗车机洗车 自助手动洗车设备

避免惊群以及负载均衡的原理与具体实现

C++后台开发

nginx 负载均衡 后端开发 C++后台开发 惊群

十一、云原生网络微隔离

穿过生命散发芬芳

5月月更 微隔离

uniapp 如何将输入值转成大写

CRMEB

eKuiper 1.5.0发布:实现无缝式工业数据采集+边缘流处理

EMQ映云科技

物联网 IoT emq 开源之夏 5月月更

2021年证券类APP更新迭代监测专题分析(中)发布

易观分析

证券

TiDB 查询优化及调优系列(四)查询执行计划的调整及优化原理

PingCAP

「v2.4」千呼万唤的图形化编排,来了!

Jianmu

持续集成 低代码 开发工具 开源项目 节点编排

深入 HTTP/3(2)|不那么 Boring 的 SSL

SOFAStack

互联网 TLS HTTP3.0 QUIC协议 HTTP API

如何用Apifox 发送接口请求?

Liam

开发者 测试 后端 开发 Postman

7 款最棒的开源 React UI 库测评 - 特别针对国内使用场景推荐

蒋川

JavaScript react.js 开源 UI 组件库

数据行业中的建模是什么?

清林情报分析师

数据分析 行业分析 数据建模 业务思维 模型思维

企业的文档管理策略

小炮

文档管理

云原生时代,热门监控工具对比与使用场景分析

云智慧AIOps社区

云原生 监控 Grafana Prometheus 监控宝

MBTI 剧透人生,你的天选职业是什么?(免费测)

融云 RongCloud

模块二

Geek_2ce415

是开自助洗车店还是传统洗车店好?

共享电单车厂家

自助洗车加盟 开自助洗车店 传统洗车店

6月月更“粽”头戏,大家一起来参与吧!

InfoQ写作社区官方

热门活动 6月月更

平衡人工智能的性能要求,实现可信AI在银行业务场景的高质量应用

易观分析

人工智能

末流985,秋招斩获多家大厂offer 经验分享

大数据梦想家

面经分享 大数据开发

年薪百万的机器学习专家,为什么不产生价值?_语言 & 开发_王嘉俊_InfoQ精选文章