阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

年薪百万的机器学习专家,为什么不产生价值?

  • 2017-05-09
  • 本文字数:1837 字

    阅读完需:约 6 分钟

编者按:“范式大学”由第四范式发起,致力于成为培养工程师转型为数据科学家的“黄埔军校”。专栏专注于以人工智能解决具体商业问题。在这里你将会看到,企业如何通过可实施的方法完成 AI 转型;个人如何通过最新的科技工具,快速成为能解决问题的机器学习工程师。

Part 1:

一个朋友的企业,他们招聘了 2 名机器学习方向的数据科学家,加起来年薪百万。

但一段时间的蜜月期后,他们发现机器学习专家没有给公司带来实际价值。高管们不知道他们具体做了什么,业务人员每周都给他们提出预测需求,却很少能在短时间得到回应。

不到一年,公司和机器学习专家们就不欢而散 o 了。

Part 2:

巧合的是,从他们公司离职的机器学习专家是我的朋友。

当我问他这个问题时,他说自己每天都忙得不可开交,却得不到公司其他人的理解。他和我描述了自己的工作过程。

他花了很多时间搭建了机器学习需要的计算环境。

他花了很多时间做建模前的数据清洗和处理。

他花了很多时间做模型选择和参数调整,以得到更好的结果。

他花了很多时间做实时预测的功能,为了达到毫秒级的延迟花费了大量心血。

……

实际上,要完成一个机器学习的模型要做很多事情。团队人数本来就少,事情又多,他的兴趣只能集中在模型本身上了。

至于这些模型对应的业务问题,例如怎么定义问题,确定哪个指标?虽然也重要,但他觉得这些主要是业务人员去解决的。

(估计业务人员也觉得,这是属于机器学习专家解决的事情)

Part 3:

实际上,这个问题不是个例,大部分公司在引入机器学习专家后,都会面临这样的疑问。

来自 MIT 的机器学习研究员 Kalyan Veeramachaneni 曾经做过一次调查,在一个 150 个机器学习爱好者的小组中,他询问说:“你们有多少人建立过机器学习的模型?”大约有 1/3 的人举手。而当他进一步问:“有多少人使用这个模型产生价值并衡量它?”结果没有一个人举手。

换句话说,机器学习专家们把 90% 的时间都放在了数据准备、处理、特征工程、建模、调参上,而背后的业务问题和商业问题, 很多时候没有纳入严格的考虑。

但是要让数据产生真正的价值,就要把数据和商业价值联系起来,这至少要花费 50% 以上的精力。

Part 4:

相比之下,更为理想的局面是建立机器学习工程和商业价值之间的平衡。一般来说有 5 个原则:

1. 从最简单的模型开始

逻辑回归或者那些基于随机森林、决策树的模型,就足以解决大部分的问题。所以你的重点,应该放在缩短数据采集和模型建立的时间。

2. 探索更多问题

相比于通过一个难以置信的模型探索一个业务问题,你应该探索数十个问题,然后为每个问题都创造一个相对简单的预测模型,并评估模型背后的商业价值。

3. 用全部的数据和特征训练模型

过去机器学习的能力不够,很多时候是依靠人力筛选出样本数据和特征进行模型训练。但随着计算资源越来越便宜,人力成本越来额越高,你应该用全部的数据和特征训练模型,以得到更好的效果。

4. 业务驱动模型

让机器学习专家和业务人员有更多的配合。实际上,很多想法都来自于业务部门的设想,机器学习专家和他们一起探索出对公司有价值的解决方案。

5. 专注于自动化

为了更快地获得第一个模型,缩短探索问题的速度,公司要自动执行通常由手动完成的任务。我们发现在不同的数据问题中,背后都应用了类似的数据处理技术,无论是在数据清洗、准备阶段,还是在数据建模阶段,亦或是在模型上线阶段。

Part 5:

这 5 个原则说的是,如果说机器学习是一场战役,过去强调的是战士的能力和经验,现在则更为强调军火的选择。

就像在伊拉克战争中,美国部队强调的是每平方公里的弹药投放量,最终投放了 60 亿颗弹药。虽然是一个不太恰当的比喻,但是机器学习未来的趋势就是大规模机器学习平台的出现,通过大规模计算解决具体的业务问题。大规模机器学习平台,就是企业未来最重要的军火。

所以对于机器学习专家来说,他也许不能一个人就把事情做完,但是给他工具就可以了。

Part 6:

在我的介绍下,那位机器学习专家又回到了那家公司,1 个人,1 个月,完成了过去 1 年都没完成的工作。

参考资料:

https://hbr.org/2016/12/why-youre-not-getting-value-from-your-data-science

https://inform.tmforum.org/sponsored-feature/2017/04/data-no-value-lacks-purpose/

http://blog.predikto.com/2016/12/28/the-missing-link-in-why-youre-not-getting-value-from-your-data-science/


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2017-05-09 19:001893

评论

发布
暂无评论
发现更多内容

一文盘点即将上线的Nautilus Chain六大优势

EOSdreamer111

什么是数字产品?

涛哥 数字产品和业务架构

数字化转型 数字产品

【git】将本地代码推送到远程git仓库

石臻臻的杂货铺

git

软件测试 | Xcode基础使用

测吧(北京)科技有限公司

测试

Nautilus Chain即将上线,一文盘点其六大优势

西柚子

新增 – 使用基于用户的许可证模式在 Amazon EC2 上运行 Visual Studio 软件

亚马逊云科技 (Amazon Web Services)

Matlab实现彩色图像的转换 平滑 锐化与分割

timerring

数字图像处理

Nautilus Chain即将上线,一文盘点其六大优势

鳄鱼视界

FL Studio21.0.0水果中文版发布更新下载

茶色酒

FL Studio21.0.0

DawnSql在数据治理中的优势

陈飞

微服务架构 分布式数据库 架构设计 数据治理 分布式缓存

一文盘点即将上线的Nautilus Chain六大优势

股市老人

软件测试环境安装

测吧(北京)科技有限公司

测试

Camtasia2023最新版下载使用教程

茶色酒

Camtasia2023

Adapter基础讲解

智趣匠

mvc Adapter arrayadapter

Nautilus Chain即将上线,一文盘点其六大优势

威廉META

架构实战营 - 模块四作业

🐢先生

架构实战营

构建微服务的基建——事件总线

为自己带盐

RabbitMQ CAP 事件总线

Databend v1.0 Release 正式发布

Databend

软件测试 | Pytest测试框架之插件开发

测吧(北京)科技有限公司

测试

数据库“啃”不动?CnosDB带你轻松阅读十万行源码!

CnosDB

IoT 时序数据库 开源社区 CnosDB

在文心一言出生地,百度悄悄燃烧AI小宇宙

脑极体

百度 文心一言

浅谈对JavaScript 中的执行上下文和执行栈的理解

梁木由

大专毕业,0基础转行C++程序员一个月后,我后悔了

程序员晚枫

程序员 转行 C++ STL

一座海上营业厅,一个女孩独自守望的十九年

脑极体

5G 智慧农业

软件测试 | Pytest测试框架之fixture进阶

测吧(北京)科技有限公司

测试

写给 go 开发者的 gRPC 教程 - 错误处理

凉凉的知识库

Go 微服务 gRPC RPC RPC框架

mysql锁及数据一致性总结

阿呆

MySQL innodb 数据一致性 事务/行级锁 脏读

软件测试 | 结合Allure生成测试报告

测吧(北京)科技有限公司

测试

软件测试 | 如何安装WebDriverAgent

测吧(北京)科技有限公司

测试

What's new in dubbo-go-pixiu v0.6.0

apache/dubbo-go

dubbo dubbo-go dubbogo

从ChatGPT到AIGC,是一次技术革命也是一次创业浪潮 | 社区征文

打工人!

人工智能 AIGC AI绘画 ChatGPT New Bing

年薪百万的机器学习专家,为什么不产生价值?_语言 & 开发_王嘉俊_InfoQ精选文章