选择机器学习模型，要注意这7个问题_AI&大模型_Santiago Valdarrama_InfoQ精选文章



 写点什么

登录/注册

选择机器学习模型，要注意这7个问题

本文最初发表于 Towards Data Science 博客，经原作者 Santiago Valdarrama 授权，InfoQ 中文站翻译并分享。

和很多人的想法相反，性能最好的机器学习模型未必是最好的解决方案。在 Kaggle 竞赛中，性能是你需要的全部。实际上，这也是另一个需要考虑的因素。下面让我们从模型的性能开始，并重新考虑一些其他考虑因素，以便在选择模型来解决问题时牢记在心。

1. 性能

模型结果的质量是选择模型时应考虑的基本因素。优先选择能够使性能最大化的算法。取决于问题，不同的度量标准可能对分析模型的结果有所帮助。举例来说，最流行的度量有正确率、准确率、查全率和 F1 分数。

切记，并非每一个度量都适用于所有的情况。例如，在处理不平衡的数据集时，正确率是不适当的。在我们准备开始模型选择过程之前，选择一种良好的度量（或一组指标）来评估模型性能是一项至关重要的任务。

2. 可解释性

很多情况下，对模型结果的解释是至关重要的。遗憾的是，很多算法就像黑盒子一样工作，无论结果如何，都很难解释。在这些情况下，缺乏可解释性可能是成功或失败的决定性条件。

如果存在可解释性问题，线性回归和决策树是很好的选择。神经网络则不然。选择好的候选者之前，一定要知道每种模型的结果是否易于解释。有意思的是，可解释性和复杂性通常存在于两个极端，所以接下来我们来看看复杂性。

3. 复杂性

一种复杂的模型在数据中可能会发现更多有趣的模式，但是，这会使维护和解释更加困难。

这里有一些不严谨的概括，需要记住：

复杂性越高，性能就越好，但是成本也越高。
复杂性与可解释性成反比。模型越复杂，解释结果就越困难。

抛开可解释性不谈，构建和维护模型的成本是项目成功的关键因素。复杂的设置会对模型的整个生命周期产生更大的影响。

4. 数据集大小

可用的训练数据量是选择模型时要考虑的主要因素之一。

神经网络在处理和合成大量数据方面确实很出色。KNN（K-Nearest Neighbors，K- 最近邻）模型更好，示例也更少。除了可用的数据量外，还有一个重要的考虑因素是，为了获得好的结果，你真正需要多少数据。有时候，你可以通过 100 个训练例子来建立一个很好的解决方案；有时候，你需要 100000 个例子。

利用这些与你的问题和数据量有关的信息，选择一个模型来处理它。

5. 维度

从两个不同的角度看待维度是有用的：数据集的垂直大小代表我们拥有的数据量。水平大小代表特征的数量。

我们已经讨论了垂直维度如何影响优秀模型的选择。事实证明，水平维度也是需要考虑的因素。如果你的模型有更多的特征，就会有更好的解决方案。越多的特征也会增加模型的复杂性。

“维度的诅咒”（Curse of dimensionality）很好地介绍了维度如何影响模型的复杂性。可以想象，并非每一个模型对高维数据集的扩展都是相同的。在将高维数据作为问题进行集成时，我们可能也需要引入特定的降维算法。PCA 是这方面最流行的算法之一。

6. 训练时间与成本

训练一个模型需要多长时间，需要多少钱？你会选择一个正确率为 98%、训练成本为 10 万美元的模型，还是选择一个准确率为 97%、成本为 1 万美元的模型？

这个问题的答案当然取决于你的个人情况。

需要在接近实时的情况下结合新知识的模型，很难适应长周期的训练。举例来说，推荐系统需要根据每个用户的动作不断更新，才能从廉价的训练周期中获益。在设计可扩展的解决方案时，平衡时间、成本和性能非常重要。

7. 推理时间

运行一个模型并作出预测需要多长时间？想象一下自动驾驶系统：它需要实时作出决策，因此任何时间过长的模型都无法被考虑。

例如，使用 KNN 开发预测所需的大部分处理都在推理过程中进行。因此运行它的成本非常高。但决策树的推理时间较短，在训练过程中需要较长的时间。

结语

很多人专注于他们最喜欢的模型。常常是他们最熟悉的那个，在前一个项目中给他们带来了好效果。

但是机器学习中没有免费的午餐。任何一种模型都不能同时适用于所有情况，尤其是当我们考虑现实生活中的系统限制时。

当选择一个好的模型时，了解几个不同的考虑因素对确保项目的成功至关重要。作为总结，下面列出了我们刚才讨论的内容：

模型的性能
结果的可解释性
模型的复杂性
数据集的大小
数据的维度
训练时间和成本
推理时间

作者介绍：

Santiago Valdarrama，专注于机器学习系统。

原文链接：

https://towardsdatascience.com/considerations-when-choosing-a-machine-learning-model-aa31f52c27f3?gi=b42e581fe448

评论

发布

暂无评论

一场关于演讲的演讲

MBP恢复记(体验rm -rf /*)

容器 & 服务: 扩容

程序员架构进阶

容器 k8s 28天写作弹性扩容 4月日更

图算法系列之深度优先搜索（一）

Java 深度优先搜索图算法

当时尚撞上区块链，为潮酷创意赋予专属

比微信文件传输助手更好用的传输工具｜Telegram

微信效率文件传输 4月日更 Telegram

150页的剑指Offer解答PDF，它来了！！！

秦怀杂货店

聪明人的训练（二十四）

小米java社招面试记录，带备战思路

Java架构师迁哥

2021|南吕

生活随想 4月日更

网络协议学习笔记Day3

穿过生命散发芬芳

网络协议 4月日更

区块链如何推动数字化转型？

安卓rxjava使用，4面字节跳动拿到Offer，面试必问

欢喜学安卓

android 程序员面试移动开发

如何减少管理层级？

团队建设 28天写作职场经验管理经验 4月日更

【go专题】Context的理解

Go 语言 4月日更

Vue源码思想在工作中的应用

Java虚拟机原理

【Node专题】Node 与 Go 的认识

后端 Node 4月日更

BUG！从编写 Loader 到窥探大佬 Debug 全过程

小程序 webpack 构建工具

安卓rxjava面试，面试一路绿灯Offer拿到手软，吊打面试官系列！

欢喜学安卓

android 程序员面试移动开发

翻译：《实用的Python编程》InstructorNotes

你的故事，触动了我的心

读后感读书总结 4月日更皮囊

深入理解Spring框架之AOP子框架

aop 动态代理 cglib ProxyConfig AspectJ

想拿到10k-40k的offer，这些技能必不可少！作为程序员的你了解吗？

Java架构师迁哥

Redis的常见问题

c++ redis Linux 后端

四面拿到京东Java岗 30K offer 全过程分享

Java架构师迁哥

当我看技术文章的时候，我在想什么？

怎么做到的？3个月入职蚂蚁金服（Java岗）从年薪10W到年薪30W

Java架构师迁哥

2个月从0到1，一年5次迭代，百度“量桨”效率喷涌背后的工作秘诀

解决方案的设计与积累——课程总结

读《小岛经济学有感》

读书笔记 4月日更