“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

选择机器学习模型,要注意这 7 个问题

  • 2021-08-13
  • 本文字数:1765 字

    阅读完需:约 6 分钟

选择机器学习模型,要注意这7个问题

本文最初发表于 Towards Data Science 博客,经原作者 Santiago Valdarrama 授权,InfoQ 中文站翻译并分享。


和很多人的想法相反,性能最好的机器学习模型未必是最好的解决方案。在 Kaggle 竞赛中,性能是你需要的全部。实际上,这也是另一个需要考虑的因素。下面让我们从模型的性能开始,并重新考虑一些其他考虑因素,以便在选择模型来解决问题时牢记在心。

1. 性能

模型结果的质量是选择模型时应考虑的基本因素。优先选择能够使性能最大化的算法。取决于问题,不同的度量标准可能对分析模型的结果有所帮助。举例来说,最流行的度量有正确率、准确率、查全率和 F1 分数。


切记,并非每一个度量都适用于所有的情况。例如,在处理不平衡的数据集时,正确率是不适当的。在我们准备开始模型选择过程之前,选择一种良好的度量(或一组指标)来评估模型性能是一项至关重要的任务。

2. 可解释性

很多情况下,对模型结果的解释是至关重要的。遗憾的是,很多算法就像黑盒子一样工作,无论结果如何,都很难解释。在这些情况下,缺乏可解释性可能是成功或失败的决定性条件。


如果存在可解释性问题,线性回归和决策树是很好的选择。神经网络则不然。选择好的候选者之前,一定要知道每种模型的结果是否易于解释。有意思的是,可解释性和复杂性通常存在于两个极端,所以接下来我们来看看复杂性。

3. 复杂性

一种复杂的模型在数据中可能会发现更多有趣的模式,但是,这会使维护和解释更加困难。


这里有一些不严谨的概括,需要记住:


  • 复杂性越高,性能就越好,但是成本也越高。

  • 复杂性与可解释性成反比。模型越复杂,解释结果就越困难。


抛开可解释性不谈,构建和维护模型的成本是项目成功的关键因素。复杂的设置会对模型的整个生命周期产生更大的影响。

4. 数据集大小

可用的训练数据量是选择模型时要考虑的主要因素之一。


神经网络在处理和合成大量数据方面确实很出色。KNN(K-Nearest Neighbors,K- 最近邻)模型更好,示例也更少。除了可用的数据量外,还有一个重要的考虑因素是,为了获得好的结果,你真正需要多少数据。有时候,你可以通过 100 个训练例子来建立一个很好的解决方案;有时候,你需要 100000 个例子。


利用这些与你的问题和数据量有关的信息,选择一个模型来处理它。

5. 维度

从两个不同的角度看待维度是有用的:数据集的垂直大小代表我们拥有的数据量。水平大小代表特征的数量。


我们已经讨论了垂直维度如何影响优秀模型的选择。事实证明,水平维度也是需要考虑的因素。如果你的模型有更多的特征,就会有更好的解决方案。越多的特征也会增加模型的复杂性。


维度的诅咒”(Curse of dimensionality)很好地介绍了维度如何影响模型的复杂性。可以想象,并非每一个模型对高维数据集的扩展都是相同的。在将高维数据作为问题进行集成时,我们可能也需要引入特定的降维算法。PCA 是这方面最流行的算法之一。

6. 训练时间与成本

训练一个模型需要多长时间,需要多少钱?你会选择一个正确率为 98%、训练成本为 10 万美元的模型,还是选择一个准确率为 97%、成本为 1 万美元的模型?


这个问题的答案当然取决于你的个人情况。


需要在接近实时的情况下结合新知识的模型,很难适应长周期的训练。举例来说,推荐系统需要根据每个用户的动作不断更新,才能从廉价的训练周期中获益。在设计可扩展的解决方案时,平衡时间、成本和性能非常重要。

7. 推理时间

运行一个模型并作出预测需要多长时间?想象一下自动驾驶系统:它需要实时作出决策,因此任何时间过长的模型都无法被考虑。


例如,使用 KNN 开发预测所需的大部分处理都在推理过程中进行。因此运行它的成本非常高。但决策树的推理时间较短,在训练过程中需要较长的时间。

结语

很多人专注于他们最喜欢的模型。常常是他们最熟悉的那个,在前一个项目中给他们带来了好效果。


但是机器学习中没有免费的午餐。任何一种模型都不能同时适用于所有情况,尤其是当我们考虑现实生活中的系统限制时。


当选择一个好的模型时,了解几个不同的考虑因素对确保项目的成功至关重要。作为总结,下面列出了我们刚才讨论的内容:


  1. 模型的性能

  2. 结果的可解释性

  3. 模型的复杂性

  4. 数据集的大小

  5. 数据的维度

  6. 训练时间和成本

  7. 推理时间


作者介绍:


Santiago Valdarrama,专注于机器学习系统。


原文链接:


https://towardsdatascience.com/considerations-when-choosing-a-machine-learning-model-aa31f52c27f3?gi=b42e581fe448

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-08-13 11:002745
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 489.1 次阅读, 收获喜欢 1965 次。

关注

评论

发布
暂无评论
发现更多内容

今晚直播 | 思码逸陆春蕊:面对研发效能度量落地难点,如何让数据说话?

思码逸研发效能

研发效能

企业级无代码平台,「重塑」软件生产关系

ToB行业头条

什么是全民开发?|概念、技能和优势

草料二维码

低代码 无代码

小技巧:如何让 Windows 应用程序在 Parallels Desktop 中启动得更快

互联网搬砖工作者

玩转服务器之Docker篇:10分钟学会搭建 Docker 环境

京东科技开发者

云计算 容器 Docker 镜像 企业号 4 月 PK 榜

轻松玩转小程序,这样做让你拥有2亿用户

加入高科技仿生人

小程序 低代码 小程序制作 小程序开发

算法刷题-单词接龙、矩阵中的最长递增路径、Z 字形变换

共饮一杯无

数据结构 算法 三周年连更

使用体验 I 早知道 TDesign 支持 AVIF 图片压缩,我就不用为流量和格式发愁啦!

TDesign

前端 图片压缩 图片格式

云原生时代,不可不知的基础设施即代码(IaC)

极狐GitLab

DevOps 云原生 CI/CD gitops IaC

从 Dev 和 Ops 视角出发,聊聊 DevSecOps 的 What / Why / How

极狐GitLab

DevOps 安全 DevSecOps 安全左移 安全合规

如何搭建自己的ChatGPT网站,它来了

派大星

ChatGPT

软件测试/测试开发丨Pytest 自动化测试框架(二)

测试人

软件测试 自动化测试 测试开发 pytest

Backgrounds——为所有人准备的mac动态壁纸,让桌面更生动

互联网搬砖工作者

重新学习Java线程原语

码语者

Java 线程

IPv6常见安全问题

穿过生命散发芬芳

ipv6 三周年连更

数据中心厂商超云加入龙蜥社区,多款服务器完成与龙蜥操作系统适配

OpenAnolis小助手

开源 操作系统 龙蜥社区 CLA 长城超云

“亮相”欧洲!TDengine 在 KubeCon 与开发者探讨云原生与数据库的技术结合

TDengine

tdengine 时序数据库 KubeCON

从零学习SDK(8)SDK的集成和部署

MobTech袤博科技

OpenKruise V1.4 版本解读:新增 Job Sidecar Terminator 能力

阿里巴巴云原生

阿里云 开源 云原生 OpenKruise

舒明:稳定支撑日高峰亿级保单交易,国泰产险的运维创新实践

OceanBase 数据库

数据库 oceanbase

瓴羊quickbi工具免费体验30天,零基础上手企业数据更直观

对不起该用户已成仙‖

Kubernetes网络策略之详解

乌龟哥哥

三周年连更

Selenium测试用例如何编写

测吧(北京)科技有限公司

测试

如何看待马斯克3月呼吁暂停人工智能,4月却创立TruthGPT

这我可不懂

低代码 JNPF

白盒的测试方法

测吧(北京)科技有限公司

测试

户外led电子屏未来发展趋势

Dylan

技术 LED显示屏 户外LED显示屏

软件测试/测试开发丨Pytest 自动化测试框架(一)

测试人

软件测试 自动化测试 测试开发 pytest

性能报告 | YMatrix 5.0 对比 Greenplum 超 12 倍性能提升,TPC-H 基准测试报告发布

YMatrix 超融合数据库

时序数据库 测试工具 数据库、

数字化转型框架如何搭建?

优秀

数字化转型

华为阅读发布最新进展,月活用户超1亿,大力发展精品阅读

最新动态

新起点!大数据分布式可视化的 DAG 任务调度系统 Taier 正式发布1.4版本

袋鼠云数栈

开源

选择机器学习模型,要注意这7个问题_AI&大模型_Santiago Valdarrama_InfoQ精选文章