【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

如何将机器学习模型的正确率从 80%提高到 90%以上

  • 2020-09-11
  • 本文字数:2319 字

    阅读完需:约 8 分钟

如何将机器学习模型的正确率从 80%提高到 90%以上

本文最初发表在 datascience 网站,由 InfoQ 中文站翻译并分享。

前 言

如果你已经完成了自己的一些数据科学项目,那么现在,你可能已经意识到,达到 80% 的正确率还不错,并不是很糟糕!但在现实中, 80% 的正确率是无法达满足要求的。事实上,在我工作过的大多数公司,都希望最低正确率至少要达到 90%(或他们正在关注的任何指标)。


因此,为了显著提高你的正确率,我将与你讨论你可以掌握哪五个技巧。我强烈建议你要通读这五种技巧,因为这些技巧有很多细节,而这些细节尚不为大多数初学者所知。


读完本文后,我想你应该会明白,在决定你的机器学习模型的性能方面起作用的变量,比你想象的要多得多。


话虽如此,本文介绍了你可以掌握的五个技巧,能够改善你的机器学习模型!

1. 缺失值处理

我见过的最大的错误之一,就是人们对缺失值的处理,这不一定是他们的错。网上很多资料都说,通常要通过均数填补法(Mean imputation)来处理缺失值,用给定特征的均值来替换空值,但这通常并不是最好的方法。


例如,假设我们有一个现实年龄和健康评估分数的表格,并假设一个 80 岁的老人缺少健康评估分数。如果我们从 15 岁到 80 岁的年龄范围内去平均健康评估分数,那么这名 80 岁老人的健康评估分数似乎会比他实际应该的分数要高得多。


因此,你要问自己的第一个问题就是,为什么数据一开始就缺失了?


接下来,让我们考虑处理缺失数据的其他方法,除了平均值/中值填补法:


  • 特征预测建模法:回到我刚才提到的关于年龄和健康评估分数的例子,我们可以建立年龄和健康评估得分之间的关系进行建模,然后使用这个模型来找出给定年龄的预期健康评估分数。这可以通过多种技术来实现,包括回归分析、方差分析等等。

  • K 最近邻填补法:使用 K 最近邻填补法,缺失数据用另一个相似样本的值来填充,对于那些不知道的,就用距离函数(即欧几里得距离)来确定 K 最近邻的相似度。

  • 删除行:最后,你可以删除该行。通常不建议这样做,但当你有大量的数据要处理时,这样的做法是可以接受的。

2. 特征工程

第二个可以显著改进机器学习模型的技巧是通过特征工程。特征工程是将原始数据转换为特征的过程,这些特征更好地表示人们试图解决的潜在问题。不过,这个步骤并没有具体的方法,这就是为什么说数据科学既是一门科学,又是一门艺术。尽管如此,但还是有一些你可以考虑的事情,如下。


  • 将 DateTime 变量转换为一周中的某一天、一年中的某一个月等等。

  • 为变量进行分桶操作。(如,对于高度变量,可以这样分桶:100~149 厘米、150~199 厘米、200~249 厘米等等)。

  • 组合多个特征和/或值来创建新特征。例如,由 Kaggle 主持的泰坦尼克号生存挑战赛中正确率最高的模型之一,设计了一个名为 “is_women_or_child” 的新变量,如果这个人是妇女或儿童,则为真,否则为假。

3. 特征选择

可以大大提高模型正确率的第三个技巧是特征选择,即选择数据集中最相关/最有价值的特征。太多的特征会导致算法过拟合,而太少的特征又会导致算法的欠拟合。


有两种我喜欢使用的主要方法,你可以使用它们来帮助你进行特征选择。


  • 特征重要性法:一些算法,如随机森林或 XGBoost,允许你确定哪些特征在预测目标变量的值时是最“重要”的。通过快速创建其中的一个模型并进行特征重要性的处理,你将了解到哪些变量比其他变量更为有用。

  • 降维法:作为最常用的降维分析技术之一,主成分分析(Principal Component Analysis,PCA)采用了大量的特征,并使用线性代数将它们约简到较少的特征。

4. 集成学习算法

改进机器学习模型的最简单技巧之一就是简单地选择一种更好的机器学习算法。如果你还不知道什么是集成学习(Ensemble Learning)算法,那么现在就是学习它的时候了!


集成学习是一种将多种学习算法结合使用的方法。这样做的目的是,与单独使用单个算法相比,它能允许你实现更高的预测性能。


流行的集成学习算法包括随机森林算法、XGboost 算法、梯度提升算法和 AdaBoost 算法等。为了解释集成学习算法如此强大的原因,我将举一个随机森林的例子:


随机森林包括使用原始数据经过自助法(Bootstrap)处理的数据集创建多个决策树。然后,模型选择每个决策树的所有预测的模式(大多数)。这有什么意义呢?通过依赖“多数为胜”模型,它降低了单个树出错的风险。



例如,如果我们创建一个决策树,即第三个决策树,它将预测为 0。但是如果我们依赖所有 4 个决策树的模式,那么预测值将为 1。这就是集成学习的力量!

超参数调整

最后,有些技巧虽然不经常谈到,但仍然非常重要,那就是调整模型超参数。你必须清楚地理解你正在使用的机器学习模型,否则,你很难理解这个模型的超参数是什么。


来看一下随机森林的所有超参数:


class sklearn.ensemble.RandomForestClassifier(n_estimators=100, *, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, max_samples=None
复制代码


例如,了解min_impurity_decrease是什么可能是个好主意,这样,当你想让你的机器学习模型更宽容时,可以对这个参数进行调整!

结语

通过阅读本文,我相信,当涉及到将模型的正确率从 80% 提高到 90% 以上时,你现在应该会有更多的想法了。本文提到的这些信息,也会让你在未来的数据科学项目更加顺利。


作者简介:


Terence S,学生,数据科学、数据分析及 MBA 专业。


原文链接:


https://towardsdatascience.com/how-i-consistently-improve-my-machine-learning-models-from-80-to-over-90-accuracy-6097063e1c9a


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-09-11 08:003181
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 494.9 次阅读, 收获喜欢 1968 次。

关注

评论 1 条评论

发布
用户头像
很不错的总结!这才是干货
2020-09-11 08:09
回复
没有更多了
发现更多内容

云安全是什么样子的?其工作原理是什么?

wljslmz

云安全 6月月更

web前端培训如何提高React界面性能

@零度

前端开发 React

InfoQ 极客传媒 15 周年庆征文|跨平台应用开发进阶(二十二) :uni-app Android APP上线准备工作汇总

No Silver Bullet

前端 签名 安全检测 6月月更 InfoQ极客传媒15周年庆

【LeetCode】多个数组求交集Java题解

Albert

LeetCode 6月月更

编程技巧│浏览器 Notification 桌面推送通知

可视化 6月月更 Notification 实时通知

IntelliJ IDEA常见快捷键

龙空白白

IntelliJ IDEA

如何使用物联网低代码平台进行数据分析?

AIRIOT

物联网 低代码开发

Javascript API自动代码生成需求征集

百家饭隐私计算平台创业者

JavaScript OpenAPI axios

java就业培训 | 面试官如何判断应聘者能力的,这一篇就够了

@零度

JAVA开发

人才一站式服务平台开发,高层次人才管理系统

a13823115807

技能速成!教你10分钟内在电脑上配置运行Hive Metastore和Presto

Alluxio

presto 技能 Alluxio hive metastore 初学者

java程序员培训 | 10年后程序员的薪资会怎么样

@零度

JAVA开发

特定MPC问题包含哪些常见技术,有什么作用,什么场景需要用到?

Jessica@数牍

隐私计算 安全多方计算 特定mpc问题

Mysql数据库查询好慢,除了索引,还能因为什么?

C++后台开发

MySQL 数据库 中间件 后端开发 C++后台开发

个推CTO趣谈元宇宙:从概念、成因到核心技术

个推

数据智能 元宇宙

Neat Syntax Design of an ETL Language (Part 1)

Bright

数据开发 ETL 大数据开发 EasySQL

2023年广州美博会-2023年春季广州美博会

Geek_0b38bb

美博会 2023年广州美博会 春季广州美博会 3月份广州美博会

探索质量外延 - 质量安全故事

QualityFocus

质量管理 软件质量与安全

个推TechDay直播预告 | 6月22日,开启大数据降本提效的破局之道!

个推

大数据 分布式计算 分布式存储 标签

BI与SaaS碰撞,让数据处理更加轻松(下)

葡萄城技术团队

数据分析 SaaS BI

多年亿级流量下的高并发经验总结,我毫无保留的写在了这本书中

冰河

并发编程 多线程 高并发 异步编程 6月月更

阿里云CIPU下笔惊雷,方寸间书写中国算力故事

脑极体

Vue-12-条件渲染(可重复元素)

Python研究所

6月月更

转转统一权限系统的设计与实现(前端实现篇)

转转技术团队

前端开发 umijs 权限设计

易观分析《计算机视觉市场研究,2022》研究报告正式启动

易观分析

人工智能

系统困境与软件复杂度,为什么我们的系统会如此复杂

阿里巴巴终端技术

软件 系统设计 软件开发

【6.10-6.16】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

Linux系统与Windows系统之间的文件上传与下载

龙空白白

Linux Windows系统

科创人·酷渲科技创始人华少:用双赢思维做产品、连生态,实现规模化发展

科创人

帮助中心应该怎样设计?

小炮

网络安全实战从0到1彻底掌握XXE

网络安全学海

黑客 网络安全 安全 渗透测试 WEB安全

如何将机器学习模型的正确率从 80%提高到 90%以上_AI&大模型_Terence S_InfoQ精选文章