9月7日-8日,相约 2023 腾讯全球数字生态大会!聚焦产业未来发展新趋势! 了解详情
写点什么

训练机器学习模型时应避免的 6 个错误

  • 2021-05-20
  • 本文字数:1448 字

    阅读完需:约 5 分钟

训练机器学习模型时应避免的6个错误

对人工智能模型进行训练的同时,还需要进行多阶段任务,以充分利用训练数据,获得满意的结果。为了保证人工智能模型的性能,本文列出了六个需要避免的常见错误。


创建人工智能或机器学习模型并非一项简单的任务。为了让模型能在不同环境下正常使用,除了要有大量的知识、技能和丰富的经验,你还要有高质量的计算机视觉训练数据,特别是基于视觉感知的人工智能模型。


从某种程度上来说,获取和收集训练数据,并将其用于训练模型,是人工智能开发中最重要的阶段。如果你在训练机器模型时犯下错误,不仅会导致你的模型执行出错,当你在医疗和自动驾驶汽车等领域做出关键业务决策时,还会造成灾难性的后果。以下是训练机器学习模型时比较常见的 6 个错误。

1.使用未经验证的非结构化数据


在人工智能开发过程中,机器学习工程师经常犯的一个错误就是使用未经验证的非结构化数据。未经验证的数据中存在数据重复、数据矛盾、缺乏分类、数据冲突、数据错误等问题,这些都可能导致训练不正常。


所以,在使用原始数据集进行机器学习训练之前,先要仔细检查一下原始数据集,去掉所有不必要或不相关的数据,以帮助人工智能模型功能更准确。

2.使用已用于测试模型的数据


这样的错误应该避免。举例来说,如果一个人已经学会了某样东西,把它应用到他的工作领域,并且把同样的信息应用到另一个领域,那么在推理时就会产生偏差和重复。


同样的原理也适用于机器学习:人工智能可以从大量数据集学习中来准确预测答案,同样的训练数据用于模型或基于人工智能的应用中,可能会导致模型出现偏差,产生的结果是之前学习的结果。因此,你需要用以前没有用来训练机器的不同数据集,来测试人工智能模型。

3.使用不充分的训练数据集


要想保证你的人工智能模型是准确的,你必须使用适当的训练数据来确保它能够以最高的准确度进行预测。通常,造成模型失败的一个主要原因就是缺乏充分的准备数据。


值得一提的是,需要的训练数据类型因人工智能模型或行业类型而异。要保证深度学习在高准确度下运行,你需要更多的定量和定性数据集。

4.确保你的人工智能模型不会出现偏差


要想创建一个人工智能模型,在各种场景下都能提供 100% 准确的结果是不可能的。就像人一样,机器也会因各种因素而产生偏差,比如年龄、性别、取向和收入水平等等,这些因素都会对结果产生不同程度的影响。所以你必须使用统计分析,来确定每一个个体因素是如何影响数据和人工智能训练的。

5.独立依靠人工智能模型学习


身为机器学习工程师,你必须确保你的人工智能模型使用适当的策略来学习。要实现这一目标,你必须定期审查人工智能训练过程及其性能,以确保最佳效果。必要时,还要请专家帮助,通过大量的训练数据集来训练你的人工智能模型。


在设计机器学习人工智能时,你必须不断地问自己一些重要的问题,比如,你的数据是否来自一个值得信赖的可信来源?你的人工智能能否发现广泛的人工统计数据,是否还有其他因素影响结果?

6.使用未正确标注的数据集


要想利用机器学习来设计人工智能模型,你需要采用正确标注的数据集,这样做不仅能帮助你获得最佳结果,还能提高用户对机器学习模型的信任程度。如果你的数据没有被正确标记,最终输出的模型就会受损。


如果你的机器学习模型是基于计算机视觉的,那么可以采用图像标注来生成所需训练数据。当然,除了训练模型外,人工智能公司还面临着另一个挑战:获取合适的标签数据,不过也有一些公司为机器学习和人工智能提供数据标注服务。


原文链接:


https://www.diginews.live/2021/04/avoid-these-6-mistakes-when-training-your-machine-learning-model

活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2021-05-20 17:141734

评论

发布
暂无评论
发现更多内容

【MySql项目实战优化】多行数据转化为同一行多列显示

安逸的咸鱼

MySQL 实战 7月月更

如何优雅地使用 Git?

Jackpop

不要在白嫖Github了!

Jackpop

JAVA编程规范之并发处理

源字节1号

软件开发 后端开发

putchar()

謓泽

7月月更

基于crudapi后端Java SDK二次开发之API认证和鉴权(二)

crudapi

API Cookie JWT crud basic auth

Python 有哪些好玩的语法糖?

Jackpop

HMS Core图形图像技术展现最新功能和应用场景,加速构建数智生活

最新动态

Android/Unity大乱斗-集成遇到的问题

芝麻粒儿

android Unity 7月月更

机器学习|BP(Back Propagation)神经网络

AXYZdong

机器学习 7月月更

Bigdata 作业 第14&15周

Pyel

如何高效系统学习 MySQL?

Jackpop

ES6之箭头函数

bo

前端 ES6 箭头函数 7月月更

面试微服务

Damon

7月月更

Python中除了lambda函数能实现一句话程序,还有什么方式能够实现呢?

迷彩

Lambda Function 7月月更 推导式

Markdown 基本语法格式

攻城狮杰森

markdown 7月月更

一次业务问题对ES的cardinality原理探究

Chares

Java elasticsearch 后端开发 问题排查 问题分析

基于多数据源零代码同时生成多个数据库CRUD增删改查RESTful API接口——MySql,PostgreSql,Oracle,Microsoft SQL Server多数据源

crudapi

Java 数据库 Spring Boot crudapi 多数据源

JVM-SANDBOX导致目标服务JVM Metaspace OOM的调查始末

柠檬汁Code(binbin0325)

互联网 字节码增强 故障排查

彻底了解C++异步从理论到实践

C++后台开发

网络编程 异步 C++后台开发 C++开发 C++编程

【CODETOOL】文件比较Beyond Compare使用介绍

柒号华仔

开发工具 7月月更

MySQL到底是如何执行SQL语句的

技术小生

MySQL 7月月更

开发者必看 | DevWeekly 第1期:什么是时间复杂度?

Jackpop

新星计划Day9【数据结构与算法】 递归

京与旧铺

7月月更

应用的无状态设计

穿过生命散发芬芳

7月月更 应用无状态

MySQL 5.7.37数据库下载安装教程(Windows无需安装版)

未见花闻

7月月更

Envoy生命周期管理

阿泽🧸

envoy 7月月更

长安链tls基础研究

长安链

安利一款笔记工具---Obsidian

空城机

工具 7月月更

为什么 Nodejs 这么快?

devpoint

nodejs V8 视频流 7月月更

面试官:工作两年了,这么简单的算法题你都不会?

掘金安东尼

程序员 面试 算法 前端 7月月更

  • 扫码添加小助手
    领取最新资料包
训练机器学习模型时应避免的6个错误_AI_Vikash Singh_InfoQ精选文章