深入理解AutoML和AutoDL(一):AutoML的研究意义

2020 年 4 月 21 日

深入理解AutoML和AutoDL(一):AutoML的研究意义

编者按:本文节选自华章科技智能系统与技术丛书 《深入理解 AutoML 和 AutoDL:构建自动化机器学习与深度学习平台》一书中的部分章节。


AutoML 的研究动机


传统的机器学习在解决问题时,首先需要对问题进行定义,然后针对特定问题收集数据,由专家对数据特征进行标定、提取特征、选择特征,然后根据所选特征训练模型、对模型进行评估,最后部署到应用上,以解决最初提出的问题。其中数据收集、特征提取、特征选择、模型训练和模型评估的过程,是一个迭代的过程,需要反复进行、不断优化才能得到较优的模型。这个过程非常耗时费力,那么 AutoML 呢?AutoML 可以将传统机器学习中的迭代过程综合在一起,构建一个自动化的过程,实现自动特征工程、自动管道匹配、自动参数调整、自动模型选择等功能,从而减少时间和人力等资源的浪费。图 1 所示是传统机器学习和自动化机器学习的对比。



图 1 传统机器学习和自动化机器学习对比


(1)传统机器学习是一个烦琐且耗时的过程


传统的 AI 模型训练往往要经历特征分析、模型选择、调参、评估等步骤,这些步骤需要经历数月的时间,如果完全没经验,时间会更长。AutoML 虽然也需要经历这些步骤,但是通过自动化的方式,可以减少这些步骤的时间。选择怎样的参数,被选择的参数是否有价值或者模型有没有问题,如何优化模型,这些步骤在从前是需要依靠个人的经验、知识或者数学方法来判断的。而 AutoML 可以完全不用依赖经验,而是靠数学方法,由完整的数学推理的方式来证明。通过数据的分布和模型的性能,AutoML 会不断评估最优解的分布区间并对这个区间再次采样。所以可以在整个模型训练的过程中缩短时间,提升模型训练过程的效率。


(2)传统机器学习有一定难度,准入门槛高


模型训练的难度使得很多初学者望而却步,即使是数据专家也经常抱怨训练过程是多么令人沮丧和变化无常。没有经过一定时间的学习,用户很难掌握模型选择、参数调整等步骤。


AutoML 可以降低使用机器学习的门槛,它作为一个新的 AI 研究方法,将机器学习封装成云端产品,用户只需提供数据,系统即可完成深度学习模型的自动构建,从而实现自动化机器学习。


AutoML 将会成为机器学习发展的最终形态,即机器自己完成学习任务,这样基于计算机强大计算能力所获得的模型将优于人类对它定义的模型。从使用的角度来讲,必定会有更多非专业领域的人受益于 AutoML 的发展。


图 2 展示的是一个使用 AutoML 进行图片分类的简单问题。首先上传图片并对图片进行标注;接着被标注过的图片会输入到视觉处理系统中,由视觉处理系统根据上传的图片,对标注区域的特征进行提取,并进行特征的预处理,之后根据图片特征,自动构建神经网络结构并训练该模型;经过不断地评估和优化,最后得到一个预测模型。



图 2 使用 AutoML 进行图片分类


AutoML 的意义和作用


21 世纪是一个信息的时代,各行各业都面临着一个同样的问题,那就是需要从大量的信息中筛选出有用的信息并将其转化为价值。随着机器学习 2.0 的提出,自动化成为了未来机器学习发展的一个方向。如图 3 所示,各行各业都涉及机器学习,机器学习已经融入我们生活的方方面面,比如金融、教育、医疗、信息产业等领域。



图 3 机器学习可赋能产业


对于一个机器学习的新人来说,如果他想使用机器学习,则会遇到很多的障碍,也会受到很多的限制,例如:该怎样处理数据、如何选择模型、使用怎样的参数、模型效果不好该如何优化等。AutoML 使得机器学习大众化,让这些连专业术语都不懂的人,也可以使用机器学习。他们只需要提供数据,AutoML 便会自动得出最佳的解决方案。而对于有一定机器学习基础的人来说,则可以自己选择模型、参数,然后让 AutoML 帮助训练模型。


AutoML 带来的不仅仅是自动化的算法选择、超参数优化和神经网络架构搜索,它还涉及机器学习过程的每一步。从数据预处理方面,如数据转换、数据校验、数据分割,到模型方面,如超参数优化、模型选择、集成学习、自动化特征工程等,都可以通过 AutoML 来完成,从而减少算法工程师的工作量,使他们的工作效率得到进一步提升。


图 4 所示为 2018 年各人工智能行业的资金投入量,其中机器学习领域的资金投入量最大,说明了机器学习对于现在的人工智能的重要性。在其他领域,自然语言处理、计算机视觉、智能机器人、语音识别等,资金投入量也不容小觑。AutoML 可以融合上述方面,实现自动化。目前,人工智能领域也确实是朝着这个方向发展,将各个行业融合在一起,只需要一个 AutoML 的服务器,即可实现各个领域的融合,方便用户的使用,使其更快地融入我们的现实生活,方便我们的生活。


(1)AutoML 解决了人工智能行业人才缺口的瓶颈


对于急速发展的人工智能领域来说,人才的培养显得有些不足。人工智能的发展时时刻刻都在变化,而培养一批该行业的专业人员通常需要几年的时间。以青年人群为例,从上大学开始,学校才会根据专业对他们进行培养。如果选择计算机专业,本科教育通常只会让他们了解到计算机的基础知识,使其具备基本的编程能力;通常到研究生阶段,才会接触到机器学习等复杂的人工智能。这就需要至少 6 年的时间才能培养出一批机器学习领域的从业人员。这样长的人才培养周期是无法跟上人工智能行业快速发展的脚步的,而 AutoML 就很好地解决了这一问题。AutoML 可以提供自动化的服务,对于曾经需要人工参与的数据处理、特征处理、特征选择、模型选择、模型参数的配置、模型训练和评估等方面,实现了全自动,仅凭机器就可以独立完成这一系列工作,不需要人工干预,从而减少了人力资源的浪费,解决了人才紧缺的问题。



图 4 2018 年各人工智能行业资金投入量


但是,这就涉及另一个问题了,既然机器可以完成大部分的工作,是否会造成相关专业人员的失业问题呢?其实,这个答案必然是否定的,AutoML 可以解决人才紧缺的状况,但是并不代表它能取代专业人士。现有的 AutoML 平台虽然可以完成这些步骤的自动化处理,但是其中的规则仍然需要人工设定,也就是说,专业人士并不会面临失业的困境,而是要做更高端的工作。


(2)AutoML 可以降低机器学习的门槛,使 AI 平民化


前文已经提到过很多次,机器学习的自动化可以降低机器学习的入门门槛。无论是机器学习新人、机器学习行业从业者,还是机器学习行业专家,都可以很好地适应 AutoML,并使用它提供的服务。对于机器学习新人来说,只需要提供数据集上传至 AutoML 服务器,即可得到预测结果;对于机器学习行业的从业者而言,可以自主选择其中的参数;对于机器学习行业专家来说,可以在 AutoML 平台设置更多的参数,或者进一步研发 AutoML。


(3)AutoML 可以扩大 AI 应用普及率,促进传统行业变革


AutoML 可以涉及图像识别、翻译、自然语言处理等多种 AI 技术与产品。以自然语言处理为例,比如一个小的电商网站想对收集到的大量用户评价进行分析,了解这些评价是正面的还是负面的,以及提到了哪方面的问题。从前需要人工进行标注,现在用 AutoML 自然语言处理,就可以很简单地训练一个属于自己的模型,自动化地做标注和分析。


如今,AI 技术的普及和发展,使得各个行业都逐步意识到 AI 技术对于产业、产品方面的优化作用。但是,作为金融、制造、消费、医疗、教育等传统企业,从无到有应用 AI 的成本往往不低,使得很多企业虽然有着需求但对于应用 AI 望而却步。


AutoML 作为这类问题的解决方案,使得越来越多的科技企业开始研发 AutoML 平台,目的就是为不懂技术的传统企业提供使用 AutoML 技术的捷径,从而达到人人皆可用 AI 的局面。AutoML 作为一个新的 AI 研究方法,扩展了 AI 研究能够到达的边界,然后又在其上构建了 AutoML 的应用平台及产品,让 AI 的应用得到了较为有效的扩展,让更多行业都可以用 AI 解决现实世界中的问题。


图书简介https://item.jd.com/12685946.html



2020 年 4 月 21 日 10:05488

评论

发布
暂无评论
发现更多内容

智能合约Dapp系统开发,区块链智能合约技术

薇電13242772558

区块链 智能合约

懒人神器——新手必备的图片后期处理软件

懒得勤快

图片后期 修图 滤镜 ps

字节三面远程,Java+Redis+网络+数据库+算法,轻松反杀面试官?

Java成神之路

Java 程序员 架构 面试 编程语言

7年开发的老油条,你不跳槽怎么涨薪?看我怎么拿到阿里P7offer的

Java成神之路

Java 程序员 架构 面试 编程语言

架构师训练营第 13 周作业

netspecial

极客大学架构师训练营

架构师训练营 -week13-总结

大刘

极客大学架构师训练营

架构训练营-week13-作业1

于成龙

架构训练营

架构训练营-week13-总结

于成龙

第四周 系统架构 学习总结

feiyun123

极客大学架构师训练营

海量小文件存储系统HOS探索与实践

Galaxy数据平台

OSS 对象存储 HBase 大数据平台 GEEDGE NETWORKS

阿里9年老开发终于总结出微服务架构设计模式PDF了

小Q

Java 学习 编程 架构 面试

智慧平安社区平台建设app,公安大数据分析系统开发

WX13823153201

智慧平安社区平台建设

DeFi流动性挖矿系统APP软件开发

开發I852946OIIO

系统开发

测开之数据类型· 第4篇《迭代器、生成器》

清菡

测试开发

如何透彻理解 Redis 核心原理?怎样才能形成 Redis 系统观?

Java架构师迁哥

面试阿里被质问:ConcurrentHashMap线程安全吗

Java架构师迁哥

炸锅了!国内首本通用源码阅读指定书籍:MyBatis源码详解

周老师

Java 编程 程序员 架构 面经

Java渣渣外包开发3年,4面终揽下美团面试官,含泪拿到22koffer

比伯

Java 编程 程序员 架构 面试

面试必问系列,源码解析多线程绝对不容忽视得问题:线程活性故障

小Q

Java 学习 架构 面试 多线程

一个典型的大型互联网应用系统使用了哪些技术方案和手段,主要解决什么问题?

我们新四军不拿群众一针一线

光知道SpringBoot,不用thymeleaf就太不对了

小Q

Java 学习 编程 面试 Spring Boot

字节首发Redis笔记,基础+原理+应用+源码+拓展五大核心模块

Java架构追梦

Java redis 编程 架构 面试

2020年11月最新分享,我凭借这份pdf拿下了蚂蚁金服、字节跳动等大厂的offer

Java成神之路

Java 程序员 架构 面试 编程语言

03-week4-homework

J

极客大学架构师训练营

2020年文章合集

Rayjun

区块链落地应用开发- 珠宝溯源,不当“冤大头”

13828808769

区块链技术 区块链落地开发 珠宝溯源

Swift函数调用逆向分析

ios swift

某程序员刷完这两份pdf轻松拿下了蚂蚁金服、头条、小米等大厂的offer。

Java成神之路

Java 程序员 架构 面试 编程语言

第四周 系统架构 作业 「架构师训练营 3 期」

feiyun123

极客大学架构师训练营

天猫Java研发岗面经(技术三面):基础+算法+MySQL+Redis+秒杀架构

Java成神之路

Java 程序员 架构 面试 编程语言

互联网架构总结

J

极客大学架构师训练营

深入理解AutoML和AutoDL(一):AutoML的研究意义-InfoQ