NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

WAIC|高精准、低成本,九章云极 DataCanvas 突破 AutoML 难题

作者:九章云极DataCanvas

  • 2021-07-22
  • 本文字数:2225 字

    阅读完需:约 7 分钟

WAIC|高精准、低成本,九章云极DataCanvas突破AutoML难题

2021 年世界人工智能大会(WAIC)于 7 月 8 日 在上海世博中心拉开帷幕。九章云极DataCanvas董事长方磊受邀参加由世界人工智能大会组委会主办、机器之心承办的“2021 WAIC·AI 开发者论坛”,并发表“Hypernets:自动化机器学习的基础框架”主题演讲。



本次论坛以「后深度学习的 AI 时代」为主题,作为本届 WAIC 开发者单元的主力军,WAIC· AI 开发者论坛与 WAIC·开发者日一脉相承,连续三年始终专注 AI 技术人员与开发者。本次论坛邀请了 15 位学术界和产业界重磅嘉宾,覆盖多模态机器学习及大规模自动生成技术、AutoML 框架、智能社区的多模态数据融合、智能制造中的算法平台以及下一代 AI 基础软件能力等话题,共同探讨 AI 前沿技术。九章云极 DataCanvas 董事长方磊围绕 AutoML 框架的重要性和基本抽象、Hypernets 的概念模型和重要特性、Hypernets 的具体示例三部分向广大开发者奉献了一场干货满满的技术福利。



AutoML 框架的本质是空间搜索


AutoML技术的研发与应用是一个持之以恒的课题,随着对其研发的深入,很多 AutoML 工具的各部分高度耦合,只能针对特定问题,难以扩展。方磊表示,AutoML 框架的本质就是空间搜索,在这里面很重要的思想就是抽象性和层级的必要。


AutoML 框架是对 AutoML 领域面对的问题解构和抽象后形成的基础性支撑,无论是超参数优化、Full-Pipeline 搜索还是神经网络架构搜索(NAS)问题,主要围绕 3 个基本部分:搜索空间(Search Space)、搜索策略(Search Strategy)和评估策略(EstimationStrategy)。AutoML 框架应对各部分高度解耦以实现各部分自由扩展,开发者可以在此之上不断丰富搜索算法,设计多样搜索空间,避免共性问题重复开发,针对非共性问题实现灵活扩展,加速迭代效率,大幅低于降低自动机器学习的准入门槛,能够让开发者快速实现自动机器学习的搜索。



Hypernets——开发者的朋友


一款优秀的 AutoML 框架应当在上述三个部分具有:富有表现力的搜索空间描述语言、支持高维空间的高效搜索算法和高性能的评估策略。Hypernets 作为一个自动机器学习的底层通用框架,满足单节点及分布式高性能的模型训练需求,可以在不同的空间进行搜索与训练,结合各种机器学习和深度学习框架开发专用自动机器学习工具,帮助用户快速开发专用领域的 AutoML 工具。同时,Hypernets 支持最新的神经网络架构搜索(NAS)算法,可以实现深度学习的网络架构设计自动化。


方磊表示,Hypernets 与目前众多的机器学习、深度学习框架相结合更快更好的生成自动机器学习工具。用 5-10 行代码完全可以搜索模型,因此 Hyperents 一个定位就非常清晰,不管开发一个训练框架还是开发应用模型,都是开发者的朋友。开发训练框架可以让框架使用 Hypernets 很容易结合出框架本身的自动机器学习能力;如果是开发应用模型,可以组合不同学习训练框架的同时,在上面使用 Hypernets,端到端整个 pipeline 上进行自动机器学习的参数搜索,就会得到非常较好的模型。经过大量在行业上的应用,在特征丰富情况下,Hypernets 在搜索能力包括分布式计算能力体现出来很多优势,搜索时间短,算力仅需普通训练的 20-30 倍,就能够得到一个性能大大提升的模型。


简单快速精准的自动机器学习开发过程


开发者通过 Hypernets 设计不同的模块空间(Module Space)和相应的参数空间(Parameter Space),通过不同的连接方式(Connection Space)将各个模块空间组合成为一个高维的丰富动态搜索空间(Search Space)。遗传算法作为搜索策略的一个例子,是一种非常有效的寻找局部最优的方法,也可以与其他各类算法组合使用,实现更为强大的策略,例如在空间切分搜索的时候,使用遗传算法加速子空间中的迭代。评估策略的核心在于高效:在评估不精确的情况下,通过指导搜索方向、节省预处理时间、防止过拟合三种方式,减少计算量,高效地利用自动机器学习找到更好的模型。作为 Hypernets 的一个具体实例,HyperGBM在多个公开数据集上和真实业务场景上,超过或达到了人类专家和其他 AutoML 工具的水平。



强大的自动机器学习开源框架:Hypernets 家族


Gartner 在2020年十大科技趋势中,将以 AutoML 为代表的 AI 普及化作为数据与分析领域的重要战略技术之一。作为帮助用户快速开发专用领域的 AutoML 工具,Hypernets 于 2019 年在 GitHub 进行开源,结合各种机器学习和深度学习框架开发专用自动机器学习工具,率先突破了机器学习建模过程中不均衡数据、概念漂移、模型泛化能力和大规模数据等诸多挑战,提供开放的训练服务框架,降低了 AutoML 工具的开发门槛,实现深度学习的网络架构设计自动化。



方磊提到,AutoML 的核心内容是降低门槛构建模型。基于 Hypernets 框架,九章云极 DataCanvas 自主研发的 HyperGBM 不仅能够解决生产化困扰,同时实现了数据预处理、特征衍生、特征筛选、模型超参数优化、模型选择、模型融合全过程的全自动机器学习,仅需 5 行代码就可以实现高质量的模型,拥有开箱即用、简单易用等特点,解决企业在结构化数据建模的需求。


为避免共性问题重复开发,其研发的HyperKeras支持神经网络架构搜索和超参数优,专注非共性问题,实现灵活高效扩展。此外,九章云极 DataCanvas 对 AutoML 技术不断探索,开源项目 DeepTables 荣获全球知名国际性竞赛第一名,全新定义了深度学习技术在结构化数据分析领域的价值。


随着人工智能时代对于 AutoML 需求的增加,九章云极 DataCanvas 将运用 Hypernets 框架融合更多的深度学习框架,推动神经网络架构搜索的前沿发展,助力实际应用场景中的深度学习模型落地,并且通过在 AutoML、AutoDL 领域不断的技术创新,为金融、通信、政府等众多行业实现数智化升级提供新动能。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-07-22 15:47727

评论

发布
暂无评论
发现更多内容

时隔一年多 jQuery 再度发布 3.6.1 新版本,你还在用JQ吗?

茶无味的一天

JavaScript 前端 框架 ​jQuery

SAE 助力贵州酒店集团从容支撑贵州特产抢购

阿里巴巴中间件

阿里云 Serverless 云原生 SAE

开发者有话说|成长之路

六月的雨在InfoQ

个人成长 开会 996 007 9月月更

软件开发正确打开方式:低代码+微服务

力软低代码开发平台

5G网络行业切片SLA初探

鲸品堂

5G 网络切片

2022届秋招Java岗高频面试题盘点,老司机也未必全会,真的太卷了

钟奕礼

Java 面试 java;

数据API开发如何快速上手:先了解什么是数据API生命周期管理

雨果

API 数据api

中心化决议管理——云端分析

字节跳动终端技术

ios 研发效能 CocoaPods 制品库 云化服务

【编程基础】利用Python实现阿姆斯特朗数的求解

迷彩

Python 9月月更 阿姆斯特朗数 水仙花数

你用对了么?对象文件网关 VS 分布式文件存储

焱融科技

云计算 分布式系统 对象存储 高性能 文件存储

阿里云服务器ECS基本操作指南

六月的雨在InfoQ

阿里云 SSH xshell 云服务器ECS 9月月更

架构实战训练营模块1作业--开启架构之旅

阿姆斯壮

架构实战营 #架构实战营

概述数据交换的构建策略

穿过生命散发芬芳

数据交换 9月月更

融云x白鲸《2022社交泛娱乐出海白皮书》

融云 RongCloud

互联网 白皮书 融云

信创升级 | 秒云与人大金仓完成兼容性互认证

MIAOYUN

数据库 信创 国产数据库 信创云 容器云平台

Fluid 助力阿里云 Serverless 容器极致提速

阿里巴巴云原生

阿里云 Serverless 云原生 Fluid ASK

java基础面试题

钟奕礼

编程 java;

一比一手写迷你版vue,彻底搞懂vue运行机制

hellocoder2029

JavaScript

龙湖千丁基于 ACK@Edge 的云原生智慧停车系统架构实践

阿里巴巴云原生

阿里云 Kubernetes 云原生

IP地址和MAC地址都可以确定目标地址,为什么二者都在使用,舍弃一个是否可行?

阿柠xn

Mac IP 网络 协议族 9月月更

NFTScan 与 Banksea Finance 在 NFT 源数据层面达成战略合作

NFT Research

区块链 NFT 合作 web3

数据产品经理那点事儿二(合集)

松子(李博源)

大数据 深度思考 高效工作

为什么大数据工程师比数据科学家的需求更大

雨果

数据工程师

HTTP - TLS1.3 初次解读

懒时小窝

开发者测评:相比 Harbor,我选择 ACR 的三点原因

阿里巴巴云原生

阿里云 Kubernetes 容器 云原生 ACR

字节半天*3面/5天拿offer,全凭自身硬实力和这份Java面试笔记

钟奕礼

Java 面试 java;

模块一作业

LED显示屏价格与品质哪个更重要

Dylan

LED LED显示屏 led显示屏厂家

手写vue-router核心原理

hellocoder2029

Vue

2022第三届云原生编程挑战赛--Serverless VSCode WebIDE使用体验

六月的雨在InfoQ

Serverless 边缘容器 9月月更 Serverless VSCode WebIDE 线上ide

Java | this和super关键字【深入理解子类和父类的继承关系】

Fire_Shield

super this 9月月更

WAIC|高精准、低成本,九章云极DataCanvas突破AutoML难题_文化 & 方法_InfoQ精选文章