OceaBase开发者大会落地上海!4月20日共同探索数据库前沿趋势!报名戳 了解详情
写点什么

未来十年大数据工程师即将失业?自动化建模平台已实现零基础建模

  • 2019-10-25
  • 本文字数:5133 字

    阅读完需:约 17 分钟

未来十年大数据工程师即将失业?自动化建模平台已实现零基础建模

人工建模需要花费很多时间进行数据预处理、模型选择、变量选择、调参、模型评估等,自动化建模将原本需要数周乃至数月的模型开发过程大幅缩短,甚至只需要几分钟就能找到最佳的模型。这样就可以在不同的业务场景中,针对不同的群体,快速建立大量不同的模型。飞贷金融科技即将在 11 月初上线公测其自动化建模平台,InfoQ 记者专访飞贷金融科技副总裁兼首席数据官林庆治,提前揭秘该平台背后的技术细节。


在日常的建模工作中,我们都或多或少会思考一个问题:建模可不可以被自动化?自动建模与机器学习的未来会如何发展?对于从事商业分析、数据分析、数据挖掘、数据工程、算法工程工作的人,可能也会焦虑,自动建模技术能在多大程度上代替现有的一些日常工作?它会完全取代现有的建模过程么?会有一部分人失业吗?本文将从自动化建模平台本身的痛点、技术细节、飞贷金融科技研发自动化建模平台的踩坑经验和思考,以及自动化建模的市场趋势和人才发展角度,给大家提供一些思考。

当下建模平台普遍存在哪些痛点

从建模本身来讲,它不是一件新鲜事,很多公司都在做建模,但问题一直存在,主要表现在:


首先,技术门槛高。十几年前,建模通常是顾问公司才能做,一般银行里是没有建模人员的,因为建模人员的技术门槛比较高,要求具备统计学背景、编程能力和购买比较昂贵的建模工具。所以很多公司没有建模人员的配置,只能使用顾问公司提供的建模平台。


第二,建模和处理流程复杂,工程量巨大。数据、模型等处理及搭建的工程量巨大,但在应用上却希望能快速从 1 到 N,因此必须具备快速开发能力。


第三,人员瓶颈问题。 可以做建模的人一般要求较高,需要懂算法、模型、数据、工具、效果等,必须是统计学出身,最好是有建模经验的专业人才,比如大数据工程师、数据科学家等,但目前该岗位人才有很大的缺口。


第四,“黑盒”模型难解释。 机器学习“黑盒”模型内部工作机制难以理解,导致实现不了多数监管机构要求提供的可解释报告及营销应用上的可解释与应用。如果金融机构想继续使用基于机器学习的解决方案,就必须对模型可解释性研究进行投资。



还有一个是现实与接受度的问题。林庆治提到,同样一个模型,很多人会认为顾问公司比银行做得更专业可信,如果领导也这么想,就导致一些公司很难自己去建模,即使建立了模型,使用起来也“担惊受怕”,往往最后以失败告终。

为什么我们需要自动化建模?

自动化建模提出之前,建模的流程可以概括为这样的一系列操作:为了在给定的数据集中实现当前最佳模型性能,需要使用者选择合适的数据预处理任务,挑选恰当的算法、模型和架构,并将其与合适的参数集匹配。遗憾的是,没有经验法则会告诉使用者在机器学习工作流中的每一步该怎么走,每一次选择都会生成一个模型。随着越来越多的模型不断地被开发出来,如何从众多模型中挑选最佳的模型也变得非常“棘手”。


从建模人员的角度面临的最大的一个问题是,如何快速地构建起一个质量相对不错的模型,以适应业务的快速发展。传统的风控建模周期较长,通常要数月时间才能达到上线的要求。其中,数据处理与特征工程的耗时在整个建模过程中会占到大约 60% 的时间,人工操作起来极具复杂性,需要经验法则,并且还要耗费大量时间;另一方面,真正建模耗时占整个模型开发的 30%~40% 的时间。这个过程的难点并不在于给出一个模型,而是在于同时比较多种模型甚至多种模型组合后,选出效果最佳的模型做主决策模型 (冠军模型)。这个过程如果用人工去实现,也会消耗非常多的时间,并且效果不一定最优。


虽然有些公司可能有专业的建模人员,但是人工建模需要先做数据预处理,然后选择模型,再做调试参数与模型评估等工作,这要耗费大量的时间。如果在有限的时间里要求建立大量模型,人工可能只能完成其中的 1/10,甚至更少。这就是为什么我们迫切需要自动化建模,因为当建模变得容易之后,需要大量人工介入的数据处理、模型选择、模型调参、超参数选择都可以用机器取代,建模人员可以把更多的精力放在模型调优、模型应用和制定决策上。


去年,开源的自动建模工具 Auto-Keras 发布,这是一个基于 Keras 的开源自动机器学习 Python 软件库。虽然这些开源的工具有其优点,但主要还是面向数据从业人员的建模工作。另外,还有一些公司已经开发出了一些半自动的建模工具。在这些工具上,建模人员可以通过输入一些参数,自己调试来完成建模任务。


还能更简单吗?简单到输入一些基本的数据、参数,就能实现自动化建模?答案是:能!


在采访飞贷金融科技副总裁兼首席数据官林庆治的时候,他提到自己一直在做与数据分析和建模相关的工作,所以深知自动化建模的迫切需求。由于飞贷也在做大数据与人工智能相关产品的 B2B 输出,所以他想到了做自动化建模平台,“因为自动化建模平台可以完美地结合大数据、人工智能应用与我在该领域 20 多年的数据建模经验。所以从去年开始我和我的技术团队就开始进行内部沟通,今年年初正式启动自动化建模和智能机器人的研发,一直做到现在,还在紧锣密鼓地内部测试中,希望在 11 月初可以正式对外发布测试。”

飞贷为什么要做自动化建模?

为什么飞贷要做自动化建模?林庆治解释,首先,从需求性来说,自动化建模平台无论是甲方还是乙方都有这个需求。从甲方的角度,无论是哪条业务线,比如信用卡、财富管理、互联网金融等,都是要基于数据去做模型分析,比如,在风险控制方面会做风控的模型,在营销方面会做营销的模型;从乙方的角度,因为市场上对于自动化建模是有大量的需求的,并且还在不断增加,这就让乙方开始关注自动化建模的工具和平台。


其次,飞贷为什么有能力做自动化建模?在以前如果要做一个好的建模工具,几个人的团队很难完成,但现在开源技术有了突破性的进展,建模方法论也发展得越来越标准化,尤其是 Google 提出了 AutoML 概念之后。随着开源技术和开源工具被广泛接受和使用,在建模上可以直接使用开源的工具做整合与开发,再利用自身技术团队的经验,不断测试和迭代,最终将其研发成一款产品。

飞贷自动化建模平台的创新设计

据了解,现在市面上主要有三种类型的厂商在做自动化建模:第一类是传统做 BI 分析的厂商,他们也想搭上自动化建模的列车,想要从传统的 BI 厂商转型。但这类厂商存在的问题是技术深度不够,对业务不了解,没有办法贴近用户的需求;第二类是由一些教授或者研究人员发起的、专门研究自动化建模技术的团队,从而成立一个公司去开发建模平台。


这类厂商的问题在于太讲究学术性、理论性,导致从用户体验的角度,门槛高,上手太难;第三类就是像飞贷这样,基于对业务的了解,提供 to B 的工具和平台。


飞贷一直有一个很明显的标签,就是既当过甲方,也做过乙方,所以其研发的自动化建模平台首先关注的是有建模需求的,但是没有那么高的技术水准的人,帮助他们也能实现快速建模。林庆治提到,“飞贷开发团队的人大都来源于建模工具的厂商顾问或业界建模人员,所以我们非常清楚建模里面的全流程,与市场上其他厂商最大的差异化就在于我们既是用户,也是开发者。”


飞贷做自动化建模平台,就是摸准了市场需求,又具备了足够的技术实力。所以,这事就成了。



飞贷自动化建模平台的第一版设定是有建模需求但不一定具备编程能力的人,只要他具备基本的统计分析知识,了解建模的原理和建模的流程,他就会很快速地接受该平台并上手,这就是低门槛。但低门槛不代表廉价,飞贷搭建的是一个全流程建模,并且该模型可以实现自学习,在某种程度上有点类似于 AI ,只要不断输入新的数据,该模型可以实现快速重新学习,不断优化,提升效能。


飞贷自动化建模平台的初步用户画像可分为两种:一类是小公司和个体,有建模和数据分析的需求,这类用户可以采用线上订阅的方式。另一类是中大型的银行、保险公司等持牌金融机构,可以采用租用或买断的形式使用建模平台。

飞贷自动化建模平台的踩坑经验

在问及飞贷研发自动化建模平台的踩坑经历时,林庆治提到,“飞贷金融科技的研发团队基本上都是甲方建模出身,所以非常清楚建模的流程、环节以及注意事项,但是当我们作为乙方去研发这样一款建模产品时,遇到的棘手的问题还是很多。”


首先是开源软件带来的不稳定性。 如前面所述,免费的开源工具确实极大地便利了自动化建模平台的研发,但与此同时,开源工具自身的不稳定性,也“折磨”着技术团队不断去调整,比如 Python、Spark 等,需要结合实际需要不断修正。


第二个是效能问题。 因为现在自动化建模,需要做大量的系统性自动化工程、例如特征工程、自动调参,这些工作本来就比较耗时间,一但数据增长翻倍之后,带来的系统负荷更大,怎么在精准性与效率上取得平衡,是现在面临的主要挑战。


第三个是如何做好差异化。如果研发团队只是把市面上的开源工具“包装”一下卖出去,各家的产品不会有差异化,也谈不上有市场竞争力。飞贷在一些核心的技术细节上做了调整或者去自主研发,特别是在特征工程与参数调优等方面,确确实实下了一番功夫。林庆治说:“差异化是自动化建模平台的核心竞争力之一,所以在关键的技术上,我们甚至请到了香港大学教授、业界比较有名的专家,针对核心的一些技术去做自主研发或调优。”

自动化建模技术成熟以后,数据科学家们会失业么?


知乎上有人提问,未来数据科学家的岗位需求是不是会越来越少?正如开篇提到的问题,对于从事商业分析、数据分析、数据挖掘、数据工程、算法工程工作的人,可能也会焦虑,自动建模技术能在多大程度上代替现有的一些日常工作?它会完全取代现有的建模过程么?会有一部分人失业吗?


基于对建模的了解,林庆治认为大家不必“杞人忧天”,自动化建模不会取代数据科学家的价值,恰恰相反,数据科学家的重要性只会越来越高。


首先,从总体需求的角度来看,企业对建模的需求只会愈来愈大。其次,从满足建模需要来说,自动化建模可以解决企业建模人才不足以及需要快速建模的需求场景,例如营销响应模型。但对于一些重要的模型或是复杂度高、需要调优的模型,还是需要有经验的数据科学家来完成。因此,自动化建模与有经验的数据科学家不是取代关系,而是相辅相成,各司其职。


如果自动建模技术真的渗透到我们工作中的各个领域后,基础的数据挖掘和算法工程师该如何体现自己的价值呢?


  • 增强对业务深度的理解与场景应用:虽然模型可以进行自动训练,但是理解业务需求、建议适用模型与模型的应用还是需要专业的建模人员来参与。

  • 建模知识体系的不断学习和建模经验的沉淀:能够不断学习新的建模理论,并从实际建模经验中沉淀出有用的经验法则是专业建模人员不可取代的价值。

飞贷自动化建模平台的未来发展的规划

自动化建模的市场其实早就“热流涌动”,只是还没有冒出头。目前这片市场还处于“鱼龙混杂”的局面。


一些有技术背景的人,比如他在谷歌、微软工作过,研究过建模工具,但是他没有业务背景,他不了解从使用方的角度会考虑哪些因素,这就导致他虽然也在做自动化建模,但是产品的完整度与应用性很低。一个好的自动化建模平台要从两个层面去考虑,一是站在客户(使用方)的角度,这个产品是否满足他的需求;二是有没有真正理解自动化建模的方法和精髓,是否用自动化建模的思维去做产品。


“其实我认为业界做得比较好的一款自动化建模产品是 H2O。”林庆治提到,H2O. ai 是初创公司 Oxdata 于 2014 年推出的一个独立开源机器学习平台,它的主要服务对象是数据科学家和数据工程师,主要功能就是为 App 提供快速的机器学习引擎。“但最大的问题是,它太贵了。对于创业公司或中小型企业的用户,很难承担起 H2O。相反,飞贷倒是一个不错的选择。”



在问及飞贷未来对于自动化建模平台的规划时,林庆治提到三点:


一是在产品版本上会更丰富。比如现在针对普通用户,做了“自动化版本”的建模平台;下一步会针对技术专家,做专家版本的自动化建模平台。从建模产品本身来看,会更加个性化,满足不同用户群体的需求。


二是增加不同类型的预测功能。现在自动化建模平台主要是在做分类性预测,比如预测这个人是好人还是坏人。但是在一些零售的场景下,会用到时间序列数据的预测。例如,一般零售厂商要考虑补货的问题,所以需要预测一些商品未来一周的需要,这就是时间序列预测。


三是扩大行业应用范围。目前自动化建模平台的主要用户是银行、保险公司等持牌金融机构,未来该平台的覆盖行业和规模会继续扩大,例如零售业。


嘉宾介绍:


林庆治,现任飞贷金融科技副总裁兼首席数据官。参与亚太区银行第一个大型数据仓库实施项目,启动银行数据驱动时代;在招商银行引进手机互动营销与智慧营销项目,支持招商在移动终端与实时互动营销上占得先机;在飞贷,完成大数据共享平台、机器学习平台与可视化平台三大应用平台建设,以及数据运营、数字营销、客户价值管理和客户洞察四大数据产品开发,支持飞贷在大数据科技与智能应用创新领域抢得先机。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-10-25 11:222123
用户头像

发布了 124 篇内容, 共 43.2 次阅读, 收获喜欢 176 次。

关注

评论

发布
暂无评论
发现更多内容

就是简单,全球100多万读者,一起跑通前端HTML5与CSS3知识!

图灵教育

大前端 HTML5, CSS3

如何穿透ToB客户生命周期的全链增长?

ToB行业头条

一招教你通过焱融 SaaS 数据服务平台+ELK 让日志帮你做决策

焱融科技

云计算 分布式 SaaS 公有云 文件存储

模块三作业——外包学生管理系统架构设计

覃飞

浅谈 RDMA 与无损网络

青云技术社区

云计算 云原生 存储

首次!统一调度系统规模化落地,全面支撑阿里巴巴双 11 全业务

阿里巴巴中间件

阿里云 云原生 中间件 双十一 统一调度

我是一个程序员,总想引导亲朋好友走上编程的伟大航路......

图灵教育

程序员 App Inventor

【云小课】如何初步定位GaussDB(for openGauss)慢SQL

华为云数据库小助手

GaussDB GaussDB(for openGauss) 华为云数据库

经验分享|参与内部开源的心路历程

云智慧AIOps社区

大前端 数据可视化 知识分享 开源治理 flyfish

手把手教你学Dapr - 2. 必须知道的概念

MASA技术团队

C# .net 微软 后端 dapr

LevelDB Java&Go实践

FunTester

Java 自学 Go 语言 leveldb FunTester

Web 用户体验设计提升实践

Shopee技术团队

大前端 web开发 用户体验 交互设计 可访问性

项目管理常见问题系列(1)—资源不足

一叶而不知秋

项目管理

第一本 Compose 图书上市,联想大咖教你学会 Android 全新 UI 编程

图灵教育

Compose AndroidUI

拥抱智能,AI 视频编码技术的新探索

阿里云视频云

阿里云 视频编码 机器视觉 视频编解码 视频云

开源数据库风起云涌,openGauss 恰逢其时

openGauss

#数据库

速来!开源中国首届飞算SoFlu组件开发悬赏赛来袭

SoFlu软件机器人

Java

前端的状态管理与时间旅行:San实践篇

百度开发者中心

大前端 san san-store 技术实践

openGauss支持国密SM3和SM4算法

openGauss

#数据库

盲盒app开发

Python代码阅读(第58篇):压缩列表

Felix

Python 编程 列表 阅读代码 Python初学者

CSS布局之display:flex(二)

Augus

CSS 11月日更

极光笔记丨关于数据大屏一比一还原设计稿这件事

极光JIGUANG

大前端 数据可视化

Nebula Graph 源码解读系列 | Vol.04 基于 RBO 的 Optimizer 实现

NebulaGraph

图数据库 源码解读

手把手教你学Dapr - 1. .Net开发者的大时代

MASA技术团队

C# .net 微软 后端 dapr

Nginx中间件渗透总结

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

从 Linux源码 看 Socket(TCP)的accept

赖猫

c++ Linux 后端 服务器 epoll

月薪3万的大厂测试工程师裸辞3个月,送外卖谋生背后的真实感悟

六十七点五

程序员 程序人生 软件测试 软件自动化测试 测试工程师

企业如何选择合适的低代码平台?这6点不得不考虑!

J2PaaS低代码平台

低代码 低代码开发 低代码平台 企业数字化

我所理解的社群—社群本质

sec01张云龙

社群 11月日更 社群运营

不要再重复造轮子了,Hutool这款开源工具类库贼好使

沉默王二

Java

未来十年大数据工程师即将失业?自动化建模平台已实现零基础建模_AI&大模型_关贺宇_InfoQ精选文章