写点什么

一文看懂支付宝金融智能背后的 AI 技术

  • 2020-02-10
  • 本文字数:7168 字

    阅读完需:约 24 分钟

一文看懂支付宝金融智能背后的AI技术

当下金融科技是一个非常热门的话题,AI 更是如此,AI+ 金融科技存在巨大的想象力,但金融场景跟传统的推荐搜索广告等场景又存在较大的差异。蚂蚁金服在 AI+ 金融领域经过了多年的探索,沉淀了较多经验,蚂蚁金服集团人工智能部总监周俊,在 2019 年 11 月 22 日举行的 AICon 全球人工智能与机器学习技术大会上,针对如何在金融场景中发挥 AI 的价值?如何让 AI 更好赋能金融科技场景,帮助各个业务取得效果提升等问题进行了细致的分享。


我演讲的内容分为三个大的议题:第一、金融服务面临的挑战;第二、金融 AI 能力;第三、金融 AI 的应用,下面我们来逐一讲下:

金融服务面临的挑战


首先来说说金融服务面临的挑战。金融服务和传统依赖广告搜索推荐的传统电商有很大不同,尤其是场景数量上存在较大差异。很多做金融的企业都是以支付起家,支付本身会积累很多数据和用户,通过支付本身带来了很多用户量之后,会延伸出保险、微贷、财富等大家能在支付宝中经常看到的一些场景,还会衍生出为这些钱“守门”的风控技术。这种典型的金融服务场景与传统电商“以逛为主”的特点不太一样。比如经常使用支付的人,不一定会经常使用金融场景中的保险,而且保险的使用频率也不会那么高,一年的车险和个人保险在某个时间点购买好以后就不会再经常使用到保险这项服务了,贷款也是如此,用户不太可能一年去贷几十次,或者上百次,这是不太现实的。用户跟系统交互过程积累了多样化的信息,从这些数据中可以看出几个问题:


第一、它对时间会比较敏感。比如说 2018 年和 2017 年的两组数据差异还是较大的,差异的原因一方面来自国家宏观层面上,确实发生了较多的大事。另一方面我们这两年往外推服务的时候,接触的用户群体的差异也会比较大。还有一方面也比较好理解,就是大家的收入在增长,所以针对某些服务的体验和感受也会有比较大的差异。


第二、海量数据。这些数据的体量是非常巨大的,就支付本身而言,它的数据体量都是十分庞大的,每一笔支付,或者是每一次用户点开一个二维码去付款,这背后的数据量是非常多的。但是支付和电商不太一样的地方是,如果你把它剖开到更细化的场景来看,其实每个细化场景里面的数据量又不是特别多,比如说前面讲的保险,把数据量拆分到某个险种本身,它的数据量并不是那么足够,这个不够是指面对中国这么多互联网人群来看它又是不够的,它是一个比较好的矛盾体组合。


第三、业务多样性。业务端前面已经讲过了,它不是传统的电商,只以单独的 CTR 预估为场景,就可以做很多相关的事情。金融场景里面,也要做 CTR 预估,要做新用户拉新和增长,做完用户增长之后,就要考虑怎么去把这些用户转化成金融场景中的用户,所以它的业务会是多样性的。


第四、系统风险。其实最大的风险还是系统的风险,我们希望今天做的事情,能够防范系统风险。比如说我们不希望用户 A 的本身最大能承担金额只有 800 块,他已经在某家银行或者某个金融机构里贷出了 800 块,同样的用户 A 又跑到另外一个互联网金融公司再去贷款 800 块,这肯定是不合理的,因为他的履约能力只有 800 块,今天已经有个金融机构给了他 800 块了,他跑到你这来,如果你还贷给他 800 块,这样对整个大盘而言是个巨大的风险。如果整个大盘垮了,没有任何一家能够独活。


最后,就是怎么去防范系统性风险。这也是我们面临的一个巨大的挑战,强安全性肯定是十分必要的。所有的金融相关的数据和电商数据比起来,对安全和隐私的重视程度肯定会更高一些,大家都知道,金融数据本身比电商数据含金量更高一些,个人信息的敏感程度相应来说也会比较高,所以挑战也比较大。那我们要如何去应对这些挑战呢?我们来看下蚂蚁打造的金融 AI 的能力。

金融 AI 的能力


我们需要依赖很多信息、计算力去构建一些 AI 算法。这里所展示的所谓的金融算法,是比较偏向机器学习算法的。这里列了很多像自动机器学习(AutoML)这样的算法,那么,我们为什么要去做 AutoML?原因在于,首先,我们有很多比较分散的场景,无论是蚂蚁金服还是 360,或者其他别的公司,相信在面对那么多复杂的场景时,并没有那么多的算法工程师可以投入;其次是这几年算法工程师的人力成本涨幅很快,在高校里面这个趋势更为明显。你去招聘时会发现现在市场上已经没有做工程的人了,这个讲起来其实挺可悲的。学校里所有人都在做算法,这也不太正常。我们自己也在和自己革命,我们在思考可不可以做一些自动机器学习方法,在一些场景中,用算法去替代人工,或者至少让算法在这样的场景里面能够给人工提供比较好的 Baseline。


图推理,也是这几年学界比较火的一个议题。以前大家传统的做法是把一个样本输到一个模型里面,这种方式忽略了样本之间的依赖关系,如果用图将样本间的依赖关系描述出来,用这种方式输入到神经网络里面,能做的事情会更多一些,这也比较符合大家对强社交关系的认识。比如说你想预测自己的收入,那就把自己身边最好六七个朋友的收入做个平均,基本上和你的收入非常接近,准确率能达到 80%以上,这也是图技术能够应用在 AI 里面的一个很重要的一点。


然后再来说说隐私保护,可能在三四年前大家对隐私保护关注还比较少。可能因为去年 Facebook 事件出来以后,以及国内相应的一些法律法规相继推出来以后,大家对隐私保护关注越来越高。


另外,模型的可解释性和信息连通也尤为重要。无论一家企业做得多大,还是会在某些点上存在很大的信息孤岛。比如我们跟其他的一些金融机构相比,可能我们有很多电商类的数据,而传统金融机构有几个很大的数据库,例如收入数据和公积金数据。那么,怎样才能把这些数据孤岛打通也是一个很大的挑战。同时,我们希望能够对算法提供一个可解释性,能够运用一些方法去对模型本身去做一些解释,希望将人和机器能够更好地结合起来。


至于其他的内容,如自然语言处理、图像 CV、生物识别、基于企业图谱的信息服务,还有为用户提供更好体验的机器人服务等,我们会将它们打包成一个叫“金融大脑”的产品,用于服务各式各样的场景,比如智能理财、智能风控,也会服务我们自己内部的一些场景,以及我们的合作伙伴。

金融 AI 的落地应用


接下来我会具体讲一讲蚂蚁是怎样运用这些 AI 技术的。

智能风控

这里面列出了一些 case,解释下如何利用深度学习技术去做智能风控。传统的风控技术很多都是基于规则、基于经验或基于传统的机器学习在做。我们在思考,如何在不牺牲打搅率的情况下(不经常去打扰用户),用一些深度学习的方法去提高风控场景的精度和准确率。



智能风控主要应用的是业界讲得较多的图神经网络(Graph Neural Network)和传统的 GE(Graph Embedding)。应用这类图学习的好处是这些数据在工业界和学术圈都是天然存在的,大家只要利用某个机构的一些服务,然后与服务建立链接,就可以在这个服务里合理地去构建出一个巨大的图。有了这个图以后,大家自然而然地就会去思考有没有办法在图上面去进行机器学习,一个前沿的方向就是深度图学习。我们自己也是在这样的图数据上面去搭建相应的框架。因为所有 AI 算法都要跟这个工程去做结合。我们搭了这样的一个框架,框架本身做的事情相对来说是比较灵活的,它提供丰富算子,让算法工程师能够很好地基于这个框架搭出各式各样的算法。这样的图学习技术可以应用到金融相关的一些风控场景中,比如有效打击骗保等,同时这样的技术也可以很好地去增加授信。



图表征学习也跟前面提到的 AI 方法没有太大区别。所有的 AI 的方法,最后都是希望能够用一个向量去表征,把向量送到一个模型里面去进行学习,传统 CNN 和 RNN 其实更多地是处理图像和文本,至少目前可能无法更好处理这种复杂的异构图。因此我们希望能够构建这样一个图数据,其中的节点和边的本身都可以用向量去表征。也就是通过这样的深度网络结构,通过相应的函数去做相应的运算。最后得到的结果是:每个节点上可能会有一个 Embedding,或者每个边上会有 Embedding,或者预测这些边是不是存在,通过这样的方式生成一些 Embedding。




训练架构,这里存在的一个难度较大的问题是如何去做一个图存储。业界有很多人在做这种相关工作,哪怕最简单的怎样合理地把一个图切分成多片存在多个机器上,这个问题有很多人在研究。图切割这个问题本身也并不简单。



具体来说,我们的算法库既支持这种无属性的网络,就是节点和边上它是没有属性的。慢慢地我们也可以支持有属性和异质网络。再往后,我们还支持了知识图谱。所以我们的算法库涵盖了从无属性网络到知识图谱这样比较丰富的算法库,从而提供给业务同学,让他们去合理地使用这里面的算法。



我们自己本身也希望能够提供一个比较好的可解释性,在这里面用的比较多的就是业界广为流行的 Attention 机制。除了有 Attention 之外,我们还希望能够对宽度和广度做到自适应,并且它能够对图上面这些 Path 选出来一些比较重要的路径。这么做的好处就是,当我们把这个呈现给业务线同学时,他们就能合理地分析出我们的用户和商家所做出的行为背后的原因,为他们后续的工作提供灵感,这样做也能比较好地实现人机协同。我们认为,人机协同在整个 AI+金融里面,都是非常重要的环节。让人与机器完全脱离还是比较困难的,如今的一些算法能为他们提供灵感,帮助他们更好地完成交互,这对算法本身也是一种促进,算法能结合场景得到一个很好的提升。



前几年,支付宝做了很多线下支付的营销。我们不能给所有的商家都发同样的奖励,这是不合理的。我们希望给那些参与度更高的商家发放更多奖励金。所以这里会用这样的一个图去找出哪些人是更活跃商家,哪些人对金额本身更敏感一些,以此来节约营销成本。用这种方式,公司能够用同样一笔钱,让这个活动多持续半年或者一年的时间,这是它的一个很重要的现实意义。它的另一个意义在于,我们今天去做企业授信会有很大的困难,由于数据的缺失,我们没有办法判定这个企业是不是有相应的一些上下游。我们自己做过一个数据观测,如果一个企业有相应的上下游,那么这个企业的还款能力和还款意愿也会更强一些。所以我们就在思考能否利用图的一些算法更好地去推断这种上下游关系,去预测这些企业之间是不是存在一定的上下游。如果把企业换成个人,对个人的识别更精准些,能做的事情也会更多些。



同时,除了以上落地场景以外,我们还落地了更多场景。比如蚂蚁金服每年都会进行的五福红包,后面会有一张刮刮卡,其实我们的目标是提升核销率,以及为线下商户去做一些拉新。还有当下比较火的刷脸支付,除了生物特征上识别“你是你”之外,有没有办法在生物特征之外的地方也用图方法去做更好的辅助进行验证。在应对欺诈方面也做出相应的动作,比如如果一个节点是黑的,那很大概率它的周边以及周边的周边也是黑的,比如说怎么去识别欺诈中介组织等等。利用这样的图方法可以使资产损失率也能有效下降。

智能营销


智能营销除了前面讲的机器学习的应用之外,这里主要想讲的是图像和自然语言处理结合的方式。


智能营销无非就是创意、渠道和人群三者之间的笛卡尔积。那么如何把这件事做好?人群其实是固定的,所以要考虑如何在 AI 和创意间做些结合。我们想到的就是把文案和图像之间做个联动。过去很多营销文案都是由营销专家自己去写的,我们希望之后对图像有些理解之后,能够和文案本身去产生一些联动。原因是因为我们自己有着大量的金融语料,其次,我们也累计了很多泛行业营销的模本。同时经过多年的积累,我们自己也有一些广告术语,通过一个强化学习这种方式,以及后面可能会讲到的用类似这种 Bert 这样的模型去生成智能创意。以下是两个案例:



通过这种方式,最终为运营人员提供适当的文案,让它能够更好地生成创意文案,帮助他们去做营销。

智能保险


我要讲的第三部分是智能保险。智能保险用在理赔上时,怎么让理赔的效率更精准、更快。我们自己推出了理赔宝这样一种相互保障的产品。我们在寻找有没有一种方法将 AI 和人结合起来,去提升理赔的效率。我们在想能不能用图像的 OCR 识别去抽取出来其中的一些相应信息。这种信息多数涉及病情,如果在背后做一个知识图谱,在图上去做查询,或许能够比较好的去帮助理赔人员提升效率。



技术本身就是想要达到一个更好的理赔效率。在此过程中积累的大量数据对于 AI 模型本身的进化也是很大的一个助力。同时在图谱平台沉淀下来一些经验以后,在相互保理赔时就不用人工做出判定,系统就可以自动判定理赔是否合理,这样保险业务本身也能发展更快。

智能客服


第四部分是智能客服。前面做了很多都是想让 AI+金融服务能够有个更好的体验。这也是业界很多公司在做智能客服和智能助理相关工作的原因。


我们从 2015 年开始做智能客服,中间用了很多 AI 技术,目的是想提高自助服务占比。希望能够通过 AI 的方式,更直接、更快速地去回答问题,而对于某一些比较难的问题,我们还是会有一部分人工去做服务。



今年,我们也把这种服务对外赋能,主要是通过钉钉这种方式,让其他企业能够具备智能客服的能力。里面用的技术很多都是自然语言处理相关的一些技术。

智能金融



最后,讲一下智能金融。这里讲的是中国农村最大的一个普惠金融机构之一,叫做中和农信。在中国农村很多地区,很多人享受不到金融服务,我们自己也做过统计,如今全世界的成年人里面还有 50%享受不到金融服务,这个数字放到中国的农村比例会更大。我们想跟这样一个金融机构一起,把它原来传统的信贷模式做一个升级。它原来传统的信贷是通过线下人工走访的方式放贷。所谓人工走访,就是有一批信贷员去问借贷人一些问题,基于他们自己的行业经验和理解,去判定这个人应该授信多少,他的风险利率是多少。这个模式的好处是经常在人群中走动能积累更多经验,这种经验会在其中起到一定作用。但同时它有一个劣势,首先是它无法大规模扩展,如果想在中国乡村去广泛推广这种服务,除非招更多的人,否则是做不到的。但人多了以后,也会带来效率、风险上的一些问题。


我们是想把这个模式变成线上完全自动化的模式,做法就是把我们的信息和对方信息,通过一种叫做共享智能,或者隐私保护共享学习的方法,结合到一起。在保护了数据隐私的情况下,能够做到数据可用不可见,用这样的方式共同构建一个 AI 模型,再把这个模型的结果给到中和农信,部署到线上,让中和农信可以基于这种线上方式去对农村信贷进行升级。通过这种方式,能够很好地把这个模式推广到全国更多的机构中,同时它本身也具有很强的示范意义,因为中国农村的很多地方确实需要一些普惠金融服务,可是却享受不到,通过这种服务他们能更好、更合理去享受到这种金融服务。

总结

总体来说,AI 和金融是相辅相成的。就像我们之前讲的很多案例,AI 可以通过 Graph Neural Network 或其他深度学习方式提高风控能力。比如在公司的授信金额提升,营销资金的节省上面,还有打击黑灰产的程度上面都比较有效。它能比较好地与金融场景结合,在效率和体验上,能够给用户提供一个更快、更精准的一个服务。


金融为 AI 提供的场景比较多,不像传统的电商就几个主场景,但是这个里面其实每个场景都不一样。再举个例子,在支付里欺诈你的人,在信贷里不一定会再去欺诈。这样就牵涉到一个问题,就是 Label 的定义也不一样,数据的定义也不一样,看起来很大的一个数据量的情况下,切分到一些小的场景里面,数据量并不是那么完美,甚至在很多的地方,我们还没有 Label,比如说我们现在正在做的用 AI 的方法去打击欺诈,实际上我们是没有这方面 Label 的,因为欺诈的数据很多不在我们体系范围之内,是需要全社会全行业共同去打击的。


那么如何解决这个问题对 AI 本身来说也是一大考验,但同时也会带来机遇。比如说前面讲的网络,如果把网络考虑成动态的话,它会更复杂一些。怎么用动态的网络去构建一个模型?这本身也是一件难度非常大的一个事情。因为规模和数据量一旦很大以后,哪怕做一个简单的查询,本身难度都非常大。


如果样本量、特征量翻个十倍一百倍,哪怕一个最简单的线性回归、逻辑回归,也是一件难度非常大的事情。这背后又会牵扯到另外一个问题,今天可能有方式方法去应对这个大规模问题,然后申请了一堆机器放在那,那堆机器也是有成本的,怎么让那些机器的成本降得更低,让那些机器的使用率上升上来,它绝对不是一个单点的问题,不是单点的算法问题,也不是单点的业务问题,而是一个系统性的问题。


还有对抗性问题。其实今天大家所用的每一笔支付、每一笔业务,都是人和系统背后的对抗。可能今天服务量越来越大了,那这个系统能不能撑住,今天是否有些人想在里面薅羊毛,有些人是否能在里面享受正常的服务,都是人和系统的对抗。还有个需要考虑的问题是人机协作。


从我们的观点来看,至少在短时间内,在金融场景里面很难把人给剔除掉。我们现在所做的很多事情都是想让人和机器在当前情况下能更好地结合,让 AI 的方法能够提供一些灵感、一些观点、一些解释性,能够帮助运营人员,策略人员从业务的角度提炼出更好的模式给到用户,同时把这个正反馈建立好之后,也有助于 AI 能够更好地落地。


当然,如何解决 AI 应用在金融领域中面临的公平性、隐私性也是当前一大挑战。正是有了这些机遇和挑战,国内这几年才有越来越多从业者愿意来了解金融智能领域,愿意一起去攻克面临的问题。金融行业至少在整个世界行业来看,这个数字化程度是最高的,如今我国的智能金融领域还是走在世界前沿的,没有样本可以去模仿,那么企业要怎么去做金融+AI 创新,就存在着巨大的挑战和机遇。


嘉宾介绍:


周俊,蚂蚁金服集团人工智能部总监,目前负责蚂蚁机器学习中台的研发。先后参与过 XLib(阿里通用机器学习库)、飞天(阿里分布式操作系统)、ODPS(阿里数据处理平台)、大规模机器学习平台(Parameter Server)以及 PAI(阿里机器学习平台)等几大分布式系统与算法平台的开发。在 VLDB、WWW、SIGIR、AAAI、IJCAI、KDD 等顶级人工智能相关会议上发表论文数十篇,提交人工智能专利和专利申请 100 余项,获浙江省科技进步一等奖 1 项。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-02-10 10:513463

评论

发布
暂无评论
发现更多内容

精灵图在现代前端中到底有用没,css中显示和隐藏竟有两种不同方式

你好bk

CSS JavaScript html css3 大前端

技术分析| 音视频服务集群如何实现全球多中心化调度

anyRTC开发者

区块链 音视频 WebRTC 中心化调度

如何才能成为一名合格的架构师?

秋天

架构师

CANN 5.0硬核技术抢先看

华为云开发者联盟

架构 AI 计算 CANN 异构计算架构

第 3 章 -《Linux 一学就会》- 文件的基本管理和XFS 文件系统备份恢复

学神来啦

Linux 运维 文件存储 linux云计算

爱奇艺 TensorFlow Serving 内存泄漏优化实践

爱奇艺技术产品团队

内存

他说:“只是单纯的想用Python收集一些素颜照,做机器学习使用”,“我信你个鬼!”

梦想橡皮擦

9月日更

告别Kafka Stream,让轻量级流处理更加简单

阿里巴巴云原生

kafka 阿里云 云原生 ETL

用明道云搭建一个住宅式物业管理系统

明道云

架构师知识笔记3

felix徐

恒源云(GpuShare)_手把手教你如何终端登陆实例

恒源云

架构实战课程 模块四作业

Frank

WeTest云手机升级,支持iOS 15全新系统

WeTest

EMQ 映云科技加入信通院可信开源社区共同体,加速共建开源生态

EMQ映云科技

云计算 开源 物联网 开源社区 信通院

VEGA:诺亚AutoML高性能开源算法集简介

华为云开发者联盟

机器学习 AutoML 网络结构 VEGA AutoML算法

谁说GitHub才能出经典?来自牛客网的Java程序员逆袭手册才是YYDS

Java 程序员 面试 计算机 牛客网

23. 大部分工作将发生转变而非消失

数据与智能

人工智能

模块八作业 一 消息队列存储模型设计

babos

#架构实战营

OpenKruise v0.10.0 新特性 WorkloadSpread 解读

阿里巴巴云原生

阿里云 容器 云原生 OpenKruise Workload

深入 iOS 静态链接器(一)— ld64

字节跳动终端技术

ios 移动终端 火山引擎 静态链接器

全球最大规模对话生成模型问世!百度发布PLATO-XL,让机器像人一样思考和对话

科技热闻

车联万物,有Z-ONE SOA+AIoT!

SOA开发者平台

AIOT SOA 软件定义汽车 OTA

网络协议之:WebSocket的消息格式

程序那些事

网络协议 HTTP websocket 程序那些事

『 JS算法-力扣557题』反转字符串中的单词 III

德育处主任

JavaScript 算法 大前端 js js算法

如何用 Java 判断一个给定的数是不是素数

HoneyMoose

Linux创建/删除用户组

在即

9月日更

Java 中的 NaN

HoneyMoose

把低代码开发平台推给开百货店的朋友,对他有帮助吗?

低代码小观

低代码 企业 企业管理 管理者 管理工具

干货打包!最新实时同步5大应用场景,4种实现方案分享(有彩蛋)

tapdata

车联万物,有 Z-ONE SOA+AIoT!

SOA开发者

软件定义汽车

架构师知识笔记 4

felix徐

一文看懂支付宝金融智能背后的AI技术_文化 & 方法_周俊_InfoQ精选文章