写点什么

蚂蚁金服有哪些金融特色的机器学习技术?

  • 2019-11-08
  • 本文字数:3448 字

    阅读完需:约 11 分钟

蚂蚁金服有哪些金融特色的机器学习技术?

面向海量图数据的深度学习系统

金融场景和互联网其它场景不一样的地方是,其数据是一个巨大的金融网络。在这个网络中资金在不同的个体之间流动。资金流动过程中涉及到各种各样类型的节点,有用户、商家、公司等角色节点,也有账号等虚拟节点,还有 WIFI 设施、终端等设备节点,以及地点等物理节点。同时,这些节点之间的关系和信息交互的类型也可以不同,从而形成巨大的图。如何对这个图进行机器学习建模,发现其中的有效信息,是非常复杂的过程。



懂机器学习的同学知道,机器学习要对图数据建模,首先需要把数据进行向量表征,例如类似逻辑回归、决策树等模型都需要先对数据进行向量表征。但图数据的输入并不是向量表征,它是异构且不规则的,每个节点的邻居个数不一样,连接的关系也不一样,这需要一个平台实现图数据到向量表征的转换过程,然后再基于向量表征实现各种各样的机器学习模型。下图展示了一种通用的图向量表征框架。



图数据进行表征学习之后,就可以做各种各样的应用,例如推荐和决策应用,也可以做一些生成模型。现在有一个在学界比较火的深度学习模型叫做卷积神经网络,其学习过程就是对每个节点和边用神经网络参数化传播的方式来实现深度神经网络的建模。


蚂蚁金服的图数据非常复杂庞大,可以涉及到上百亿的节点,上千亿的边。怎样把大体量的数据用起来,进行机器学习建模,需要很好的系统架构和平台建设支撑。其中包括,怎样存储这些图数据,从而能够支持快速查询,快速推理;以及在逻辑层怎样组织这些数据,是社交关系网络、资金转移网络还是媒介网络。有了这些数据的逻辑组织和图数据的存储以后,还要做通用的算子,包括对图进行采样、随机游走和消息传播。然后,基于这些算子的构件,我们就可以实现各种各样的图深度学习模型,其中既包括基于非监督学习的表征学习模型,也有基于监督学习的表征学习模型。进行表征学习以后,就可以通过机器学习对各种节点、边的类型进行预测,或者时序行为的预测,以及多重目标的预测。基于这些预测模型,我们可以通过离线学习打分或在线学习打分的方式来支持各种上层金融业务。



针对蚂蚁业务海量的数据,除了前面讲的平台的架构设计的思考,还有一些技术上的难点需要解决。我们可能面临百亿级节点、千亿级边,需要考虑怎么样在图上快速的查询节点,并把节点周围的子图抽取出来,这里会用到我们的图存储系统 GraphFlat 和 PHStore。有了这个以后,需要设计机器学习的算法,譬如随机采样的算法,然后把图数据变成一个稀疏的或者是稠密的矩阵运算,在 GPU 和 CPU 上进行分布式计算。



除此之外,为了支持各种各样的金融场景应用,还需要支持对不同结构的网络建模。通常金融场景涉及到的网络可能是没有属性的同构网络;也可能是在风控场景经常涉及的异构网络,例如用户和商家之间的资金转移关系;也有可能是带有属性的网络。我们需要用不同的算法模型来处理不同结构类型的网络关系,同时无论哪种类型网络,都可以用一套平台进行建模。目前,我们已经建设了面向多类型图数据的算法库。包括:


  • 面向无属性网络的 xGrep,可以针对十亿级节点,千亿级边,数千亿样本进行训练,并研发了分布式随机游走框架和分布式 word2vec 训练框架;

  • 面向属性网络的 GeniePath,这是自适应深度/广度的图神经网络,性能业内领先;

  • 面向异质网络的 HeGNN&IGNN,其层次注意力机制提供金融级可解释性,可以自动学习异质信息丰富的语义;

  • 面向知识图谱的 KGNN,可对知识图谱进行表达学习,包括图神经网络+图谱模型。



在金融场景很多时候需要具备可解释性,因而需要我们对训练出来的深度模型进行解释,找出具体是网络上的哪一条边或者哪一个节点影响了整个风控系统的决策。为此,我们定义了各种各样的模型,包括 GeniePath 可以在深度学习网络中自动搜寻节点的邻居,看哪个邻居对当前的信息节点的风控有影响;或者是基于 HeGNN、IGNN 考虑不同网络层次的影响,甚至是比较粗糙的高层次的网络影响,以及网络的不同维度的影响。


综上所述,一个可用性高的深度图学习平台需要对架构做逻辑的划分,同时中间的每个划分模块都会有很多技术点,包括系统工程的技术、高性能计算的技术,以及模型算法方面的技术。



上图是两个具体的落地实例。首先,我们把图深度学习应用到营销场景,通过用户和商家的历史购买行为来预测用户对红包金额的敏感程度,从而对商家红包实现个性化定价,帮助商家更好地分配红包金额,提升营销资金利用效率,这个方法把营销的成本降低了 8%。我们还把深度图学习和知识图谱结合起来应用在企业信贷,提高了授信额度,新增授信额度数百亿。此外,深度图学习平台还在支付、贷款、保险,财富管理等其他场景中均有各种各样的应用。


在互联网金融中,图神经网络是非常有用的新技术,也是蚂蚁金服大力发展的技术方向之一。

自动机器学习系统

除此之外,蚂蚁金服内部有各种各样的机器学习算法应用场景,每天都有成千上万的模型在训练中,但是算法人员投入在模型训练上的时间和精力是有限的,由于产品纷繁复杂,算法人员既要选择深度学习的网络结构又要选择算法的其他超参,这个过程可能还要加入业务知识;随着数据体量的增加,还需要在比较短的时间调好模型,对模型训练的时间要求也越来越高,而传统的单纯依靠人工调参很难满足我们对于模型更新迭代的效率要求。


为了解决这个问题,我们建立了自动化建模工具 AutoML 计算平台,能够支持让平台和算法人员一起协作,从而加速机器学习模型的建模和寻优过程。为此,我们在底层基础设施之上实现了很多的算法来实现特征自动化、超参搜索、网络结构搜索以及元学习,从而降低新模型开发的成本。



介绍一个具体的落地案例,叫做 autonet,这是针对公司推荐场景大量使用的深度神经网络算法,基本思想是我们通过将一些以前成功的小的深度神经网络子模块自动化拼装起来,组合构成一个新的网络结构并寻找更高效的模型:一方面将 DNN 的网络结构自动化的构建起来,另外一方面也对最终的建模效果进行提升。产出的模型在相同资源下,和对比的人工设计的模型基本耗时相当,同时在用户拉新的场景取得了很好的效果,动销率提升了 14%。



此外,AotuML 还有各种各样的落地场景,后面都应用了自动机器学习平台的网络结构搜索、超参搜索、元学习,以及一些端到端的解决方案能力。各种业务场景的机器学习模型,都可以通过这个平台进行优化,提升效率。甚至跨 BU 的一些业务场景也基于迁移学习来加速机器学习建模的过程。

多智体对抗强化学习系统

上面两点介绍的是我们的横向技术如何从底层支持各种场景的机器学习模型。接下来介绍的是多智能体强化学习系统在蚂蚁的应用和落地。在实际金融场景中,我们涉及到的节点不是静态的,例如人和商家的节点在交互过程有博弈、合作、对抗,因此我们要把对抗学习跟多智能体的强化学习结合起来应用在这些场景。例如反欺诈场景和金融支付的场景,都可以用多智体强化学习的方式来建模。


但是,很多传统的强化学习的方法都是先假设一个模拟器,然后与之不断进行交互来优化强化学习的策略,例如下围棋。但在金融场景,多智能体强化学习涉及到的模拟器并不是一个静态的,可能是一个人或者是一个机构,所以不存在一个明确好用的模拟器,我们也不知道多智体在行为中,其奖励函数或者是损失函数是什么。因此,使用传统强化学习硬套金融场景是行不通的,首先要根据现有的金融数据或者是用户行为数据学习到一个 simulator 及其奖励函数,这样才能在此基础上进行强化学习。



为此,我们建立了一个多智能体的强化学习平台,中间用 imitation learning 的方法来学习用户的行为特征,以及他的奖励函数,在此基础上做各种各样的机器学习。


这是一个具体的多智体的强化学习在推荐系统上的应用。很多情况下,用户登录到一个系统里面,系统会对这个用户进行长期的检查、分析和推荐。好的推荐系统的建模方式不是把用户每次来的行为作为独立的预测问题,而是把它看成强化学习的问题,这样的话,我们可以针对用户长期的奖励、喜好进行优化,而不是短期的推荐,从而让用户长期对推荐的内容感兴趣,产生价值。



这是我们在人工智能顶会 ICML(2019)上的论文,我们把强化学习这套理论引入到对抗学习里面,用这个方法来学习用户的点击行为,以及点击行为对应的奖励函数,有了用户的行为模型和奖励模型之后,就可以进行大规模的强化学习。



强化学习在蚂蚁金服还有各种各样的应用,我们还在不断探索和开辟,也欢迎学术界和业界进行更多的交流,共同创新和推动发展。


本文转载自公众号蚂蚁金服科技(ID:Ant-Techfin)


原文链接


https://mp.weixin.qq.com/s/HwGGOaIGysuPY404pRQ4-g


2019-11-08 08:002651

评论

发布
暂无评论
发现更多内容

解锁亚马逊商品数据:API获取商品列表信息

tbapi

亚马逊API 亚马逊商品数据采集 亚马逊商品列表接口

构建数据中台,引领零售业数字化转型的最佳实践

数造万象

数据中台 零售 数字化 数据智能 实践案例

企业业务前端监控实践

京东科技开发者

高并发场景下的库存管理,理论与实战能否兼得?

京东科技开发者

从困境到突破,EasyMR 集群迁移助力大数据底座信创国产化

袋鼠云数栈

集群架构 大数据存储 大数据计算与存储 大数据计算引擎 集群迁移

最佳实践:解读GaussDB(DWS) 统计信息自动收集方案

华为云开发者联盟

大数据 GaussDB(DWS) 企业号 8 月 PK 榜 2024企业号8月pk 实时查询

官宣|Apache Flink 1.20 发布公告

Apache Flink

flink 实时计算 官宣

在国内怎么运营TikTok?试试云手机!

Ogcloud

云手机 海外云手机 tiktok云手机 云手机海外版 海外云手机推荐

ai做ppt的工具哪个好?盘点8个好用的AIPPT生成软件!

彭宏豪95

效率工具 职场 PPT 办公软件 AI生成PPT

VideoProc Converter 4K for mac(一站式视频处理软件) v6.5中文版

Mac相关知识分享

Mac软件 视频处理软件

JavaScript 字符串方法,让开发者生活更轻松

伤感汤姆布利柏

安全性和合规性:保障企业数据的安全

可观测技术

数据安全 数据合规

2024 年 7 月区块链游戏研报:市场波动与数据分化的挑战与机遇

Footprint Analytics

链游

打卡智能中国(八):“水花消失术”的AI秘籍

脑极体

AI

观测云:零售业数据监控与分析的革新者

可观测技术

监控 零售

Prometheus Exporter 在观测云中的应用与优势

可观测技术

#Prometheus

一文全面了解HPC高性能计算平台是什么、怎么选型?高性能计算平台CHPC 都能做什么?

XxinQi

腾讯云 ES 之日志分析新范式:10 倍性价比提升!基于 ES Serverless 完成审计日志溯源

腾讯云大数据

ES

继“蓝屏”事件之后,微软再次出现全球性宕机

我再BUG界嘎嘎乱杀

黑客 网络安全 安全 DDoS 网安

润开鸿“龙芯+OpenHarmony”开发平台DAYU431先锋派新品发布

坚果

OpenHarmony 润开鸿

Grafana 与观测云:无缝集成的监控可视化体验

可观测技术

数据可视化

观测云:多云架构下的监控革新与效能提升

可观测技术

监控 多云

AnyMP4 Screen Recorder for Mac v2.2.16激活版 视频捕获与录制工具

iMac小白

腾讯云大数据 TBDS 参编信通院《数据库发展研究报告》,引领数据湖仓创新

腾讯云大数据

TBDS

给我5分钟,保证教会你在vue3中动态加载远程组件

EquatorCoco

Vue 动态加载

免费一站式搭建企业云上数据库与BI 数据可视化分析平台

XxinQi

言犀智能体平台上线了!赶紧来试试!连接大模型与企业应用的“最后一公里”

京东科技开发者

最新进展!Intel 18A产品,成功点亮!

E科讯

NFTScan 正式上线 Gravity NFTScan 浏览器和 NFT API 数据服务

NFT Research

NFT NFTScan

将数据库系统实践转向 AI:使用生成式 AI 创建高效的开发和维护实践

哦豁完蛋了

AI Codec

云手机:海外社媒运营必备工具

Ogcloud

云手机 海外云手机 云手机海外版 云手机群控 海外社媒运营

蚂蚁金服有哪些金融特色的机器学习技术?_AI&大模型_宋乐_InfoQ精选文章