【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

从 310 到蚂蚁森林,蚂蚁金服在线图计算的创新与实践

  • 2019-11-04
  • 本文字数:4404 字

    阅读完需:约 14 分钟

从310到蚂蚁森林,蚂蚁金服在线图计算的创新与实践

今年 4 月,蚂蚁金服董事长兼 CEO 井贤栋在参与第二届一带一路国际合作高峰论坛时表示,通过九年的实践,蚂蚁金服改善了中小企业的融资渠道并形成了 310 模式,即 3 分钟在线申请、1 秒钟审核放款、0 人工干预。与此相对的是,仅仅在两年前,有相关人士表示,他们出台的 310 模式却是 3 周申请,1 月审核,0 几率获贷。


那么,蚂蚁金服是如何通过不断探索应用金融新技术,为中小企业提供融资便利,其中的 1 秒钟审核放款,又是如何做到的呢?在这里,我们来谈谈其中非常关键的一项核心技术,在线图计算技术。


在线图计算就是将流式计算与图计算结合起来,能做到进行实时的图计算的技术。蚂蚁金服在这个方向上经过多年研发,在关键技术上做出了突破性的创建,并形成了面向金融场景的解决方案。

蚂蚁在线图计算的应用场景

蚂蚁研发在线图计算技术,是因为金融场景需要这样的技术来解决问题。


比如,在金融风控中的实时反套现场景。套现,指的是采用违法或者虚假的手段交换而获取现金利益的行为,一般多用于信用卡和公积金等场景。



花呗是一个消费信贷类产品,用户可以基于花呗的额度消费,并定期还款。花呗反套现是花呗整体风控中非常关键的一个环节,如何实时的、准确的识别套现行为则是花呗反套现的关键。


如图所示,套现的买家通过花呗进行一笔交易的支付,并通过一系列复杂的资金流动,最终通过转账回款进行资金的套现。


通过数据建模,将整体的资金流动抽象成资金关系网络,基于资金关系网络之上进行子图的识别和分析,从而有效的识别套现行为。


通过实时反套现的例子,我们可以得到在线图计算的三个基本需求:


  • 首先,构建金融级的资金网络。基于在线的用户资金行为,实时构建高可靠的金融级资金网络;

  • 其次,基于实时子图的分析决策。基于实时构建的高可靠的金融级资金网络之上,可以基于子图进行实时的分析和计算,并最终提供在线的决策;

  • 最后,是动态的子图网络构建。在子图的分析过程中,需要根据用户的资金网络行为,动态的进行子图的构建和扩展。


再说说大家比较熟悉的蚂蚁森林场景。



蚂蚁森林中有多种形式的好友互动,如支付宝好友之间可以互相收取能量,以及好友、亲人之间可以一起合种一棵树。


在蚂蚁森林中有人与人的关系,以及人与树的关系等。它不仅需要支持实时的关系数据构建,还需要支持高性能低延迟的关系数据查询和一致性的关系数据修改等需求。


通过蚂蚁森林的例子,我们也可以得到在线图计算其他三个需求。


  • 首先,需要支持百万级的并发支持。蚂蚁森林当前有 5 亿+的用户,需要支持百万级的 QPS 的需求并且满足毫秒级的响应支持;

  • 其次,是万亿级关系数据存储的需求。由于蚂蚁森林的数据规模庞大,包括用户关系、种树关系、合种关系等,关系非常多和复杂,因此需要提供万亿级的图存储能力。

  • 最后,是一致性的需求。比如在好友之间进行绿色能力的偷取过程中,由于并发量非常大,需要保证实时更新过程中的强一致性的需求。


通过前面实时反套现和蚂蚁森林的例子,我们对金融级的在线图计算的需求做一下简单的总结。


我们将需求分成两部分,第一部分是功能需求


  • 首先,需要提供海量的图数据存储的能力;

  • 其次,在海量的图数据存储之上提供低延迟 I/O 访问能力;

  • 最后,通过低延迟的 I/O 获取子图关系之后进行流计算和图计算等多种模态的融合计算。


第二部分是稳定性需求,由于金融场景的特性,所以稳定性显得尤为重要。这里主要列举两点:


  • 首先,需要支持金融级的容灾和高可靠性,如三地五中心的故障恢复等。

  • 其次,还需要支持低成本和弹性的扩缩容。

蚂蚁在线图计算整体架构

在介绍完蚂蚁金服在线图计算相关的场景和需求之后,我们来一起了解下蚂蚁金服在线图计算的核心关键技术及过程中的思考。


首先,我们来一起看下蚂蚁在线图计算的整体架构图。



在最上层,蚂蚁在线图计算提供一套统一的图开发平台。基于统一的图开发平台,用户可以基于关系元数据和统一的 DSL 进行作业的开发。目前统一的 DSL 主要通过 SQL 和 Gremlin 融合的方式进行编程开发。同时基于用户的 DSL,会实时的构建分布式的 DAG 进行运行。


构建完成后,分布式的任务会实时的对线上的日志数据和事件数据进行实时的处理。这里主要包含两条链路,一条链路会基于实时处理完成的日志数据和事件行为会写入到高性能的图数据库,并基于数据实时的构建高性能的图缓存,提供快速高效的子图抽取。


另外一条链路则会基于实时处理的数据,来动态的决策是否需要一个图的 Traversal 和计算,并在计算的过程中,从高性能缓存快速的抽取子图进行计算,最后将计算的结果输出提供在线使用。


通过前面的架构图,可以看到,蚂蚁的金融级在线图计算主要有三个技术方向:


  • 首先,是流图融合的计算能力。需要在一套系统中,支持融合的计算能力,能够通过流计算和图计算的融合来实现在线图计算的全链路;

  • 其次,是高压缩比图缓存。通过高压缩来实现图数据可以完整的存在在内存中,从而实现快速、高效的子图抽取;

  • 最后,是金融级的海量图数据库。通过金融级的海量图数据库来实现海量的关系数据存储和金融场景下的高可靠。


下面,我们来分布分布介绍一下这三个方向的核心技术点。

在线图计算之流图融合计算

第一个关键技术是:流图融合计算。


以花呗反套现的场景为例,并不是每一笔交易或回款行为都需要进行套现行为的识别,需要先进行一定的规则的处理。比如,基于实时的统计交易的笔数或者回款的金额,在满足一定的条件后才开始进行子图的迭代计算。最后,基于图的迭代计算的结果,在进行数据链路的处理后再提供给在线使用。因此,一个场景在完整的计算链路中,需要流计算和图计算两种模态的融合计算。


在传统的计算方式中,则会通过流计算和图计算进行组合的方式来实现全链路,比如通过 Flink、GraphX、Neo4j 等多个系统进行串联。 但是通过传统的方案,用户需要学习多套系统,并且需要维护多套系统进行衔接。而且由于多套系统衔接,因此会产生额外的数据存储和延迟。因此,在蚂蚁金服,我们打破计算模态的边界,将流计算和图计算进行融合,提供流图融合的计算系统。用户可以通过一套 API、一套计算系统来实现完成流图融合的链路,由于是一套系统,同时能减少用户的运维成本。



动态 DAG


同样以花呗反套现场景为例,在实现了流图融合的计算能力之后,由于是否进行图计算,以及采用什么样的图计算算法都是由数据进行动态决策,无法预先设定。因此,传统的静态 DAG 无法满足当前的需求,这里,我们通过将数据流和控制流相结合,并提供动态 DAG 的能力,从而实现按需计算,弹性的扩缩容。


在提供了融合计算和动态计算的能力之后,如何让用户进行快速便捷的开发显得尤为重要。


这里我们通过 SQL Plus(Gremlin)的方式进行融合计算的开发,用户可以通过 SQL 来构建整体的 Pipeline 的流程,同时,引入 GraphView 的概念,基于 SQL 可以离线和实时的构建 Graph View。基于 GraphView 之上,可以通过 SQL+Gremlin 实现基于数据驱动的在线图计算能力。



同时,由于 SQL 大部分开发者都比较熟悉,可以减低用户的学习、开发、调试的门槛,易学易用。目前蚂蚁金服也在关注最新的图查询语言国际标准 GQL,未来也会融入于此。


基于以上三个特性,用户可以快速的构建流图的一体化作业。


接着,用户在上线一个算法策略的同时,则需要对策略进行验证,这里用户需要针对流式的数据进行有效的仿真,来判定当前的算法是否有效。


基于当前的在线图计算架构,我们可以通过模型的有效抽象,将历史的图数据和请求进行有效的回放来实现仿真和在线的一体化架构能力。


与此同时,由于仿真的特性,会对历史版本的数据快照进行访问,从而会引起图数据存储的加速膨胀。 由于这里采用流式回放的方式进行仿真,我们可以通过基于驱动的数据 GC 策略,从而避免数据的过量膨胀。 同时,基于多级缓存的策略,从而实现提升图仿真的吞吐能力。


以上就是融合计算方向的四个关键技术,通过以上的四个特性,用户可以高效、方便的进行任务的构建和计算。


接下来,会讨论如何快速的进行子图构建。

在线图计算之高性能图缓存

这里重点介绍一下蚂蚁的高性能图缓存,基于完美 Hash 函数和专业的压缩能力,将数据缓存在内存中进行在线服务,从而实现子图场景下的低延迟和高吞吐。



针对高性能的图缓存,内存的占用显得尤为重要。这里重点看下蚂蚁图缓存和业界系统的压缩比对比图。这里采用的是基于 Twitter 的 User-Follow 的开放数据集。


可以看到,由于图的关联特性,所以业界开源的系统在原始图的基础上,都有一定程度的放大,而业界做得比较好的 TigerGraph 做到了相对于原始大小的 40% 左右的内存使用。而蚂蚁的图缓存可以实现 20% 的原始内存大小。比目前业界最佳,还要节省一半的内存使用。



通过高压缩比,我们将图数据完整的存放在内存中,下面我们可以对比一下子图抽取的 RT 性能。


同样是基于 Twitter 的 UserFollow 的数据,可以看到在 1 度、2 度、3 度的场景下,特别是 1 度的场景,整体的时间延迟仅是 Tiger Graph 的 20% 左右。


通过高性能图缓存,针对子图的高性能查询,才能实现在线的实时链路计算。

在线图计算之金融级图数据库 GeaBase

下面我们来看下,如何实现金融场景下的高可靠和一致性的能力需求,这里重点介绍下蚂蚁的金融级图数据库 GeaBase。


GeaBase 内部通过实现 Mirco Shards 的方式来实现数据分片。并基于 Mirco Shard 的数据分片实现 Cost-Base 的数据迁移和自动的负载均衡。同时,借助于蚂蚁的基础架构体系,实现了三地五中心的城市级容灾策略。




通过对比,我们可以看到,在单机、单副本和机房级故障时,GeaBase 的灾备能力均优于 HBase。与此同时,在城市级容灾的场景下,GeaBase 可以实现数据的恢复和不丢失。



与此同时,GeaBase 还实现了一致性的能力,来满足金融场景的数据强一致性的需求。GeaBase 通过实现 Raft 协议来实现数据的一致性。并且可以让业务根据自身业务需求自由选择,是最终一致性还是强一致性。


蚂蚁的在线图计算目前广泛应用于蚂蚁的多条业务线,支持了风控、社交和营销等 100 多个业务场景。当前在蚂蚁内部有 2000 多台机器的集群规模 7*24 小时运行。


与此同时,蚂蚁逐渐把这些能力输出给外部金融级客户,如常熟农商银行和泰隆银行。比如在常熟农商银行,蚂蚁金服与行方联合共研了蚁燕知识图谱项目,基于蚂蚁研发的在线图计算技术,在大数据量环境下,通过海量关联分析,提前进行担保关系预判,实现担保圈风险的秒级预判和风险提醒,有效管控风险的同时,切实提高了信贷审批效率。蚂蚁金服不仅自己实现了 310,还通过合作输出给客户,为实现普惠金融而努力。


未来,蚂蚁金服会继续打磨在线图计算的技术能力,并向更多的合作伙伴开放,一起将在线图计算推广到更多的场景中去。


本文转载自公众号蚂蚁金服科技(ID:Ant-Techfin)


原文链接


https://mp.weixin.qq.com/s?__biz=MzI0Nzc3MTQyMw==&mid=2247489798&idx=1&sn=cece440a173a90ab3440997f7a0ea716&chksm=e9aba176dedc286026f0f31673138427a2004bead33115fded7f708a7f20aca86a047866a9ce&scene=27#wechat_redirect


2019-11-04 08:001614

评论

发布
暂无评论
发现更多内容

LeetCode 每日一题「接雨水」

陈皮的JavaLib

Java LeetCode 动态规划

小团队真的适合引入SpringCloud微服务吗?

xcbeyond

微服务 6月日更

「SQL数据分析系列」3. 查询入门

数据与智能

MySQL select

【Vue2.x 源码学习】第十四篇 - 生成 ast 语法树 - 模板解析

Brave

源码 vue2 6月日更

标杆管理:让自己快速成长的实用工具

石云升

创业 职场经验 6月日更

算法之异位词字符处理

Skysper

算法

极光开发者周刊【No.0611】

极光JIGUANG

【LeetCode】猜数字大小Java题解

Albert

算法 LeetCode 6月日更

Java中生成随机数的4种方式!

王磊

Java 随机数

视频号真人首播 - 踩坑经验总结

悟空聊架构

复盘 直播 视频号 6月日更

【21-7】Grafana如何配置Thanos 查询历史数据

耳东@Erdong

Grafana Prometheus Thanos query 6月日更

让前端小姐姐愉快地开发表单

蛋先生DX

vue.js 表单 动态表单 6月日更

Pandas高级教程之:Dataframe的重排和旋转

程序那些事

Python 数据分析 pandas 程序那些事

前端 CSS 变量简介及基本使用方法

编程三昧

CSS css3 大前端 样式

算法训练营 - 知识总结

心在飞

你有一份Rx编程秘籍请签收

vivo互联网技术

响应式编程 大前端 函数编程 RXJS

MySQL基础之十二:增删改

打工人!

myslq 6月日更

实现一个执行Explain 命令的Mybatis 插件

water

架构实战训练营 - 模块五课后作业

Johnny

架构实战营

浏览器上有趣的Console命令都了解吗?

空城机

大前端 浏览器 6月日更

假如我是创业公司CEO之电商小程序微服务拆分

ifc177

Pandas高级教程之:Dataframe的合并

程序那些事

Python 数据分析 pandas 程序那些事 数据分析研究

springboot启动流程之加载入口类

梦倚栏杆

【Flutter 专题】127 图解基础 Image 小组件

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 6月日更

回归分析

Qien Z.

6月日更 回归分析

Python——列表切片

在即

6月日更

浪潮云说丨云应用容灾:四大关键能力,护航业务连续性

浪潮云

云计算

色情,科技,与女性

脑极体

算法训练营 - 学习笔记 - 第十周

心在飞

面试官嘲笑我,这你都不会?

李阿柯

php 面试 redis cluster

Java 字符串 split 踩坑记

mghio

6月日更

从310到蚂蚁森林,蚂蚁金服在线图计算的创新与实践_文化 & 方法_潘臻轩_InfoQ精选文章