写点什么

4 亿用户过后,甜橙金融如何利用大数据和 AI 蓄力发展?

  • 2018-09-25
  • 本文字数:4855 字

    阅读完需:约 16 分钟

导读:人工智能逐渐渗透进人们生活的方方面面,传统的工作领域也在被人工智能与大数据逐渐颠覆,金融就是其中的一个代表领域。在如今的金融领域,自助与自动化似乎都是常态,利用人脸识别进行身份验证,用户画像则用来对用户信用进行评级。在 AI 发展愈发强大的今天,金融领域还有哪些我们不知道的变化?这一切的背后又有什么样的技术在支撑?我们采访到了来自甜橙金融的大数据总监谢巍盛,这些问题将由他来进行一一解答。

受访嘉宾介绍:

谢巍盛,现任甜橙金融大数据总监。毕业于上海交通大学模式识别专业,研究的课题是语音识别。2010 年加入 Intel 亚太研发中心后,谢巍盛还做过一段基于 Intel 的 GEN 系列 GPU 从事图形图像处理研发工作,之后才转入的大数据部门。

此后,谢巍盛的工作就围绕着大数据开源生态展开了,专注于分布式计算,机器学习模型与优化算法等领域。期间他也负责支持多家互联网企业和科研机构落地大数据和 AI 应用, 谢巍盛告诉记者:他正是因此意识到在实际业务场景中落地大数据和 AI 应用存在的挑战性。

在加入甜橙金融后,谢巍盛将更多的精力投入到大数据和 AI 体系的建立中。

金融大数据 AI 体系是什么?

Q:能否为我们介绍下甜橙金融大数据和 AI 体系是怎样的一套体系?

谢巍盛:数据挖掘 / 建模早在 80 年代就有商业化应用,也有很多成熟的解决方案用于支撑数据应用落地。当时由于条件不成熟,各行业积累的存量数据有限,因此计算不是主要矛盾。

但随着互联网特别是移动互联网时代的到来,科技的进步和基础设施的发展,工业界已具备大规模数据采集,储备和应用的条件。

Google、Facebook 和亚马逊等公司利用数据取得的商业价值也让工业界看到数据的价值,此时科研领域也证实以大量的数据做驱动结合复杂的模型设计能取得非常好的效果。 (开源运动促成的在数据,算法模型和工具的共享也极大地推进了包括 AI 在内的大数据应用的发展)。

因此,大量互联网企业向数据驱动转型。 但此时,对海量数据进行复杂的算法运算对计算平台提出了严峻的挑战。数据应用离不开计算平台支撑,在当下以数据为驱动的 AI 应用更是如此。AI 体系无法脱离大数据体系独立运行,落地一个商业化的 AI 应用不仅仅是模型开发和训练,而往往还需要结合数据采集, 大数据分析和流计算等技术手段。

甜橙金融大数据的建设方针是利用科技支撑数据驱动业务发展。

自主可控是当前国内领先的互联网企业科技建设的主流, 甜橙金融大数据规划建设也是站在开源基础上自主研发。 甜橙大数据体系主要分为数据体系和大数据平台。

数据体系包括数仓 / 集市建设和数据治理。

数据仓库层根据不同主题域对公司业务全量数据清洗加工并输出业务集市供业务部门进行数据查询分析, 数据探索和模型开发等使用。

数据治理通过制定一套制度和流程结合技术手段规划, 监督和管理企业数据, 主要包括数据标准、数据质量、元数据管理、数据安全等方面内容。

甜橙金融大数据数仓是按需驱动着手建设, 目前已基本覆盖全业务 ; 数据治理的难点在于需要组织前端业务, 后段技术和数据人员从数据采集, 处理到服务规范化。

大数据平台是大数据体系的基石,承载着大数据各个应用。甜橙金融大数据体系以数据体系和大数据平台为核心,内含权限与认证管理、作业调度、元数据管理、队列管理、数据服务等单元为重要组成部分,支持海量数据分析、AI、流计算等大数据应用安全,高效与稳定运行。

迎战海量数据!

Q:甜橙金融大数据平台在业务增长期都遇到了哪些技术上的挑战?

谢巍盛:对于大数据部门, 公司在业务高速发展的时期带来最显著的变化是数据量骤增, 并且需要在庞大的数据上支持前端业务人员快速分析和挖掘数据价值响应市场变化。 对大数据平台提出的挑战主要集中在海量数据的处理, 安全性, 稳定性和服务的高效性。 这些挑战直接影响我们在不同应用场景下的建设规划与技术架构选型。

在数据体系建设上, 为更好支持数仓团队做数据开发, 我们将数仓从 TD 迁移至 Spark, 技术上的自主可控也为未来更灵活且复杂的数据体系建设做准备。同时, 也着手进行数据治理, 包括元数据管理、数据质量管理和数据安全建设等 ;

数据平台建设的目的在于更好支撑业务部门对数据的应用需求。在业务发展初期, 现有的数据分析人员尚可支撑各前端业务部门的需求, 但在业务高速发展时期, 为适应市场变化, 前端事业群的需求越趋复杂多变, 且公司的业务线较多, 大数据部门的分析人员应接不暇, 每天疲于奔走处理各个需求工单。 同样的情况也存在于模型开发人员的工作中,大量人员从事重复机械式工作。

因此, 需要建设数据平台赋能前端业务部门自助开展数据应用, 即俗称”平民化” 数据应用。 我们自主研发的甜橙自助 BI 平台以及甜橙数据科学平台就是为了以最低门槛让前端业务人员在取数, 分析及模型开发等应用上能够自主完成。

通用的模块做到平台化, 自动化而将个性化的需求交给各业务部门的数据开发人员, 一方面极大缩短了业务数据需求上线周期,更大的灵活度也让各业务部门可以做精做细自己的业务, 另一方面也解放了大数据部门数据人员, 转而可以专注于通用数据 (数仓 / 集市, 标签系统等) 开发, 进而也能极大提升整体的数据质量。

而在平台建设过程中也面临诸多挑战, 譬如对于一个功能如何界定通用与个性化的界限, 如何建设稳定高效的计算平台的同时对业务人员足够轻量与友好, 如何满足业务人员灵活的数据应用同时保证数据安全等等。这些问题不存在标准答案, 更多需要各个企业结合自身的情况对症下药。

细节决定成败

Q:在大数据平台建设规划中, 有哪些常见的架构选型和实践问题?

谢巍盛:企业大数据平台建设应该紧贴业务需求, 不可为了建设而建设导致投入大量资源开发的平台无法使用, 也不可为每个需求都开发一个平台导致大量资源浪费。 甜橙金融在成立大数据部初期梳理了当时的需求列表, 集中力量解决主要矛盾, 进行数据体系建设和平台建设。

甜橙自助 BI 平台重点解决业务人员在数据提取, 探索分析和数据可视化三方面需求。 目前 Hadoop 生态 SQL engineering 的选择较多 (诸如 sparkSQL、presto、impala、kylin 等)。 甜橙 BI 平台在前端支持拖拽取数和自定义 SQL 查询交互, 生成的 SQL 通过路由层将计算调度至底层对应的 SQL 引擎, 底层计算引擎融合了 kylin、presto、sparkSQL、Druid 和 ES。 整个架构设计是为满足业务部门长时, 短时和交互式查询的需求。

在融合 BI 平台的建设过程中, 安全性是一个非常重要的方面。

在处理权限认证的过程中, 由于会和不同的 SQL 引擎进行交互, 在各个引擎分别添加权限是非常麻烦并且低效的方案。

为此, 我们在 BI 平台中使用 Durid 组件解析 SQL, 提取出资源信息, 再通过权限管理中心, 基于角色进行权限控制。 Presto 是强内存需求的计算引擎, 计算中容易出现内存溢出, 导致集群异常。 需要根据集群硬件状态和 query 的并发统计数据灵活调整内存参数配置解决问题。 Kylin 构建 cube 容易导致存储空间使用量过大, 我们结合业务需求利用多种维度优化策略, 如衍生维度、必要维度、层级维度等, 很好的优化了存储空间, 但目前依然会有 bitmap 的性能问题还在做进一步优化。

建设数据科学平台的初衷也是立足于解决业务部门在模型开发上的痛点。

当前模型开发要求开发人员具备一定的代码能力 (如 python), 而业务部门中具备编码能力的人员占极少数;

其次,模型开发人员间协同程度低且由于不稳定易造成知识流失 (如人员流失导致模型无法维护);

最后,在大数据量下模型训练需做分布式计算, 工程能力要求高。

所以,我们开发了一套轻量的, 拖拽式的数据科学平台, 满足从数据清洗、特征工程、模型训练及验证上线一站式服务。 因此在选型上,我们侧重于能各流程有机融合的方案。

Spark 基于 pipeline 的计算模式很适合我们的需求, sparkSQL 可对数据进行 ETL 处理, sparkML 提供绝大多数经典机器学习的算法分布式运算, 而在深度学习方面有诸如 TensorflowOnSpark、CaffeOnSpark 和 BigDL 等可供选择, 目前看我们围绕 Spark 生态搭建的数据科学平台很好的解决了业务部门在模型开发上存在的问题。

存在的挑战主要存在于两个方面。首先,由于业务数据的多样性, 无法定义一套统一的处理方法应对所有的数据问题, 譬如对”脏”数据, 异常值等等, 这是业界存在的普遍问题。需要一定人工干预保证数据大致规整后才能运用一些统计与模型的方法。

其次,当前多数企业针对大数据量下深度学习的应用采用的方案是架设两个集群, 一个集群搭建 Hadoop 生态组件对数据进行 ETL,处理完的数据 copy 到另一个搭载分布式深度学习工具 (如 Caffe,Tensorflow 等) 的集群进行训练,训练得到的结果可能还需要再发送到生产流水线上。这个方案对运维,开发还是生产都有一定复杂度。TensorflowOnSpark 与 CaffeOnSpark 就是为解决这个问题,在 infrastructure 上融合 hadoop 生态与深度学习。但也存在一些问题,譬如在节点角色分配的时候容易会将两个 worker node 分配至同一个 GPU 导致 OOM,需要针对 Spark 和 Tensorflow/Caffe 配置各自参数列表,冗长且调优复杂度高。

关于流计算

现如今,越来越多的公司在业务发展过程中发现有实时业务需求, 譬如实时营销推荐、实时风险阻断、实时业务监控等等。 大数据流计算虽起步较晚, 但整个流水线从数据采集、消息中间件、流计算引擎和状态缓存等均有很多选择,现在,流计算在各大公司也有广泛应用。

对于流计算引擎 Spark 和 Flink 都瞄准了在一个执行引擎上同时支持大多数数据处理场景,相对来说,Flink 低延迟方面优势明显,Spark 吞吐量高无可置疑, 所以实际应用还需要根据业务场景进行选择。 目前甜橙金融在业务监控场景下使用 Spark Streaming,对 latency 要求较高的场景如支付风控的选择是 Flink。

而 Spark 2.3 发布的 continuous processing 虽摒弃了之前 micro-batch 的处理模式, 通过一定数量 long-run 的 task 不断获取数据并将计算结果写到 sink, 从而能压缩处理时间至毫秒级, 但目前这个 feature 仍在实验阶段, 支持 map-like 的处理但不支持聚合函数以及面向时间的操作函数, 因此还无法满足甜橙金融的某些计算逻辑需求, 期待下一个 Spark release 能够解决这些问题。

未来的智慧金融

Q:在金融领域, AI 常被用作进行用户画像和人脸识别身份认证等用途, 除了这两个场景, 人工智能在金融领域还有哪些比较创新的应用?甜橙金融目前在 AI 领域有哪些尝试和探索?

谢巍盛:近年来利用图像和声纹特征做身份验证是常见的几个 AI 应用的场景 (不仅限于金融领域), 这主要得益于近几年深度学习的发展。

但是,AI 在金融领域内的应用并非近几年才有, 也不仅限于图像语音等形式。 北美金融机构在 90 年代就利用规则结合模型的手段解决业务问题, 如营销和风控。 而这两个场景即便在几十年后的今天仍然是金融机构最重要的两个应用。

事实上今天 AI 在金融领域的应用五花八门: AI 为产品设计、客户需求管理、反欺诈、资产配置等提供智能分析决策;在信贷资料审核、信用评分、风险定价及贷后风险预警等提供决策支持;此外诸如智能投顾, 智慧运营和智能客服等也是目前业内 AI 落地金融领域的应用。

甜橙金融在大数据和 AI 的建设起步较晚, 但也投入了大量的资源进行尝试和探索, 也取得了一定的成效。 譬如, 利用复杂网络关系挖掘识别欺诈团体, 利用无监督学习进行虚假用户识别, 对时序数据使用深度学习建立用户行为模型有效降低账户被盗风险, 对用户兴趣深度挖掘建立用户画像进行精准营销, 对分期用户逾期数据建模结合规则策略有效降低逾期率等等。

创新应用往往是创新科技结合场景。 AI 在过去一年有很多创新研究突破 , 在深度学习领域出现了 waveNet, GAN 和 capsuleNet, 进化算法在增强学习的应用能和 Deep Q-Learning 相抗衡, 更多 AI 的工具涌现, 更强的专用 AI 的芯片等等。对于未来的发展, 我们也在随时关注行业动态,也期待未来能为行业的科技发展贡献一份力量。

谢巍盛即将在 QCon 上海 2018 分享《从 0 到 1 构建企业大数据体系》,有任何问题欢迎到现场与谢老师交流。访问大会官网了解大会日程安排。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2018-09-25 08:471979
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 262.3 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

DAPP公排互助项目系统开发丨智能合约技术开发

l8l259l3365

🚀Flutter应用程序加固的问题及解决方案

雪奈椰子

用友iuap智能中台助力中国矿产“数智员工”成功上岗

用友BIP

数智员工

4天肝出一个数据应用,可能吗?| StartDT Hackathon

奇点云

操作系统 数据应用 奇点云

事项法会计:业财融合落地的基石

用友BIP

业财融合

增加外贸订单的实用外贸工具

九凌网络

回归算法全解析!一文读懂机器学习中的回归模型

不在线第一只蜗牛

机器学习 算法 回归算法

iZotope RX 10 for mac(音频修复和增强软件) 10.4.2完美激活版

mac

苹果mac Windows软件 iZotope RX 10 音频修复和增强软件

强大的Kubernetes工具的完整指南

互联网工科生

Kubernetes

CodeiumAI单元测试生成和覆盖率统计实践

lklmyy

单元测试 pytest AIGC CodiumAI

为什么要在项目中使用TypeScript?

树上有只程序猿

typescript

软件定义汽车时代,代码质量先行!

安势信息

车联网 代码质量 汽车软件安全 代码质量检测工具

两台电脑如何快速传输几百G文件,这款文件传输软件真快

镭速

大文件传输 传输大文件 文件传输工具

C/C++ Zlib库封装MyZip压缩类

不在线第一只蜗牛

c c++ 开源 编程语言

WebSocket 是什么原理?为什么可以实现持久连接?

EquatorCoco

Web 网络协议 websocket 通信协议

EAM与IOT融合,用友BIP资产云助力设备智慧运维!

用友BIP

资产管理

JavaScript 的发展史你真的了解吗?

伤感汤姆布利柏

JavaScript 低代码 js

ICP通识导读:了解未来区块链

TinTinLand

#区块链# Dfinity

用友助力中核集团新华发电斩获“IDC未来企业大奖”

用友BIP

企业数智化

监守自盗,如何防范员工窃密?

尚思卓越

网络安全 信息安全

浩鲸科技:为什么要用雪花ID替代数据库自增ID?

王磊

Java 面试

电机制造业mes,mes生产管理系统,免费电机mes

万界星空科技

电机 mes 制造业生产管理系统 直流电机 云mes

NFTScan 正式上线 Starknet NFTScan 浏览器和 NFT API 数据服务

NFT Research

NFT\ NFTScan nft工具

[开源]MIT开源协议,前后端分离、后台通配权限管理系统

小狗围观科幻

分享一套生产管理MES系统的源代码,可以直接拿来搞钱的好项目

万界星空科技

开源 开源代码 MES系统 生产管理系统 开源mes

用友助力浙江省国贸供应链企业数智化管理水平提升!

用友BIP

企业数智化

数据库安全运维系统厂家在深圳的有哪些?咨询电话多少?

行云管家

数据库 大数据 数据安全 数据库安全 数据安全运维

如何有效避免七个常见的身份验证漏洞

这我可不懂

身份验证 网络安全威胁

全能pdf编辑工具 PDF Expert 中文激活最新版

mac大玩家j

PDF Mac软件 pdf编辑器 pdf工具

打开浏览器,线上玩转C++

庄岩

c++ 在线编程 onlinegdb

外贸人必须知道的20个WhatsApp实用技巧

九凌网络

4亿用户过后,甜橙金融如何利用大数据和AI蓄力发展?_AI&大模型_陈思_InfoQ精选文章