【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

海量数据与海量金钱:大数据在金融领域的作用

  • 2017-11-05
  • 本文字数:3804 字

    阅读完需:约 12 分钟

本文要点:

  • 在考虑大数据的 3V 特性——Volume、Velocity、Variety 时,很难有哪个行业的要求与金融领域指导方针如此完美贴合。
  • 新的规范和汇报标准的持续流动为金融行业提供了新的数据源和更加复杂的维度,比如 XVA。
  • 一些大型金融机构曾在采用大数据方面步履缓慢,但是普华永道的市场研究澄清了这些机构中的组织文化方面的阻碍因素,其中很多方面在其他行业也都存在。
  • 市场交易模式的自适应模型可以为买卖特定类似资产的投资策略提供输入。
  • 尽管没人能够 100% 预测未来市场,历史数据和当前市场参数的深度分析依旧提供了市场趋势和市场行为的熟练模型。

本文首发于杂志 IEEE IT Professional IEEE IT Professional 提供当今战略技术方面的坚实的同行评审文章。为了应对管理高可靠、高弹性企业的挑战,IT 管理者和技术领导者依赖于 IT 精英提供的先进解决方案。

在说起高科技驱动的行业时,人们——至少有不少人——首先想到的肯定不是银行业。然而,当我们考虑大数据的 3V 特性 [1]——Volume、Velocity 和 Variety——时,很难有其他行业能够比金融行业更加贴近这些特性。例如,仅 2016 年 4 月一个月,外汇(ForEX)市场每天平均交易额为 1.5 万亿美元 [2]。外汇市场提供了世界各国货币之间的实时汇率,促进了全球贸易和结算。

在本文中,我会讨论大数据方法与金融行业的相关性,描绘出金融行业采用大数据面临的挑战和科技发展的未来机会。尽管很多应用领域都与消费金融相关,由于金融行业的交易体量和资金体量的缘故,本文集中在企业银行方面(金融市场、企业信贷、交易等)。

金融行业大数据

我们先检验一下大数据的 3V 特性与金融的关联:

  • Volume:TB 甚至 PB 的数据才被认为达到大数据级别。金融行业产生了大量的报价、市场数据和历史交易数据。单是纽交所一天就会写入超过 1 TB 的数据 [3]。
  • Velocity:数据存储或者处理速度达到每秒 100000 次以上才认为符合大数据标准。 对于金融市场而言,如此高速的产生数据不算什么难事。而且,系统处理交易数据的速度越快,他们交易的速度就越快。
  • Variety:这要求大数据算法能够处理不同的数据格式和数据源。在企业银行中,机构要同时处理参考数据(比如法人实体)、交易和市场数据、客户要求(通过电子或者声音的形式提出)以及其他很多数据源。

从大数据的视角来看,金融行业更有意思的地方在于,新的规范和汇报标准形成的持续流动为金融系统提供了新的数据源和更加复杂的维度。

这使得金融行业成为数据科学家施展拳脚的地方。

除去周末的短暂时间窗口,前文提到的外汇市场全天 24 小时交易,从澳大利亚悉尼的早晨到美国纽约的夜晚。另外,算法交易已经在金融市场以各种形式存在了很长时间。纽交所在 20 世纪 70 年代初期引入了其指定的订单周转 (DOT) 系统,用于将订单周转到交易操作台,此前这些都是手动执行的。现在,算法交易系统将很大的订单拆分为较小的订单,并基于时间、价格和体量自动执行交易,市场参数得以优化。

在连续的基础上,大量数据的处理被用于金融机构的报告。

  • 银行和金融市场规范越来越频繁地要求计算复杂的度量指标,如 XVA(基于交易对手信用风险、融资成本、保证金等对衍生工具的估值调整)。这些指标被用于设定银行的最低资金保留额度,而后者直接影响银行利润率。
  • 分析时序交易数据,对市场和用户行为建模。例如,绘制交易量随时间的变化图有助于预测信用违约的可能性,为银行节省贷款资源。

一些大型金融机构在采用大数据方面步履缓慢,但是普华永道的市场研究澄清了这些机构中的组织文化方面的阻碍因素 [4],其中很多方面在其他行业也都是相关的。首先,一些金融行业管理者认为,大数据只能解决技术问题而不能解决业务问题。然而,数据是由业务产生的、数据结果用在业务上,很明显技术是支持业务的。一些人不理解如何从数据流中获得价值,而另一些觉得大数据方法可以提升技术效率但是对于盈亏底线用处不大。然而,大数据方法可以提供的深度分析能够直接支持业务增长并提升效率。金融行业从来不是数据科学家的心之所往,所以一些金融机构在为自身寻找和吸引技能型人才方面困难重重。最终,即使是金融机构具备变革意愿,但他们并不清楚要让企业转型利用大数据方法应该如何开始、从何处开始。

然而,根据最近 IDC[5] 的研究,银行业位于行业投资大数据研究排行榜前列,如图 1 所示。并且,金融科技公司,或者 FinTech 公司,正在为银行在资产和财富管理方面的大量需求开发解决方案和产品;图 2 给出了基于普华永道报告 [6] 的各领域 FinTech 公司的比例。追随这一趋势,围绕着金融数据提高业务效率的其他应用,研究和算法也有很大进展。我们接下来重点介绍其中几个。

图 1. 2016 年大数据分析市场(1310 亿美元)(Original data from IDC5)

图 2. 不同领域 FinTech 公司的大致比例 (Original data from PwC6)

市场交易模式

市场交易模式的自适应模型可以为买卖特定类似资产的投资策略提供输入。本节展示一个例子。

除息日(也称为 X-Day)是存托凭证(DR)的卖方有权获得最后一次派息的第一个交易日。在除息日之前,DR 的买方将获得分红。美国 DRs(即 ADRs)是由非美国公司在美国市场交易的金融工具。因此,股息存在双重征税负担:美国的税收和发行 ADR 的国家的扣缴税款。其结果是,投资者有动力在除息日之前卖出 ADRs,并在除息日之后买入。当然,税收政策对 ADR 市场的稳定性有很大的影响。

在最近的研究中,Bi-Huei Tsai 对 ADR 市场进行了测验以了解市场交易量 [7]。此类算法对此类市场进行的分析可以基于最近市场交易量提供最优交易时间。作者分析了在派息日期间(派息日前后 10 天)的 ADR 交易量(每日交易量减去每日“正常”交易量)的超额比率,结果与派息税率正相关,为税收政策对 ADR 市场的影响提供了模型。交易者和政府税收当局都可以利用这一模型制定策略。

实时信用评级

这个应用并非金融行业独有,但与服务消费者和中小企业的银行有关,那就是实时处理数据以进行信用评级。例如,Klarna、Lenddo 和 Credit Karma 这样的 FinTech 公司都提供有关在线信用评级和认证的服务。在最近的工作中,王莹、李思明和林张希(音译)研究了电商的实时信用评级。

任何申请一大笔钱的人都会很熟悉处理流程。传统上,银行从申请表和其他渠道收集申请者的信息。专家分析这些信息并提出此客户的信用建议,其中包含了利率和偿还条款。申请者和银行可能会有协商,可能为了整体而在不同贷款参数做妥协。签订贷款合同之后,客户可以利用这笔钱并在未来偿还贷款。

不仅是数据收集和条款协商浪费时间,而且有两个因素使得一切更加复杂。首先,很多用于信用评级的数据中心是按月更新的,所以银行可能无法从这些来源得知客户最近的财政问题。而且,非金融因素有可能增加违约风险。作者研究了几个与大型电商平台有关的因素:登录平台频率、附加合同信息(包含手机号码)的提供、上月交易量、整体成功交易数量、成为平台客户的时长、客户的业务领域等。基于这些参数,作者对历史数据进行线性回归分析,得到了违约概率和不同参数的关系。结果是可以帮助电商平台基于用户在线行为进行信用评级的模型。传统的中心化信用评级数据库中甚至都没有这些参数。

银行业更加高科技

前述两个例子绝没有对金融领域的大数据算法应用做出限制。尽管没人能够 100% 预测未来市场,历史数据和当前市场参数的深度分析依旧提供了全面、自适应的市场趋势和市场行为模型。反过来,这些模型促进了交易人员、金融机构和其他玩家做出全面和快速的决策。

IT 精英的机会在于,为快速增长的行业开发新的技术和解决方案。从 2014 年到 2015 年,FinTech 融资增加了不止一倍,预示着这一行业的机会和行业对于产品及解决方案的需求。图 2 的大致分类为产品、流程和客户体验方面的创新留下了巨大的空间。想到高科技驱动的行业时,首先想起的是金融行业,这样的日子可能不远了。

关于作者

Jennifer Q. Trelewicz 是德意志银行技术中心的技术风险官和负责风险技术的 CTO。她感兴趣的研究领域包括大数据、高性能数值算法和创新管理。
Trelewicz 曾在业界领先的科技公司如 IBM、微软和谷歌工作,在不同国家拥有多项授权专利,在不同的国际杂志和参考刊物上发表过文章,也在主动志愿支持 IEEE。她拥有亚利桑那州立大学的信号处理博士学位,还是国际荣誉协会 Tau Beta Pi 和 Phi Kappa Phi 的终身会员。可以通过邮箱 jentre@ieee.org 联系她。

感谢薛命灯对本文的审校。

阅读英文原文 Big Data and Big Money: The Role of Data in the Financial Sector


[1] D. Laney, 3D Data Management: Controlling Data Volume, Variety and Velocity, MetaGroup, 2001.
[2] Triennial Central Bank Survey: Foreign Exchange Turnover in April 2016 , Bank for Int’l Settlements, Sept. 2016;
[3] Where Have You Been All My Life? How the Financial Services Industry Can Unlock the Value in Big Data, PwC FS Viewpoint, Oct. 2013.
[4] T. Nath, “ How Big Data Has Changed Finance ”, Investopedia, 9 Apr. 2015;
[5] Semiannual Big Data and Analytics Spending Guide, IDC Worldwide, 3 Oct. 2016.
[6] Blurred Lines: How FinTech Is Shaping Financial Services, PwC Global FinTech Report, Mar. 2016.
[7] B.-H. Tsai, “Examination of Ex-Dividend Day Trading Using Big Data of American Depositary Receipts”, Proc. 2nd Int’l Conf. Advanced Cloud and Big Data (CBD), 2014, pp. 34–38.

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2017-11-05 17:153461

评论

发布
暂无评论
发现更多内容

从350ms到80ms,打造新零售场景下 iOS 短视频的极致丝滑体验

阿里巴巴终端技术

ios App 短视频 移动开发

阿里云混合云重磅亮相中国信通院2021混合云大会

使用 Amazon Redshift ML 构建多分类模型

亚马逊云科技 (Amazon Web Services)

AI/ML

基于Amazon Machine Learning Bot 的 Named-entity Recognition 快速解决方案

亚马逊云科技 (Amazon Web Services)

AI/ML

如何将您的自定义容器镜像导入Amazon SageMaker Studio Notebooks

亚马逊云科技 (Amazon Web Services)

AI/ML

手把手教程 | 基于Amazon Kinesis Video Streams实现IP Camera云存项目

亚马逊云科技 (Amazon Web Services)

IoT

2022 全栈开发值得关注的技术产品

开源之巅

ide Web 云服务

语音信号处理7:语音信号的非线性产生模型

轻口味

28天写作 12月日更

网易云音乐广告CTR预估模型演进过程

网易数帆

机器学习 CTR 网易云音乐

无监督欺诈检测|基于iForest异常值检测法的反欺诈研究

索信达控股

算法 模型 反欺诈 iForest 金融交易欺诈检测

百分点认知智能实验室:基于NL2SQL的问答技术和实践

百分点科技技术团队

使用Amazon SageMaker部署CVAT AI自动图像标注系统

亚马逊云科技 (Amazon Web Services)

AI/ML

【12月日更】深度解析redis分布式锁,那些你不知道的秘密!

小梁编程汇

redis 分布式 RedLock redis分布式锁

54 K8S之Prometheus介绍

穿过生命散发芬芳

k8s 28天写作 12月日更

Dubbo 框架学习笔记十一

风翱

dubbo 12月日更

直播预告 | 拍乐云与你相约RTSCon2021开发者沙龙

拍乐云Pano

WebRTC RTC

模块七作业

21°Char

CRM 和 C4C product category hierarchy的可编辑性控制逻辑

Jerry Wang

中间件 CRM 28天写作 ERP 12月日更

Amazon DeepRacer训练日志分析范例与强化学习Reward Function设计

亚马逊云科技 (Amazon Web Services)

AI/ML

“腾源会”成立一周年:助力 40+ 开源项目成长,集结 50+ 位导师大使

腾源会

开源 开源社区 腾源会

优酷弱网平台落地实践

阿里巴巴终端技术

弱网 弱网环境高可用

2021年的感悟生活

卢卡多多

盘点2021

Java 中的 xx ≠ null 是什么新语法?

CRMEB

Amazon SageMaker Data Wrangler 简化数据准备过程,助力机器学习

亚马逊云科技 (Amazon Web Services)

AI/ML

在亚马逊云科技Marketplace上的SaaS架构设计——如何支持多产品使用单一账户中心

亚马逊云科技 (Amazon Web Services)

AI/ML

在Amazon SageMaker上快速、灵活构建Amazon TensorFlow模型的在线推理服务

亚马逊云科技 (Amazon Web Services)

AI/ML

利用 Amazon IoT Greengrass 在边缘 DIY 自动浇花系统

亚马逊云科技 (Amazon Web Services)

IoT

虎符上线“圣诞狂欢 没礼不行”活动 邀你瓜分等值66,666 USDT的圣诞礼包

区块链前沿News

区块链 节日 Hoo 虎符交易所 圣诞

Amazon Marketplace上的SaaS架构设计 ——如何支持跨多账户对接

亚马逊云科技 (Amazon Web Services)

AI/ML

数字化石油的开采利器:智能图像识别系统

百度大脑

人工智能

关于Stream转Map的Duplicate key异常处理

一盐难进

java基础

海量数据与海量金钱:大数据在金融领域的作用_大数据_Jennifer Q. Trelewicz_InfoQ精选文章