哈佛海归眼中的中国 Fintech 技术:与美国相差的是风雨百年的距离

  • 杜小芳

2017 年 1 月 17 日

话题:语言 & 开发架构

中国的 FinTech 发展迅猛,已经重塑了本身也很年轻的互联网金融行业,更改变了每个人的生活。而大数据对金融的革新和推进具体起到了什么作用?大数据解决了传统金融什么痛点?中美金融行业的技术是否有差距?这篇文章中我们采访了中国技术开放日. 上海站的讲师,平安科技智能引擎部企业大数据专家李想,以此希望能让你了解平安科技金融大数据的创新实践。

采访嘉宾

李想,平安科技智能引擎部企业大数据专家。毕业于哈佛大学计算机系,于 2015 年加入平安科技,参与建设了集团首席投资官办公室的投资舆情监控和风险量化项目。此后李想带领团队完成了企业征信平台和集团投资风险大数据预警智能引擎的开发、平安银行资产风险扫描,同时参与完成了企业大数据仓库的建设和投资风险智能分析引擎的核心开发,每月处理企业指标超过 10 亿条,为投资和风险分析提供了一个高效稳健的平台。

InfoQ:请您先介绍下自己的背景经历?

李想:我的经历可能最大的一个特点就是转折比较多。我本科是在美国中西部的一个州立大学读的,非常与世无争。专业是数学和金融,但是当时觉得金融太虚了(本科的金融课大家都懂的),所以心思基本都在数学上,每天就在公园里跑跑步证证定理,本科就把数学博士前两年的课都修完了。本科毕业后,正好哈佛那一年新开了一个大数据的计算机专业。当时这个概念刚刚兴起,没人知道大数据到底是什么,抱着好奇的态度我就去读了这个硕士,读完以后收获非常大,不仅是在技术上,更是在哈佛的那种大数据必将改变我们生活的每个方方面面的角落的这个理念上。读完以后我的那些同学大多都去了金融业,我也未能免俗进入了对冲基金公司。但是一个偶然的机会遇到了我现在平安的老板,然后我就辞职加入了平安,从事大数据在投资和风险两条线的应用至今。

InfoQ:在哈佛毕业后您有过美国对冲基金工作经验,中美金融行业的技术是否有差距?同时,您是否感到中美企业文化差异?

李想:首先技术差异还是非常非常明显的。譬如交易当中的程序化交易,中美两国的程序脚本我都看过,差距非常大。量化交易策略这块,美国的量化机构有完整的系统方法论和流程,对于新技术的应用也非常之敏感,譬如回哈佛去访问的时候,数学界最前沿的随机矩阵理论,和天体物理学中的理论,都有最新的交易策略应用。中国的这块基本还属于非常初级的起步阶段,不客气地说,很多券商的量化策略研究连入门都不算,大概只有博士一年级的经济系学生的作业的水准。在信用风险和信贷业务的研究这块,中美主要是理念的差距。美国上百年的金融史,风风雨雨的经济周期走过来,整个体系都很稳健和成熟,中国的整个信用风险市场,因为没有经历过大萧条和崩盘,整体来说还处于一个不成熟的阶段。当然还有一方面是金融监管这个中美也有很大的差异,不过这个跟技术距离比较远,就略过了。

文化差异也很明显。美国属于那种成熟中有活力的类型。整个体系非常完善,但是要做新的研究也会给你机会。但是最大的问题是,新的东西研究出来以后,要推动全面实施需要很大的时间和成本。这也可以理解,因为一个很完备的体系,转换的成本会很高。中国则是充满的变数,很多的东西本身就没有一个成熟的体系,可能会走一些弯路,但是对新的东西也很欢迎,更重要的是,新的产品和体系能够很快速地推动,因为本身就没有一个固有的完备的体系,所以实施起来会很快。我个人体验的大数据在金融领域的应用也是如此。

InfoQ:您认为大数据主要能解决金融行业的哪些痛点?传统金融在 IT 方面存在哪些问题?

李想:大数据在金融领域主要解决三个痛点,第一个是信息的不对称,第二个是信息的处理,另一个是产品个性化的问题。

信息的不对称:金融领域信息永远是不对称的。企业找银行贷款,可能会虚报高自己的财务报表,个人去贷款,可能会隐瞒个人债务,买方去企业调研,企业会领着只参观优点的地方。所以无论是在投资还是风险中,要做出正确的决定,永远需要有更全更完备的数据和信息

信息的处理:在现有的数据的量级的情况下,其实也是远远超出了人力所能处理的范畴。一个机构投了几百个交易对手,每年 review 十分之一的企业,就要花费一个团队的人几周的时间,每个企业收集,整理,分析数据,都是一个耗人力的过程。大数据可以自动化处理其中的很多的工作,乃至做出智能判断,更重要的是,人工可能是需要几周时间的事,大数据可以每天都做每天都扫描,瞬间做出反馈。

第三点是产品个性化。无论是个人的投资理财产品,还是保险类的产品,现在的设计都是很初略的。一个模板的公式套用一整个人群,然后产品定位,产品定价。但是其实每个人的情况都是不一样的,大数据可以实现精确定制到个人的级别,为每个人设计最合适的金融产品,然后给出一个精确到个人的价格。

金融 IT 的问题主要是基础架构的落后。很多数据仓库和应用架构都是十几年前的架构,但是因为金融机构稳定性第一,也没有足够动力区更新。其实可以在满足安全的前提下,对于架构做出逐步的替代和更新改变。

InfoQ:对于平安科技的金融大数据技术实现,您认为难度最大的部分在哪儿?能具体讲讲技术上的解决方案吗?

李想:金融大数据所面临的最大的难点,是数据源的异构,但是分析体系所要求的高度同构。说的通俗一点,就是金融数据的各个来源非常碎片化。什么来源都有,什么形式的数据都有,而且什么频率什么质量都有,非常杂乱和碎片化。这个和互联网行业相比差别就特别明显,譬如电商,只要设好埋点,用户的交易数据操作数据都一目了然,井井有条。另一方面,金融分析要求的数据质量非常高,需要规范化的量化的数据,很多更是需要同步过的时间序列数据。这是因为金融分析很多模型源于计量经济学和金融学模型,都是高度规范化的模型,和互联网常用的机器学习不同,机器学习可以容忍很多的噪音和不规整的数据。

为了解决这个难点,我们设计了一个高度精巧的数据仓库和结构模型,或者叫数据管理平台(DMP)也可以。这个仓库需要可以容纳,整理各种类型的各种来源的数据,然后最关键的一点,可以对这些数据进行量化和同步化(synchronization)。量化是指把各种非结构化的数据变成在金融上有意义的指标,同步化是指可以自动调节更新点,更新频率,数据交叉覆盖周期,然后时间序列上各个维度的特征的映射关系。这样,后期的各种应用,包括客户画像,风险管理,量化投资,等等都会变得简单而快捷。另一方面,因为整个这个体系的数据量和处理密度都很高,设计的算法复杂度,也就是整个平台的效率,至关重要。

具体的其它的系列就不多提了,整个平台的核心是一个同步化函数库。这个函数库可以想象成是一整套精密的钟表,有每日走的,每月走的,每季度走的,然后每日,每月,每季度的里面都有走的快的和走的慢的。然后整个数据体系都可以根据每个钟表相互校准。这样的话,整个的数据分析就成为了一个高效而准确的体系,因为减少了海量的人工的清洗和校准工作。

InfoQ:在一家 Fintech 公司工作,您同时精通金融和 IT,除了必备的金融业务知识,技术上需要重点掌握哪些?做到同时精通是否很难?您做了哪些努力?对于一家 Fintech 公司,最理想的团队配置会是什么样的?

李想:在金融 IT 领域,的确两方面的知识都至关重要。不过说到底也没有什么必须掌握的知识。我个人觉得最关键的是非常快速的学习能力,和永不止歇的好奇心。我的团队,和我本人,在入职的时候知识体系各有不同,但是经过一段时间的淘汰以后,剩下来的人都胜任了各种类型的项目和工作。举个例子,我们这里的效率要求一般是,半天以内可以精通一整套业务逻辑,三天以内可以学会一门编程语言,一周以内可以熟练掌握一个体系的模型方法论。在金融 IT 领域,金融和 IT 的知识都是在不断更新迭代的。我五六年前在学校学习的很多金融和 IT 知识,现在看起来已经像上古时代的遗物一样了,所以不断地学习才是适应这个行业的唯一道路。

说到团队的配置,我觉得基本需要如下三种的人才:数据结构和算法专家,系统开发和运营专家,模型和咨询专家。因为首先是数据结构和算法专家确定底层框架,然后开发和运营专家实施落地,最后模型和咨询专家负责与业务方沟通和最后的报告交付。缺了哪一方面,这个团队都是不完整的。现在很多公司的算法团队,基本全都是第一种人,我个人觉得还是很有问题的,因为这样既无法落地,也不能很好地对外宣传和沟通。

InfoQ:您认为 Fintech 的发展趋势会是怎么样的?

李想:我觉得以前 Fintech 更像一个承做的乙方,接了业务方的需求以后加以实现就可以。但是以后整个 Fintech,会逐步走向技术推动创新,技术驱动业务方面发展。因为我们处于一个伟大的变革的年代,科技在十几年间已经颠覆了我们的生活方式和很多行业,金融领域也不例外。金融领域的方方面面,都会面临深刻的变革,但是我觉得这些变革都会由科技来发起。譬如网络金融,有很多的新的接触客户的方式,新的定位和营销的方式,新的产品设计的模式,新的运营体系,这些很多都是带了非常鲜明的互联网的特征。反观金融模型,很多投资和风险模型里面也做了大量不必要的假设和简化,就是因为几十年前能获取到的数据极其有限,能计算的数据量也极其有限。在这个数据爆炸和计算能力爆炸的时代,很多传统的模型也面临着新一轮的变革。我们可以看一下物流领域,Amazon,沃尔玛,和京东高效的机器和大数据算法体系,技术和大数据已经完全主宰了我们这个世界的物品的流动。那资本的流动,也就是金融业,又为什么会例外呢?

语言 & 开发架构