InfoQ 重磅内容产品《中国卓越技术团队访谈录》上新啦! 了解详情
写点什么

中小型基金公司是如何考虑数据建设“性价比”的?

  • 2022 年 7 月 28 日
  • 本文字数:6612 字

    阅读完需:约 22 分钟

中小型基金公司是如何考虑数据建设“性价比”的?

一直以来,基金都被认为是一个有门槛的投资领域,不仅仅因为产品的复杂性,也因为渠道的局限性。过去,投资者主要通过银行代销和基金公司自销渠道购买基金产品,但前者手续费昂贵、后者产品单一,只能满足少数投资群体的需要。


直到互联网金融平台盛行,局面开始发生改变。


由于互联网平台的购买流程相对简单、手续费用较低,而产品来源和种类又更为多样化,近几年越来越多的大众投资者开始涌入基金领域;同时,通过接入互联网平台,基金公司也从幕后来到台前,开始直接面对海量投资者。


这些改变于基金公司而言亦喜亦忧。流量涌入带来的自然是交易量的提升,但一方面,传统基金交易与互联网平台的基金交易数量级已经不可同日而语,这对基金公司底层技术能力是一次从量变到质变的考验。


在日前接受 InfoQ 专访时,九泰基金总经理严军举例,过去传统基金公司的交易最多只有几万到上百万的并发量,通常只有在新基金申购的最后几天才会达到几十万,最多上百万的峰值;而互联网平台考验的是短时并发,流量高峰甚至会超过十亿级。


严军强调,面对这种海量的动态申购赎回,用户在意的是体验感,也就是说在业务交易过程中具有连续性。如果按照传统方式处理这种大并发情况,数据处理系统可能就会直接宕机。


另一方面,更多大众投资者甚至是理财小白的入场,这要求基金公司必须具备更强大的风险管控能力,并且能够持续优化投资组合,满足投资者多样化的需求。在这个过程中,只有拿捏住数据,才能拿捏住变局。


但是,对于像九泰基金这样的小型基金公司来说,和公募基金巨头千亿级、万亿级的基金管理规模相比,目前其体量只有数十亿到百亿级。据严军介绍,在基金行业,考虑到资金成本、资源配比和人员投入等“性价比”的问题,像九泰基金这样体量的公司通常不会自建数据中心,而是通过恒生等第三方平台提供的工具获取交易数据,许多关键的销售数据、申赎数据都无法掌握,更不要说将数据作为资产留存下去,盘活赋能全部业务。


不过,九泰基金并没有走这条所谓的“寻常路”。自成立以来,九泰基金就非常重视 IT 投入,虽然只有 10 几人的技术团队,但仅用了 1 年多的时间,就自主构建了自己的数据中心。从搭建系统到数据整理,从数据分类到数据分析,从单一数据指导到群集数据赋能,九泰基金从零开始,蹚出了一条小型基金公司数据能力建设的道路。

摆脱孤岛,小体量公司也要自建数据中心


过去,传统基金公司的系统架构主要是烟囱式建设模式,一般是基于规划容量进行设计与开发。这是因为那时基金公司推出的产品有限,用户规模可以估计,在极端的情况下,也可通过用户排队等机制来降低系统负载压力。然而,在互联网场景下,互联网金融平台各种活动层出不穷,短时间内发生用户集体申购赎回基金的行为增加,面临数据大并发,这时候再采用简单的等候排队策略,会严重降低用户的体验感。


其次,传统基金公司的业务之间很少互相访问,业务服务在设计与运营过程中也缺乏复用的考虑,所以很难满足多个场景并发访问的需求。但是基于互联网,投资者与基金公司的交互频率将越来越高,显然这种设计和运营模式很难快速响应用户需求。在竞争激烈的市场上,拥有速度和体验便等于拥有了用户的注意力与认可,这意味着,传统基金公司可能因此错失大把商机。


除了快速为用户提供产品之外,关注基金的销售数据、用户的申赎数据,进而洞察用户的深层需求也至关重要。但是,传统基金公司过往的数据资源,要么已经在自己原有的历史系统中,要么存在于各种银行和券商等渠道中,这造成了数据整合难、质量差、无法实时同步等问题,很难为洞察用户需求提供有价值的信息。


严军表示,这些“前车之鉴”是促使九泰基金自建数据中心非常重要的原因。“我们希望能够把系统全部整合在自有的数据平台上,通过数据中心形成一个完整的运行体系,而不是成为一个个孤岛。”


据他介绍,目前九泰基金已经构建了投研、营销和内部管理三大数据中心,覆盖了投资、销售、运营等大量数据。这对九泰基金的工作人员来说是意义重大。


比如:对于传统基金销售人员来说,以前都是拍脑袋猜测用户的投资偏好,还要一次次地进行问卷调查,不但效率低,销售效果也不一定好。而基于后台数据,销售人员可以进行千人千面的分析,包括哪个地区的人买的最多是什么结构的产品、什么类型的人群喜欢更买哪类产品等等,往往能够给出比较准确的数据分析结果,指导公司改进销售策略;


再比如:对于运营人员来说,无论是面对外部监管还是公司内部运营,他们都可以通过数据后台提取需要的数据,仅需 2 名运营人员,最快在几分钟内,就能生成相关报表。如此一来,既节省了时间成本,又增加了工作的便利性。在适应日益普及的金融监管数字化报送机制过程中,这提供了非常关键的支撑。


严军介绍,目前很多小型基金公司会把监管数据报送的工作全部依托给外部第三方公司,这可能造成对报送过程的不可控,不一定能保证项目进度,从而使得公司处于被动状态。


但是,他还强调,九泰基金在自主建设数据架构的过程中,同时还保留了第三方公司提供的系统代码和逻辑,“这么做的好处是,当对同一套数据进行分析时,就可以在两边系统各自跑,如果跑出来对结果完全一致,那证明数据一定是准确的,可以直接上报;如果跑出来的结果不一样,就证明其中有误差,需要员工再次做核对。”


也就是说,通过数据中心的自主建设,使得九泰基金大量的经验数据能够沉淀下来,不仅可以构成驱动系统应用的核心,还可以整合资源,通过平台服务支撑各类业务的访问需求。

人员有限,系统该自研还是外购?


不过,就像罗马帝国不是在一天建成,九泰基金的数据基础也不是在短时间内打好的,在这个过程中,他们也遇到了不少挑战。


首先,九泰基金成立时间晚,IT 建设完全是从零开始,这意味着在数据处理之前,他还有大量的基础建设工作要补齐。但是,最初九泰基金的技术人员只有不到 10 人,据严军介绍,他们接到的第一个任务是在一个月时间内,构建 14 套主要系统。在人员有限,公司业务又必须往前推进的情况下——先建设哪个系统?如何建设?如何最高效地满足当时业务的发展需求?这些问题急需解决。


无疑,最快的解决办法是外购技术提供商通用的系统。严军表示,有些企业会担心外购系统灵活度不高、自主性不强等问题,但是,比如销售系统、投资系统等对时效性的要求极高的系统,并非是基金公司的技术开发强项,通过沉淀投资公司遇到的共性问题,技术商往往能够提供更专业和成熟的方案。所以,这部分的系统九泰基金就会考虑完全外购,不占用非必要的人力,让系统尽快投入使用。


另外,针对与业务逻辑有强关联,但短期内自身开发能力又不足的系统,九泰基金则优先选择与外部技术公司共建。在合作共建的过程中,由技术商提供成熟专业的技术、工具,而九泰基金则可以提供具有针对性的数据,以及业务逻辑指导。


比如,如何利用工具从系统中抓取所需要的数据?技术工具本身并不是九泰基金的长处,但哪些业务流程是主要的?具体抓取的数据字段又有哪些?这部分就需要九泰基金内部成熟的业务人员与外部专业公司共同参与;再比如,APP 可以自己开发,但是其中的安全防护模块,涉及身份识别、密码插件等各种关键安全防护技术,这时候就需要外部专业公司从技术上提供相应服务,把相关安全防护技术产品嵌入到 APP 中。


也就是说,共建的方法可以解决九泰基金一些“当务之急”,利用外部资源补足自身的短板,同时也满足了部分业务个性化的需求。


但显然,这仍然不够。随着公司业务的拓展,个性化的需求越来越多,共建系统的弊端也逐渐彰显——如果想进行部分功能的调整,还需要两方人员的花费大量时间共同协商,长此以往,又会加大时间与人力成本,得不偿失。所以,针对个性化极强的系统,九泰基金全都选择了自研。


比如,投资系统可以外购,但是研究报告系统最好就要自研。“我们希望对所有的报告自行进行智能筛选,从海量报告中找出高质量的研究报告,从而进行持续的跟踪和评价。目前市场上的研究报告系统普遍差强人意。而且随着基金品种的增多,业务复杂度进一步增强,大家又有差异化发展的目标,这种个性化需求会越来越多。”严军解释。


再比如,包括 OA 在内的管理类系统,九泰基金未来也会选择自研。由于九泰基金处于快速增长期,随着人员的增加、部门的扩张、以及业务的变化等原因,OA 系统必须可以及时动态调整,满足公司个性化运营和管理的需求。


总而言之,九泰基金在时间紧、任务重、人员有限的多重挑战下,按照任务优先级和系统个性化需求程度分别选择了三种方法建设基础的系统设施,把仅有的技术人员投入到必须自主开发的项目中,充分利用了现有资源,并保证了公司业务的有序运营。

如何才让数据真正带来价值


众所周知,数据是数字化转型的核心,数据处理又是利用好数据的关键环节,也是最困难的环节。根据严军介绍,企业进行数据能力建设有三个关键部分:数据清洗、数据分类、数据分析。

第一步:数据清洗,要挖掘“业务+IT”复合人才


“我们刚开始采用的数据系统来自于四五个 IT 供应商,像恒生、金证、赢时胜、浪潮等。想要做自己的数据中心挑战很大,需要把所有的底层数据全部铺过来,把所有的人员也都铺上去,进行数据加工、清洗、识别。”严军补充道。


具体来说,基金业务流程涉及到开设基金账户、认购申赎基金、选择基金分红方式、设置赎回模式等,在这个过程中,包括了用户、产品、销售、交易等海量信息。这些信息又通常会以不同的字段、不同的方式存储在对应的数据中心中。数据清洗的目的在于洗掉无效、重复的信息,确保数据质量,让数据尽可能的完整、准确、一致、可用。如此才能够利用数据赋能业务。


据严军介绍,业务部门提出的需求是希望在 1 年内,把九泰基金所有的数据全都梳理清楚。当时,系统中已经沉淀了 4 年多的数据,规模达到近百 TB,并且数据质量参差不齐。对于技术部门来说,这个工作量并不小。虽然交给专门的数据处理公司,速度更快,但是成本高,双方对业务理解还可能会存在偏差。“而且,如果一个公司想真正地提升自己对专业化能力,提升数据准确度和利用效率,这是绕不过去的坎儿,这个工作自己早晚都要做。所以,我们选择自己内部来完成。”


时间紧、任务重,但是数据质量的问题丝毫不能马虎。优质的数据意味着更大的商业价值,相反,如果数据质量不佳,将会导致一系列的问题。比如,不准确的数据,面对严格的审查机制是不可能通过的;再比如,数据质量不佳,难以赋能公司运营,无法精准建构客户画像、把握投资需求,更有甚者还可能提出错误的战略方向,影响公司业务发展。


严军表示,数据质量的保证没有窍门,唯一的办法,是让对的人去做对的事,让真正懂业务的人去做这个工作。“因为他会知道哪些数据是有用的,哪些是没用的,技术人员如果对这个不清楚,他很可能把一些有效的数据给删掉了,无效的数据却留了下来。”严军说道。


但是,这种既懂业务又懂技术复合型人才无论在哪个行业都是可遇不可求的。对于企业而言,解决办法无非两种,一种是在外积累人才资源,另一种是在内培养复合型人才。


对于严军个人而言,他曾先后在天津证券、渤海证券、博时基金、信达澳银基金等金融机构长期从事与 IT、运营、互联网销售等相关的工作,拥有业务和技术的双重视角。他表示 ,这些经历对于他后续的人才资源积累起到了非常重要的作用,他认为,技术人员必须要走出企业,在专业领域多交流、多学习,只有这样,才能遇见更多优秀专业的人才。


针对内部人才培养,需要公司具备一定的战略目标,比如将部分 IT 人员下沉到业务部门,跟业务部门共同学习。同时,人才激励制度的设定也不可忽视。比如,传统 IT 人员的工作职责可能仅局限在于技术层面,业绩考核和激励也多以此为标准。然而公司要想进行数字化转型,那么 IT 人员的工作职责不可避免将会拓展,在这个过程中,第一,在于明确考核、激励的权责界定,给到人才更好的动力;第二,与业务部形成联动机制,共同培养复合型人才。

第二步:数据分类,从业务出发基于关系图谱找到“关键数据”


如果说数据清洗的目的是设计好楼盘地基,这是必不可少的基础工作;那么数据分类的目的便在于第一层要建什么,是有选择性的战略部署。


严军告诉 InfoQ,数据分类的目的在于让大量的数据集群化、条理化,从而更好的赋能公司业务。但是,不同维度各有价值,如何选择一个维度对数据进行分类需要考虑数据分类的目的。


通常而言,首先,基于技术角度,需要考虑数据会用来干什么,例如基础查询、建模分析、还是应用于未来人工智能算法中。其次,基于未来发展,需要考虑数据的处理方式,例如原始数据是否会改变、是否会融合产生新数据等情况。若原始数据不会改变,那么数据分级的粒度可以适量大一些;如果以后还要融合产生新的数据,那么数据的分级粒度应当更细致一些,避免数据融合分析过程中,无法拆分数据。


过去,很多企业做数据分类是从技术角度出发,再考虑未来业务发展变化。但是,面对的是越来越复杂的业务逻辑,如果先从技术角度进行数据分类,不可避免的会遇到数据分级不合理等问题。九泰基金的做法,是从业务视角出发,先简单做归类——比如,来自于销售系统肯定就是销售数据,来自投资系统肯定就是投资数据,以此类推。


“但是,它们之间也不是完全割裂开的,因为有些关键基础数据是一样的,比如客户的基本信息,这些数据在不同业务系统中都会有;再比如投资收益数据,它可能对销售和投资都有指导作用。所以,针对这些错综复杂的数据维度,不能简单地说就它属于哪一类,需要一个‘数据字典’,基于‘数据联络图’,找出它们的潜在关系,最后呈现给前端数据使用者的,是一个串联的关系图谱。”

第三步:数据分析,可以参考但不能盲目依赖


在拥有大量数据的基础上,分析好关键数据,让数据产生价值,这才是关键所在。


但是很多企业表示数据利用率并不高,核心问题在于——数据量够不够、数据清洗和数据分类是否做好、数据维度是不是丰富。“首先,基金公司的目标,应该是让自己所有持有人、客户都在自己平台上留下你所需要的信息,这是基础中的基础。”


其次,在这个过程中有没有形成统一的数据标准和体系,也会影响数据分析结果。比如说,不同系统对数据的分类维度和标签不统一,就可能出现数据提取有遗漏导致分析结果不准确的情况,或者不同系统间数据不匹配,就会造成数据分析人员不知道以哪套体系为参照。


“另外,在这个过程中,企业通常还会遇到很多非常具体的情况。”严军表示,“例如我们通常会判断一个用户使用的手机号归属地就是他的所在地,基于这个共识去做分析。但是,不能排除有人用的是老家的手机号,但长期在外地工作的情况,这时候数据分析出来的结果就是不准确的。


也就是说,即便基于非常扎实的数据准备工作,数据质量非常高、数据体系非常完善,但是数据分析的结果也只能作为一种参考,不能绝对地去依赖它。


除此之外,用好 AI 也能帮助基金公司达到数据分析的目的。举例来说,基金行业最早应用 AI 的场景就是量化交易,即从不同市场中挖掘投资机会,对海量的交易数据进行分析,制定和优化投资策略和策略组合。


在严军看来,量化交易给予了基金公司业务发展的全新逻辑。在传统基金交易中,判断投资影响因素的主要是人,人通过数据分析得出最佳的投资解决方案。但是在量化交易中,分析因子、更换因子,是一瞬间的事情。极端情况下数十、乃至于数百个因子在实时变化,人不可能在变化的一瞬间作出及时应对,而 AI 则可以通过机器学习的方式,知道哪些因子是有效的,哪些因子是无效的,何时应该删除无效因子,何时应该加入新的有效因子。


量化分析固然有优势,但是它的进入门槛很高,要做好很难,在中国仍属于小众业务。


首先,市场可以提供的相关复合型人才有限。普通的“金融+技术”复合型人才既要有基础的编程技术、软件技术,又要有一定的金融知识,这样的人才在市场上已经是少数。而量化分析人才最重要的是要有强大的数理分析能力,帮助计算以及数据收集分析,对市场进行预测和风险估价。


其次,量化投资的投入成本很高,涉及到强大的计算机算力以及数据支撑体系,如:收集大量的数据、建立准确的数据模型、进行多角度数据分析挖掘有效的因子、优化迭代交易系统。


所以,量化分析需要的是一个完整的生态,人才和技术同样重要。


不过,基金的量化分析虽然难,但严军认为,只有差异化才能够在基金行业中形成竞争力。所以,九泰基金一直将量化投资作为公司一个重要发展方向,并且通过人才和技术升级,基于海量关键数据,以“人才+技术+数据”共同带动量化分析业务发展。如今,在宽基指数、SMART 贝塔、量化对冲绝对收益型产品等领域,九泰基金正在探索逐步打开量化产品布局。

2022 年 7 月 28 日 11:531620

评论

发布
暂无评论
发现更多内容

2. helm 简介

ghostwritten

Kubernetes Helm

2022年5月中国数据库排行榜:墨天轮榜单榜首易位,前九三商三云三开源

墨天轮

数据库 opengauss TiDB 国产数据库 达梦

4. helm 3.8.0 入门

ghostwritten

Kubernetes Helm

helm charts openshift Certified 实践

ghostwritten

Kubernetes Helm

helm test 测试

ghostwritten

Kubernetes Helm

ansible 远程容器机种方法

ghostwritten

Docker ansible

helm 自动滚动部署

ghostwritten

Kubernetes Helm

ansible 模块:yum

ghostwritten

ansible yum

【刷题第四天】剑指 Offer II 076. 数组中的第 k 大的数字

白日梦

5月月更

1. helm 目录

ghostwritten

Helm #Kubernetes#

helm v2 公共源大全

ghostwritten

Kubernetes Helm

helm charts 内置函数

ghostwritten

Kubernetes Helm

ansible 安装 httpd

ghostwritten

ansible httpd

helm 插件:helm-schema-gen——yaml转换json

ghostwritten

Kubernetes Helm

如何使用 ansible 变量

ghostwritten

ansible

helm values.yaml

ghostwritten

Kubernetes Helm

helm NOTES.txt

ghostwritten

Kubernetes Helm

helm 模板函数与管道

ghostwritten

Kubernetes Helm

helm 控制流程:循环、判断

ghostwritten

Kubernetes Helm

helm 注意事项

ghostwritten

Kubernetes Helm

helm v2 hooks

ghostwritten

Kubernetes Helm

【Python】题集 of ③

謓泽

5月月更

5. helm charts 基础入门

ghostwritten

Kubernetes Helm

TiDB 6.0 Book Rush!一起来分布式创作 6.0 的使用手册吧!

TiDB 社区干货传送门

java培训redis集群原理分享

@零度

redis JAVA开发

helm 3.8 命令指南

ghostwritten

Kubernetes Helm

用一个性能提升了666倍的小案例说明在TiDB中正确使用索引的重要性

TiDB 社区干货传送门

helm 命名模板

ghostwritten

Kubernetes Helm

转行运维工程师之后,我先把这几个Linux 命令记在了本子上,实干9场景

梦想橡皮擦

5月月更

TiDB【城市开拓招募帖】回答“社区活动什么时候来我的城市?”

TiDB 社区干货传送门

中小型基金公司是如何考虑数据建设“性价比”的?_大数据_阎婷_InfoQ精选文章