【FCon上海】与行业领袖共话AI大模型、数字化风控等前沿技术。 了解详情
写点什么

四个问题搞懂银行数据团队如何打造数据体系

  • 2024-04-16
    北京
  • 本文字数:11241 字

    阅读完需:约 37 分钟

四个问题搞懂银行数据团队如何打造数据体系

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

嘉宾|徐小磊 广发银行信用卡中心商业智能负责人

编辑|高玉娴


数据作为数字经济时代的新型生产要素,其重要性已经成为普遍共识。即便如此,业界对数据的认知仍然存在不少误区,很多企业错把数据资源视为数据资产,认为“有数”就等同于“用好数”,但是由于数据体系建设和数据资产运营策略不清晰,导致最终数据价值难以被充分挖掘。


为了实现从数据采集、分析、到管理决策的全流程服务,让数据资源转变为数据资产,越来越多的企业加紧成立数据相关部门,希望实现对数据资产全生命周期的持续运营和价值挖掘。然而,国内很多非互联网企业一直备受数据体系建设和数据团队管理等一系列问题的困扰。


在日前的《超级连麦. 数智大脑》直播节目上,广发银行信用卡中心商业智能负责人徐小磊围绕数据体系建设中的挑战如何解决、数据与其它团队之间如何高效协作、数据团队如何建设、未来数据体系如何规划等四大话题分享了广发银行信用卡中心的实践经验及其个人的深刻洞察。


以下内容根据对话整理,篇幅有删减,点击链接可观看直播回放:https://www.infoq.cn/video/Qce0JYXW9PuGTXsapIif

如何搞定数据标准统一和数据质量等难题?

InfoQ:请您结合广发银行信用卡中心的经验,介绍一下数据体系建设的整体历程大体上会分为哪些关键阶段?每个阶段有哪些需要重点突破的攻坚问题?


徐小磊:首先分享一下我们的数据环境和体系建设的情况。作为一家金融机构,我们既有线上用户平台,比如自己的 App、企业微信等,也有线下的渠道和用户。在此基础上,我们积累了大量的金融数据,仅信用卡发卡量就达到了 1.2 亿张,每个月线上渠道新增的数据量就有几十个 G。面对这样的数据体量和复杂性,我们的数据体系建设分为几个关键阶段:


1. 数据治理框架和标准:任何体系化的建设都需要一个明确和坚定的目标。缺乏明确的目标,数据工作就会迷失方向。我们需要确定哪些数据是必要的,以及这些数据应该满足什么样的标准。例如,用户画像可能有几百上千个指标,但我们可能只关注其中的 100 个,而不是全部。在确定了数据治理的框架和标准之后,我们会搭建数据架构,由研发和科技团队负责,目的是建立一个可扩展、高效且安全的系统,保护客户的隐私数据。


2. 产品选型:我们会选择合适的数据平台产品,确保海量数据的有效可靠存储,并能够在上层应用中高效、准确地调用。


3. 数据集成和管理:这一步比前面两步更为重要,因为它是一个持续化、常态化的过程,不断自我迭代和完善。在这个过程中,我们需要解决不同主题域数据的结合和映射问题,确保数据的一致性和准确性。


4. 数据分析和应用:在这个阶段,我们面临如何用数据理解业务,以及如何站在业务中理解数据的挑战。我们会通过数据分析得出业务结论,并通过模型帮助我们发现更深层次的洞见。


5. 审计和管控:作为金融企业,需要定期对数据应用和管理进行审计和管控,确保合规和安全。


6. 数据运营:持续维护数据,保证其真实有效,并保持数据的活跃性。

InfoQ:企业数据体系建设往往涉及不同业务环节和业务板块之间的联动,那么,在数据治理阶段如何实现标准的统一?又如何确保这些标准顺利落实?


徐小磊:我们成立了一个金融科技委员会,该委员会负责统筹整个数据工作。在委员会内部,有一个重要的部门叫做决策管理部,负责管理整个信用卡中心的数据定义和数据指标。这个部门的管理范围包括指标的名称、业务分类、类型、业务口径、技术口径、关联维度以及迭代更新周期等七个方面。每一个指标的变更都必须经过变更管理流程才能生效,并且这些定义构成了一个公开的数据字典,不同权限的人可以根据自己的工作权限查看相关指标的定义。


关于搭建业务指标体系的工作展开,通常由业务同学领导,因为他们了解业务需求。一旦确定了指标,数据同学会协助确认口径,比如确定 DAU 的计算方式。然后,技术团队会将这些定义以代码形式实现,并由数据同学验证后反馈给业务同学。

InfoQ:数据质量决定着数据应用的效果,在广发银行信用卡业务场景中,哪些因素可能会影响数据质量?具体如何规避?


徐小磊:分享一些常见的数据问题和我们的处理经验。


首先,数据来源的多样性导致格式和标准的不统一,这是数据源的问题。我们通常通过数据治理和规范来解决这个问题。


其次,数据输入的错误也是一个常见问题。并非所有的数据都是系统自动产生的,还有很多线下手工数据的录入。人为错误在所难免,我们通过开发限制性功能,比如在录入平台上进行数据有效性验证,来减少这类错误。


第三,数据的冗余和重复问题。有时候,由于网络或数据源层的问题,同一条数据可能被重复采集。我们通过数据治理和规范,在 ETL 过程中定义数据的唯一性标准,来处理这种情况。


第四,数据不完整的问题。前端元数据系统的问题导致数据在传输和采集过程中丢失。有时候字段为空或者数据内容不完整。对此,我们会通过前后平滑等方法进行事后处理,以避免未来出现类似问题。


第五,数据的时效性也是一个重要问题,有时数据并不是最新的。以银行为例,我们可能会看到用户的征信数据是半年前的。如果使用半年前的征信数据来进行发放信用卡或分期办理,可能会出现错误,因为用户的情况在半年内可能已经发生了变化,而我们并未及时了解到。这个问题是数据处理中一个非常重要的缺陷。


过去我们在互联网企业工作时,一直认为数据具有高时效性。但实际上在银行机构,数据的时效性可能是 t + 3 到 t + 4,也就是说,我们今天看到的数据实际上是前三至四天的数据。昨天和前天的数据还没有被聚合、稳定或收敛,仍在计算中,因此不能被使用。但很多时候,数据应用人员往往习惯性地认为今天看到的指标就是准确的。然而,你可能会在第二天发现指标又有所变化。


最后,数据的安全隐私问题。作为银行,我们非常重视数据的安全和隐私保护。我们欢迎外部数据的输入,但绝不能让银行的数据外泄。我也很想了解银行的客户在全球互联网上的表现如何。为此,在 2019 年,我们与一家数据公司合作进行了联邦建模,数据匹配后,该公司直接将他们的标签打入我们的系统,我们用用户匹配来完善用户画像,并制定后续的针对性策略。最终发现,很多数据并不准确,因为我们无法验证其准确性,只能说这些数据与外部公司匹配的用户标签是对应的。

InfoQ:如果脏数据不可避免,那么广发银行信用卡中心在数据质量监控的思路和手段等方面都用了哪些?


徐小磊:在讨论脏数据的处理时,首先需要明确什么是脏数据以及我们对脏数据的可接受程度。脏数据通常指的是在数据传输和分析过程中出现的错误或不完整的数据。例如,数据可能因为各种原因在传输过程中丢失或变得不准确。定义脏数据并确定一个可接受的比例(如不超过 0.1%)是至关重要的,这需要团队内部进行充分的讨论和达成共识。


在我们的 IT 系统中,脏数据的产生并不是由人工操作引起的,而是在数据的传输和处理过程中自然产生的。尽管现代的信息系统通常具备较强的数据规范性治理,且在数据抽取过程中会进行大量的校验和修复工作,但脏数据仍然可能存在。在我们的数据治理团队中,控制脏数据的数量是一个核心的 KPI。如果脏数据过多,上游系统将无法有效使用。


通过多年的发展,我们发现脏数据在数据集中的比例已经非常低,通常在 0.1% 左右,这在我们的工作中可以被视为可以忽略不计的。这个比例的脏数据并不会影响数据分析的结果。可以这样比喻:如果一个人身高两米,他站在空旷的地方会非常显眼;但如果他站在人群中,尤其是 100 万人的人群中,他的身高就不再那么突出,也不会影响整个人群的平均身高计算。同理,即使存在少量的脏数据,只要其比例控制在可接受的范围内,也不会对整体的数据分析造成显著影响。

InfoQ:在某些行业中,可能并没有像金融行业那样拥有坚实的信息化基础和完善的数据治理体系。这可能导致这些行业存在较多质量参差不齐的数据,也就是脏数据,面对这样的情况,如何区分正常的数据波动与数据异常?


徐小磊:在我们的工作中,经常使用几种有效的方法来判断数据波动是否正常或异常。


第一种方法是 3:3 规则,这是一个简单但并不总是准确的技巧。当数据发生变化时,我们会与环比、同比和目标进行比较,以判断波动是否正常。这种方法非常常见,但它的局限性在于它可能无法捕捉到所有的异常情况。


第二种方法是在 Excel 中使用描述性统计和象限图。通过创建象限图,我们可以识别出图中的离群点,也就是异常值。这是一种直观且易于实施的方法,可以帮助我们快速发现数据中的异常情况。


第三种方法是建立模型,如简单的线性回归或更复杂的决策模型。通过模型,我们可以更系统地分析数据,并识别出可能的异常模式。


我们最常用的方法是使用象限图来快速判断数据异常。象限图可以帮助我们从数据角度快速识别异常,重要的是,数据上的异常并不一定意味着业务上的异常。例如,在双 11 这样的大促销日,交易额的异常高是预期内的,业务团队实际上希望这个数字越高越好。因此,我们需要结合业务背景来理解和评估数据异常。

数据团队如何与业务、技术等部门高效协作?

InfoQ:业务和数据部门之间的话语体系不同,双方如何更好地相互理解?


徐小磊:首先是如何用数据去理解业务。我们通常会先进行营销和运营策略制定。举个例子,当我们在春节期间进行活动投放时,可能会看过去类似活动的转化率,比如说是 5.1%。而今年我们可能希望提高这个转化率到 6%。在这种情况下,通常会进行 AB 实验,在不同的方案下给不同的客户进行投放。然而,这会遇到一个问题:虽然 AB 实验显示最优方案相较于基线提高了 0.1 个百分点,从 5.1% 提升到了 5.2%,但这 0.1% 对业务来说并没有显著意义,这是数据证明显著而业务不认可的典型冲突。


另一个例子是,假设我们在做抖音或者快手等短视频平台的运营,人均单次使用时长是一个关键指标。我们可能通过各种算法和策略将人均单次使用时长从 90 分钟提升到 100 分钟。虽然数据证明有显著性的提升,但业务方并不认可这个提升。这种情况下,10 分钟的提升对于原有 90 分钟而言并不显著,这就是数据和业务之间的差距。需要花费很长时间去理解这个差距,因为数据团队通常更偏向于技术和算法,而业务则更注重实际效果。


其次,从业务中去理解数据同样具有挑战。例如,以某个转化率为例,任何一个指标背后都对应着商业模式、运营策略、目标客群和业务流程。要理解这些背后的内容,才能真正从数据中得出建议和方向。举例来说,转化率的变化可能有多种原因,如分子上涨、分母下降、分子上涨速度快于分母等。然而,在业务端,大家可能更关注转化链路中的问题、目标客群的准确性以及商业模式和策略的有效性等方面。这种理解需要与业务的深入磨合。

InfoQ:怎么通过组织流程或者说制度上的各种手段,让不同角色之间的协作或沟通更加高效和通畅呢?


徐小磊:这确实不是一个技术问题,而是一个组织架构和协同工作的问题。近年来我们致力于数字化转型和数字化赋能,以此为前提来统一我们的技术团队、中台、前台和渠道,确保各个部门之间的联动。


首先,如前面介绍,我们有一个重要的部门叫做决策管理部,负责管理数据指标,从原始数据处理到指标输出的整个过程。任何对这个流程的增删改查都必须通过规范流程,由这个部门最终评审变更。


其次,我们明确了协作流程,包括谁负责什么,谁先行动,谁后行动,都通过明确的规范来限定和标注。举个例子,现在传统的分析方法已经不能满足复杂的业务需求,我们需要建立模型。在这个过程中,业务部门的数据团队负责开发、建设和调优模型,而系统或科技部门则负责部署和维护模型,以及后续的优化工作。


其三,我们制定了沟通规范,以确保沟通的高效性。我们的金融科技委员会定期与各业务团队和技术负责人进行沟通,磨合工作,确保数据工作的生产和运营过程顺畅进行。


此外,我们还会开展多项数据类的赋能活动。比如,举办数据赋能大赛、实施数据分析师的人才培养计划,还有数据或 AI 算法的训练营。通过这些活动,将业务同事纳入其中,建立起业务与数据之间的紧密联系。所谓高效联动,意味着数据需要了解业务的思路和方式,业务也需要了解数据的策略和方法。因此,我们每年都会在七八月份举办信用卡中心的大赛,让业务团队提出他们用数据实现的降本增效的项目。评委有业务专家和数据专家,会评审推荐的项目,并从中选出最佳方案,然后公示出来,供大家分享学习。

InfoQ:数据团队往往人数有限,如何高效地满足业务部门大规模的数据使用需求?


徐小磊:在满足需求的过程中,我们会面对两种不同类型的需求:指标类需求和日常需求。


1. 指标类需求。对于指标类需求,例如新指标的提出,我们会进行深入讨论,了解其背后的目的和业务逻辑。前辈曾告诉我,“可衡量才可改善”,这意味着我们需要明确如何改善指标,才能发挥数据的价值。


2. 日常需求。在日常需求方面,我们会面临人力不足的挑战。为了有效管理需求,我们需要建立标准和流程。首先,我们设立了提需求的标准,包括需求背景、具体内容和期望的输出。只有按照这些标准提出的需求才会被考虑。然后,我们会与业务部门进行多次反复的讨论和磨合,以确保需求的准确性和合理性。接下来,我们会根据优先级对需求进行排序,并公示给所有相关方,以便大家达成共识。最后,我们会根据业务部门自身的标准和需求来确定优先级,以确保最紧急的需求得到优先处理。

InfoQ:数据团队是整体对接各个条线的业务部门,还是分组去对接?哪一种组织效率会更高一点?


徐小磊:以我们公司的 APP 数据团队为例,对应不同的工作职能主要包括两类角色。第一类是 BP 类型的数据分析师,他们的汇报对象仍然是数据团队的领导,但工作地点通常与业务团队在一起。这种模式使得数据分析师能够更贴近业务,更好地理解业务需求,并提供针对性的数据分析支持。这种设置有助于加强数据团队与业务部门之间的沟通和协作,确保数据分析工作能够紧密围绕业务目标展开。


第二类数据团队成员则专注于平台性建设,他们大概占团队的 1/3,工作重点是构建和维护数据分析平台,提供工具和方法论支持,确保数据团队能够高效地进行数据处理和分析。他们的工作是基础性的,对于整个数据团队的运作至关重要,因为提供的平台和工具直接影响到数据分析的质量和效率。

InfoQ:如何避免数据分析团队大多数时间都是在提数或者是做报表开发?


徐小磊:这个现象是无法完全避免的。事实上,这是数据分析工作中一个合理且必要的部分。总得有人负责数据提取和报表的维护,而且并非所有的需求都能通过现有报表来满足。


对于数据团队的定位和人员技能的考量是关键。如果团队还很年轻,对业务的理解不够深入,那么在初期阶段,团队成员自然会更多地投入到数据提取和报表开发中。特别是在业务团队刚开始进行数字化转型时,从零开始的阶段,数据团队的主要工作必然包括数据提取和报表开发。


随着数据团队的成熟和发展,可以采取更加平衡的工作分配。例如,可以保留少数团队成员(比如 2~3 个人)来处理临时性的取数需求和进行现有报表的维护工作。假设已经开发了 100 个报表,每个月可能只需要新增几个个报表,或者对现有报表的字段进行维护。这样,其他团队成员就可以释放出来,去从事更具探索性和价值的工作。

InfoQ:我们决策管理部门的人员由哪些部门的人员构成?分散在各个业务部门的数据人员角色和职责上又是如何划分的?


徐小磊:决策管理部门实际上是一个独立的后台部门,负责管理整个数据流程,包括统一管理指标、口径的定义、数据的应用、数据平台、模型、策略等。为什么业务部门会有数据团队呢?原因在于数据本身与人力资源很相似,如果业务团队没有数据支持,沟通就会受到限制。因此,数据团队的人员需要与业务部门密切合作,以培养业务感知能力。


数据团队的角色有一些划分和差异,因为业务需求不同。以我们现在的团队为例,大致分为三类角色。第一类是数据产品经理,负责管理数据产品;第二类是数据分析人员,包括初级、中级和高级,负责数据分析工作;第三类是数据智能团队,负责算法和模型的开发。每个角色下面还会有一些具体的细分。例如,数据产品经理可能会负责线上平台的埋点管理和标签体系管理,数据分析人员则负责从简单的数据取数到高级的探索性分析,而数据智能团队则会根据业务需求开发适合的模型和算法。

InfoQ:数据团队在满足业务需求后,如何验证数据的有效性?有没有一些评判的标准或指标?


徐小磊:我们根据不同的业务需求类型,采取不同的验证方法。


首先,对于专项类需求,目标是改善具体的业务指标。例如,如果业务部门希望我们通过数据分析帮助提升某个指标 5%,我们会以业务结果为导向,追踪这个目标的实现情况,从而评估我们工作的价值。


其次,对于日常取数或申请预算这类需求,我们的价值体现在能否帮助业务部门顺利通过财务审核。如果提供的数据分析能够让业务部门成功申请到预算,这就证明了我们工作的有效性。


第三,对于探索性分析这类没有明确目的的需求,我们会主动与业务部门沟通,提供数据后不仅发邮件了事,而是会坐到他们身边,讨论数据分析的结果,询问他们的看法,并探讨是否需要进一步的工作。这种互动能够充分体现数据团队的价值。


曾经,为了证明数据团队的价值,我采取了一个非常有趣的做法。我停止了日报、周报和月报的发布一个星期,想看看会有什么反应。结果,两天后,很多业务部门的负责人就开始联系我,询问为什么没有收到日报。这个小小的实验让我意识到,尽管他们可能不总是表达出来,但实际上他们非常依赖我们提供的数据报告,并且简单有效地验证了我们团队的重要性和价值。

InfoQ:业务自己都能看数据了,那数据分析工作价值体现在哪里?


徐小磊:以我们公司的架构为例,你会发现数据团队的作用是非常明显的。随着组织分工和社会化分工变得越来越细致,业务人员往往只能看到自己负责的业务数据,难以全面了解其他业务领域的情况。数据团队就像是一个数据中台,能够全面贯穿整个组织的数据流。


举个例子,广发银行有一个名为“发现精彩”的 APP,它是一个集成了多种业务的平台,包括分期业务、商城业务、饭票业务等。负责分期和商城的业务人员只能看到各自业务的数据,比如分期办理的人数、商城的交易金额等。但是,作为数据团队,我们能够看到全局的数据。我可以观察到一个用户在一个月内不仅办理了多少笔分期,同时还在商城购买了商品。有了这样的全业务视角,我可以向商城的运营管理者提出建议:最近有 10 万用户在分期业务中借出了 1 万块钱,是否可以考虑吸引他们到商城购买手机等高价值商品?这样的建议,如果没有数据团队的全局视角,是难以提出的。


同样地,如果我发现商城中购买某款高价手机的用户数量激增,就可以将这一信息反馈给分期业务部门,探讨是否有可能吸引这些已经花费大量资金的用户来进行分期付款。这种跨业务和全业务视角的协同,正是数据团队的核心价值所在。通过这样的工作方式,数据团队不仅帮助业务部门更好地理解用户行为,还能促进不同业务间的协同合作,从而为企业创造更大的价值。

InfoQ:怎么让业务策略的反馈和活动效果,或者推荐效果等数据回流到数据体系,继续驱动下一次的业务活动?


徐小磊:这个可以分为两类,一种是自动化的,一种是人工的。


自动化的指的是推荐系统本身就具备回流和闭环功能。无论是正向反馈还是负向反馈,都会进入到推荐系统中,作为下一次推荐的权重信号起作用。


人工方面是以人工的形式将这一次的效果作为输入,影响到下一次策略的制定。首先,你的数据团队必须拥有较高的地位和影响力;其次,需要上层领导认识到并执行这种数据驱动业务的流程;第三,要求业务团队在制定策略时必须先考虑数据和客群,这是几个基本原则。

AIGC 时代的数据团队如何建设和规划?

InfoQ:广发银行信用卡中心数据权限体系具体是如何划分的?


徐小磊:主要是根据不同的产品来划分的,因为数据权限需要与具体的数据产品结合。通常,最常见的数据权限体系是围绕着 BI 平台或自助分析平台展开的。在我们公司,数据权限体系并不复杂,一般是基于部门、职级和角色来确定。但仅仅设立这样的数据权限体系是没有意义的,因为它无法实现数字化转型和数据赋能的目标。因此,我们在建设数据体系时采取了一套传统的方法,但也结合了数据人才的培养计划。


举个例子,我们现在的规范是这样的:数据全员体系中,每个部门都会有一个数据的种子用户,他们具备最全面的权限,可以管理和维护部门所使用的所有指标和数据。然后是一般用户,基本上就是初级和高级分析师,他们拥有不同层级的权限。通过这样的划分,我们能够更好地管理数据权限,确保数据的安全和有效使用。

InfoQ:是否可以展开介绍一下“数据人才培养计划”?


徐小磊:数据分析师的认证体系和培训计划是其中的一部分。首先,我们建立了初级、中级和高级数据分析师的认证体系。


初级数据分析师认证主要通过线上考试进行,每月一次,考生需通过初级认证后才能报名中级数据分析师考试;


中级数据分析师认证,则需要通过在线题库考试,涉及统计学、业务知识等多个方面,考试需要在电脑前进行;


另外,我们将高级数据分析师分为建模分析师和业务分析师两个分支。建模分析师负责算法方面的工作,而业务分析师则专注于业务方面的工作。高级数据分析师的评选过程不仅包括笔试,还包括一次重要的面试环节,以筛选出最优秀的人才。


通过初级认证后,数据分析师可以在我们的自助分析平台和 BI 平台上查看数据和报表,但若想进行更深入的工作,如自己创建看板或表格,则需通过中级和高级认证。高级认证的通过者将获得更多权限,可以进行探索性分析、编写模型,并解决复杂业务需求。


此外,我们还将极客邦的企业培训产品极客时间纳入到我们的培训计划中,以建立从 T1 到 T5 的数据分析师的知识能力体系。我们银行的数据分析师并不完全是专职的数据人员,许多参加数据分析师考试的人员都是业务人员。我认为这一点才是最有价值的。

InfoQ:从从业者的视角来看,一个好的数据科学家 / 数据分析师需要具备哪些核心能力?如何培养和提升?


徐小磊:作为企业的数据部门领导,我在面试和观察了数百名数据分析师后,总结出企业对数据分析师的能力要求是分层次、分级别、分类别的。以下是我对不同经验水平数据分析师应具备的能力的概述:


  • 0-3 年经验的数据分析师:对于初入行业的人,我们最看重的是技术能力,即技术基础是否牢固。这包括是否熟练掌握常用的数据分析工具,如 SQL、Python、Excel 等。熟练掌握意味着能够快速理解企业的数据结构,并能迅速实现复杂的业务需求。


  • 3-5 年或 3-7 年经验的数据分析师:在这个级别,技术能力已经相对成熟,我们会开始考察分析师是否真正理解数据背后的业务含义。在面试中,我会询问他们关于他们工作中的指标(例如 DAU)并期待他们能深入解释这个指标的含义和背后的业务逻辑。


  • 5-7 年或 5-10 年经验的数据分析师:到了这个层次,我们会关注分析师对复杂业务的掌握程度。不同于初级阶段的事后分析,高级分析师需要具备预测能力,能够基于数据预测业务未来的趋势和风险,帮助企业做出更有针对性的决策。


  • 10 年以上经验的数据分析师:对于这个级别的分析师,除了技术能力和业务理解,我们更看重的是他们的思考方式和战略视角。他们应该能够超越单纯的数据分析,从更宏观的角度审视数据,理解数据对企业战略的影响,并能够提出有价值的见解和建议。

InfoQ:如何在工作中成长为高级分析师?


徐小磊:成为高级分析师不仅仅是技能上的提升,更需要改变思维和思考方式。初级和中级的数据分析师通常关注如何正确地执行任务,而高级分析师更注重如何选择正确的任务。


在转变中,关键是从关注如何把事情做对,转变为关注为什么要做这件事情。高级分析师更多地思考业务的发展方向,为什么要实施某项分析,以及分析的结果如何影响业务目标。高级分析师不再只是执行者,不再需要亲自处理数据和跑数。他们的思考更多集中在业务层面,思考业务的发展趋势、目标和考核指标,并将这些考虑因素融入到分析中。


我已经工作了 17 年。现在,我更加关注的是为什么要做某项分析,而不是如何做分析。这是成为高级分析师时可能会经历的转变。因为到了高级数据分析师的层级,很多一线执行工作不再需要你亲自处理。你会更多地思考业务的发展方向,比如今年业务的状况是怎样的,明年需要达到什么水平,为什么要做这么多工作,以及为什么要考核特定的指标。重点是将这些指标与业务目标相结合,而不仅仅是关注如何去完成任务。

InfoQ:在 AIGC 时代,数据团队如何进行规划?


徐小磊:在 AIGC 或大模型的时代,数据团队的规划将会有所不同,主要体现在提升工作效率、价值和深度上。AIGC 被视为一种高效的工具,能够帮助数据团队更好地完成工作。


过去,数据团队的产出很大程度上依赖于对业务的深入理解和多年的经验积累。这种基于经验的分析有其优点,比如能够迅速与业务需求同步,但同时也存在局限,尤其是容易导致团队陷入业务的惯性思维。数据分析师可能会过于自信地认为事情“应该”是这样,而实际上这种判断往往是错误的。AIGC 能够帮助我们弥补知识上的不完整和思维上的惯性,这是其第一个优势。


第二个优势是提效。无论个人对工具和数据环境有多熟悉,数据处理和分析始终是一个耗时的过程。人的大脑处理信息的速度有限,而 AIGC 可以帮助我们快速完成任务,我们只需要验证和挑战 AIGC 的过程和结果即可。例如,在短文本分类这样的任务中,AIGC 可以辅助我们处理信息量不足的文本,提高分类的准确性和效率。


在 AIGC 时代,数据团队的规划可能在结构上没有太大的不同,但在工作效率和分析深度上将会有显著的提升。这意味着数据团队可以更加高效地利用 AIGC 这样的先进技术,推动数据分析工作向更深层次发展。

未来的数据体系长什么样?

InfoQ:过去 10 年大数据的地位一直很高,但除了真正的商业智能和推荐系统外,有没有看到更多有价值的体系?


徐小磊:首先,我想用一个比喻来说明,20 年前我们常说每个人都是产品经理,但现在是否还是这样呢?答案是否定的。其次,如果你感觉不到数据的存在,那么它很可能已经完全融入到你的生活中了。你会发现,当一个东西不再引人注目、没有声音的时候,它反而成为你工作和生活中不可或缺、潜移默化的一部分。这个事情看起来似乎很突出,但实际上它并没有真正融入到你的体系中去。


举个例子,当我加入广发银行时,我的团队只有一个人,我是第二个。我每天都在努力提升存在感,通过发送日报和周报来展现我的工作。为什么会有这种情况呢?因为当时我的数据工作是独立于业务工作的,是一种平行的工作模式。而现在,几乎所有的业务都需要通过数据来支持,数据和业务已经成为同一条线上的一个流程。越是缺少数据,反而越能够体会到数据在工作中的重要性。

InfoQ:展望未来,广发银行信用卡中心在数据体系建设、数据资产化应用实践方面有哪些进一步的计划?您个人今年的工作重点又是什么?


徐小磊:首先,我给我的团队定了一个方向,就是AIGC 充分融合。我们计划将大模型融入到我们的工作中,但这是具有挑战性的。最大的挑战之一是大模型的私有化部署。由于我们是银行,不能让大模型部署到银行内部,同时还能够访问外部数据,因为这会带来数据泄露的风险。在私有化部署时,我们可能会遇到许多问题,例如智能降级以及不可用的情况。但我们将与系统团队一起努力克服这些挑战。


其次,当 AIGC 融入我的数据团队时,我首先要消除数据团队的恐慌。他们可能会担心被 AIGC 取代,我需要改变他们的观点,并充分利用 AIGC 的优势。


第三,我们将在业务层面实现一些突破。存量用户基于现有的分析方法很难找到创新点和突破点,但我坚信任何事情都值得用数据重新分析一遍。在重新分析之前,我们需要保持空杯心态,询问过去的做法是否仍然适用,如果不适用,我们需要寻找新的方向、新的策略和新的方法。这是我们作为决策部门和业务大脑的责任,需要向业务和领导提供答案。

专题征稿启事

AI 的广泛应用,特别是大模型等前沿技术,正在重新定义业务运营、创新服务和客户体验。应此变革,InfoQ 数字化经纬启动《AI+ 千行百业,驱动业务场景创新》专题,借此机会深入探索 AI 在不同行业的应用实践,提供行业洞察。


我们欢迎相关企业实践案例的投稿,或是希望接受我们采访的企业与个人主动联系我们。




2024-04-16 15:0310067

评论

发布
暂无评论

Mac14下载-macOS 14 Sonoma(苹果最新系统)14.1.1正式版,pkg安装包

晴雯哥

云服务器数据安全保障措施看这里!

行云管家

云计算 云安全 云服务器 云数据

数仓实践丨表扫描时过滤行数过多引起的性能瓶颈问题

华为云开发者联盟

数据库 数据仓库 后端 华为云 华为云开发者联盟

淘天Java一面,难度适中!(上篇)

王磊

Java java面试

LTV预测算法从开发到上线,浅谈基于奇点云DataSimba的MLOps实践

Geek_2d6073

【慢SQL性能优化】 一条SQL的生命周期 | 京东物流技术团队

京东科技开发者

MySQL 数据库 SQL优化 企业号11月PK榜

软件测试/测试开发丨接口测试Mock实战练习学习笔记

测试人

软件测试 接口测试 Mock

孵化Web3区块链技术系统开发

l8l259l3365

大模型集体失控!南洋理工新型攻击,主流AI无一幸免

Openlab_cosmoplat

人工智能 大模型

前端计算数字精度丢失问题解决方法记录 | 京东云技术团队

京东科技开发者

前端 企业号11月PK榜 数字精度

一种简化操作日志记录方案 | 京东云技术团队

京东科技开发者

日志 系统 日志记录 企业号11月PK榜

软件测试/测试开发丨探索Python魔力:第一个程序到快捷键大揭秘

测试人

Python 软件测试

大模型产业生态有“成功密码”?百度高管2023进博会最新发声

飞桨PaddlePaddle

深度学习 产业生态 大模型

高性价比AWS Lambda无服务体验

查拉图斯特拉说

Lambda 亚马逊云科技 Amazon Lambda

DxO PureRAW for mac(raw照片智能处理工具) 3.7.0激活直装版

mac

windows 苹果mac DxO PureRAW raw智能照片处理工具

搜狐基金使用 MySQL 遇到瓶颈?来看 TDengine 如何解决难题

TDengine

tdengine 时序数据库 搜狐基金

向成本要效益!用友BIP助力车企突破内卷、打赢“降本战”

用友BIP

降本增效

YonGPT构筑酒旅企业AI大脑 轻松拿捏“松弛感”

用友BIP

AI YonGPT

Stable Diffusion:最先进的文本生成图像模型

3D建模设计

人工智能 Stable Diffusion 稳定扩散 自动纹理

软件研发流程、架构规范、技术标准、需求过程等全文档

代码人,代码魂

开发文档

文件传输|如何将100多G文件跨国安全传输到客户手里呢?

镭速

跨国文件传输

一文了解亚马逊云科技最新大语言模型

苏沐

大模型 亚马逊 亚马逊云科技 向量数据库

有效降低数据库存储成本方案与实践 | 京东云技术团队

京东科技开发者

数据库 存储 数据存储 降本 企业号11月PK榜

可测性,到底是什么?

老张

质量保障 质量门禁

入门指导:NGINX 中的 QUIC 网络连接和加密

NGINX开源社区

DNS DDoS QUIC nginx 开源版 HTTP/3

企业如何选型iPaaS平台

RestCloud

ipaas

沉浸式LED显示屏的定义和特点

Dylan

LED显示屏 沉浸式体验 沉浸式

支持企业微信集成和登录!镭速传输新版本带来多项升级

镭速

镭速

快速教程|如何在 AWS EC2上使用 Walrus 部署 GitLab

SEAL安全

#GitLab Walrus 企业号11月PK榜

为什么说数据安全运维难?有好用的数据安全运维平台吗?

行云管家

数字化 数据安全 数据运维 数据运维安全

关于稳定扩散最详细的介绍

3D建模设计

人工智能 Stable Diffusion AI自动纹理 稳定扩散

四个问题搞懂银行数据团队如何打造数据体系_银行_高玉娴_InfoQ精选文章