阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频

  • 2019-05-17
  • 本文字数:2309 字

    阅读完需:约 8 分钟

贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频

贝壳找房的用户策略团队如何从 0 到 1 构建贝壳用户画像体系?


在用户找房的场景下,影响用户购房意愿的因素较多,用户决策周期较长,贝壳作为一家居住服务平台,需要能精准挖掘用户需求,预知用户决策,才能帮助提升用户找房体验,基于此,贝壳找房的用户策略团队从 0 到 1 构建了贝壳的用户画像体系。


InfoQ 记者有幸在QCon 2019 全球软件开发大会上,采访到了贝壳找房用户策略部负责人郭凯,由他亲自讲解画像体系构建过程中的思考。


以下是视频采访的全部内容,为方便读者查看,视频下方也附上了文字内容。


00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    InfoQ:非常感谢您参加 QCon 2019 的视频采访,首先请您做一下简单的自我介绍,包括您的工作经历和学习经历。


    郭凯:我于 2010 年硕士毕业于哈尔滨工业大学,在 2018 年的 5 月份加入贝壳找房,目前担任数据智能中心用户策略部负责人。在加入贝壳之前,曾先后就职于搜狗和阿里妈妈从事广告策略相关的工作。


    InfoQ:基于什么样的背景,贝壳找房决定构建用户画像系统?主要用于解决什么样的问题?


    郭凯:贝壳找房是 2018 年 4 月新上线的居住平台,在找房场景下,用户决策周期很长,从线上开始看房到最终线下成交平均需要 200 多天。在这样长的决策周期里,平台需要全方位了解用户,才能更好的服务用户,这就需要我们挖掘用户行为,刻画用户需求。


    InfoQ:您可以简单介绍一下机器学习在贝壳用户画像上的应用?关键技术以及面临的挑战分别是什么?


    郭凯:在贝壳的用户画像体系中,刻画用户的标签可以分为三类:事实性标签、挖掘性标签和预测性标签,机器学习在挖掘性标签和预测性标签里都有非常广泛的应用,比如预测用户的线上留存/流失、线下带看和签约,挖掘用户工作地/居住地等等。面对这么多的维度,首先需要设计一套高可复用的模型框架,包括样本抽取、特征设计、效果评估、数据可视化分析等。在统一的框架下针对每一个具体的 Target,我们需要结合实际业务场景在特征设计上做较多的探索。


    另外,数据是所有机器学习模型的基础,贝壳作为一家成立刚满一年的互联网公司,在数据的埋点采集上还有一些需要完善的地方,对模型的效果分析和优化会产生一定影响。


    InfoQ:通过应用人工智能部分技术,目前的准确率大概是多少?


    郭凯:需要分目标来看,不同目标上差异较大,比如在预测用户留存/流失上,准确率可以达到 90%,在挖掘用户工作地和居住地上,准确率在 70%左右。


    InfoQ:在机器学习的模型选型,特征设计和效果评估等各阶段分别遇到了什么样的难点,又是如何解决呢?


    郭凯:最近几年深度学习的应用非常广泛,在广告、推荐和搜索领域都相对传统机器学习方法取得了更好的效果,起初我们也在想要不要直接上深度学习,经过一番考虑之后决定先以传统机器学习模型开始,主要基于以下三点:


    1、深度学习需要更多的调参优化,每一轮的训练时间较长,迭代的时间成本很大;


    2、学习过程需要大量的数据样本,在我们的一些线下场景里数据量不是那么的大,深度学习模型的 variance 可能会比较大;


    3、深度学习的最优化求解过程需要进行大量的计算,对硬件要求较高,在一个新的业务场景还没有验证效果增量的时候,投入过大的硬件成本有较大风险。基于以上几点考量,我们决定先采用传统的机器学习模型快速迭代,目前采用的是 XGBoost+LR,也取得了不错的效果。其实任何一个场景里,模型迭代都是由简到繁的过程,适合自己的才是最好的。


    在数据抽取上,居住这个领域比较特殊的是线下行为比例比较重,并且线下的行为也更加重要,需要将用户线上线下数据打通。在传统机器学习模型中,特征设计是非常重要的一环,为了高效支持特征的迭代,这个模块需要设计的足够灵活来支持任意特征的组合。


    InfoQ:未来是否考虑向深度学习方向迁移?


    郭凯:会的,深度学习是趋势,我们会结合数据赋能的场景,优先针对在更多场景下得到应用的数据维度向深度学习迁移,不断拓展技术边界。


    InfoQ:整个过程用到了哪些开源技术?


    郭凯:传统机器学习模型在工业届已经应用很多年有比较成熟的应用体系了,很多的技术工具都不需要重复造轮子,可以借用开源的技术来实现,算法工程师将更多的精力放在效果调优上。在我们的框架里 XGBoost 和 LR 都是使用的开源工具。


    InfoQ:方便介绍一下如何通过数据分析更好的调优模型,包括模型调优的重要性主要体现在哪些方面?


    郭凯:模型调优是非常体现算法工程师的能力的环节,过程中需要结合数据上的 badcase 深入到模型内部去分析。以决策数模型为例,需要根据决策树的生成过程、根据节点分裂的逻辑来分析产生 badcase 的原因,进而寻找优化方案,这是一个抽丝剥茧的过程。模型调优首先直接影响的就是效果,另外这个过程也会加深工程师对数据的认识、对模型的认识,对工程师的成长有很大帮助。


    InfoQ:目前,贝壳找房的用户画像系统在提高用户体验方面取得的效果如何?


    郭凯:用户画像在贝壳内的很多用户场景下都有应用,比如营销上的新客获取和老客唤醒,消息 Push 和短信分发,站内的搜索和推荐,以及面向经纪人端的一些产品上,都取得了不错的效果,比如提升推荐点击率 20%以上,降低老客唤醒成本近 30%。除了已经取得的效果,我们会继续提升刻画用户的能力,致力于给用户带来更好的服务体验。


    InfoQ:接下来,整个贝壳找房用户画像系统的改进方向,主要会用到哪些技术包括面临的挑战?


    郭凯:对用户画像系统而言,数据是基础,算法模型是方法,接下来的改进也是围绕这两方面。数据上将继续拓展数据源,比如用户和经纪人的交互数据、用户在线下门店的访问数据、用户在 VR 场景下的轨迹数据等,这里面数据的采集、数据的转换和融合都是我们要去解决的问题。算法模型上会从传统机器学习向深度学习模型升级,在对工程师的数据认知以及对模型的理解和调优上都将面临更大的考验。


    公众号推荐:

    跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

    2019-05-17 10:436896
    用户头像
    赵钰莹 InfoQ 主编

    发布了 874 篇内容, 共 605.0 次阅读, 收获喜欢 2671 次。

    关注

    评论 2 条评论

    发布
    用户头像
    感觉像面试呢?
    2019-05-28 18:40
    回复
    用户头像
    目前最热的技术不一定是最适合企业的,就好像本文的深度学习
    2019-05-17 13:57
    回复
    没有更多了
    发现更多内容
    贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频_AI&大模型_赵钰莹_InfoQ精选文章