【ArchSummit 】架构顶层设计视角梳理从0到1打造大模型体系的路径! 了解详情
写点什么

贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频

  • 2019-05-17
  • 本文字数:2309 字

    阅读完需:约 8 分钟

贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频

贝壳找房的用户策略团队如何从 0 到 1 构建贝壳用户画像体系?


在用户找房的场景下,影响用户购房意愿的因素较多,用户决策周期较长,贝壳作为一家居住服务平台,需要能精准挖掘用户需求,预知用户决策,才能帮助提升用户找房体验,基于此,贝壳找房的用户策略团队从 0 到 1 构建了贝壳的用户画像体系。


InfoQ 记者有幸在QCon 2019 全球软件开发大会上,采访到了贝壳找房用户策略部负责人郭凯,由他亲自讲解画像体系构建过程中的思考。


以下是视频采访的全部内容,为方便读者查看,视频下方也附上了文字内容。


00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    InfoQ:非常感谢您参加 QCon 2019 的视频采访,首先请您做一下简单的自我介绍,包括您的工作经历和学习经历。


    郭凯:我于 2010 年硕士毕业于哈尔滨工业大学,在 2018 年的 5 月份加入贝壳找房,目前担任数据智能中心用户策略部负责人。在加入贝壳之前,曾先后就职于搜狗和阿里妈妈从事广告策略相关的工作。


    InfoQ:基于什么样的背景,贝壳找房决定构建用户画像系统?主要用于解决什么样的问题?


    郭凯:贝壳找房是 2018 年 4 月新上线的居住平台,在找房场景下,用户决策周期很长,从线上开始看房到最终线下成交平均需要 200 多天。在这样长的决策周期里,平台需要全方位了解用户,才能更好的服务用户,这就需要我们挖掘用户行为,刻画用户需求。


    InfoQ:您可以简单介绍一下机器学习在贝壳用户画像上的应用?关键技术以及面临的挑战分别是什么?


    郭凯:在贝壳的用户画像体系中,刻画用户的标签可以分为三类:事实性标签、挖掘性标签和预测性标签,机器学习在挖掘性标签和预测性标签里都有非常广泛的应用,比如预测用户的线上留存/流失、线下带看和签约,挖掘用户工作地/居住地等等。面对这么多的维度,首先需要设计一套高可复用的模型框架,包括样本抽取、特征设计、效果评估、数据可视化分析等。在统一的框架下针对每一个具体的 Target,我们需要结合实际业务场景在特征设计上做较多的探索。


    另外,数据是所有机器学习模型的基础,贝壳作为一家成立刚满一年的互联网公司,在数据的埋点采集上还有一些需要完善的地方,对模型的效果分析和优化会产生一定影响。


    InfoQ:通过应用人工智能部分技术,目前的准确率大概是多少?


    郭凯:需要分目标来看,不同目标上差异较大,比如在预测用户留存/流失上,准确率可以达到 90%,在挖掘用户工作地和居住地上,准确率在 70%左右。


    InfoQ:在机器学习的模型选型,特征设计和效果评估等各阶段分别遇到了什么样的难点,又是如何解决呢?


    郭凯:最近几年深度学习的应用非常广泛,在广告、推荐和搜索领域都相对传统机器学习方法取得了更好的效果,起初我们也在想要不要直接上深度学习,经过一番考虑之后决定先以传统机器学习模型开始,主要基于以下三点:


    1、深度学习需要更多的调参优化,每一轮的训练时间较长,迭代的时间成本很大;


    2、学习过程需要大量的数据样本,在我们的一些线下场景里数据量不是那么的大,深度学习模型的 variance 可能会比较大;


    3、深度学习的最优化求解过程需要进行大量的计算,对硬件要求较高,在一个新的业务场景还没有验证效果增量的时候,投入过大的硬件成本有较大风险。基于以上几点考量,我们决定先采用传统的机器学习模型快速迭代,目前采用的是 XGBoost+LR,也取得了不错的效果。其实任何一个场景里,模型迭代都是由简到繁的过程,适合自己的才是最好的。


    在数据抽取上,居住这个领域比较特殊的是线下行为比例比较重,并且线下的行为也更加重要,需要将用户线上线下数据打通。在传统机器学习模型中,特征设计是非常重要的一环,为了高效支持特征的迭代,这个模块需要设计的足够灵活来支持任意特征的组合。


    InfoQ:未来是否考虑向深度学习方向迁移?


    郭凯:会的,深度学习是趋势,我们会结合数据赋能的场景,优先针对在更多场景下得到应用的数据维度向深度学习迁移,不断拓展技术边界。


    InfoQ:整个过程用到了哪些开源技术?


    郭凯:传统机器学习模型在工业届已经应用很多年有比较成熟的应用体系了,很多的技术工具都不需要重复造轮子,可以借用开源的技术来实现,算法工程师将更多的精力放在效果调优上。在我们的框架里 XGBoost 和 LR 都是使用的开源工具。


    InfoQ:方便介绍一下如何通过数据分析更好的调优模型,包括模型调优的重要性主要体现在哪些方面?


    郭凯:模型调优是非常体现算法工程师的能力的环节,过程中需要结合数据上的 badcase 深入到模型内部去分析。以决策数模型为例,需要根据决策树的生成过程、根据节点分裂的逻辑来分析产生 badcase 的原因,进而寻找优化方案,这是一个抽丝剥茧的过程。模型调优首先直接影响的就是效果,另外这个过程也会加深工程师对数据的认识、对模型的认识,对工程师的成长有很大帮助。


    InfoQ:目前,贝壳找房的用户画像系统在提高用户体验方面取得的效果如何?


    郭凯:用户画像在贝壳内的很多用户场景下都有应用,比如营销上的新客获取和老客唤醒,消息 Push 和短信分发,站内的搜索和推荐,以及面向经纪人端的一些产品上,都取得了不错的效果,比如提升推荐点击率 20%以上,降低老客唤醒成本近 30%。除了已经取得的效果,我们会继续提升刻画用户的能力,致力于给用户带来更好的服务体验。


    InfoQ:接下来,整个贝壳找房用户画像系统的改进方向,主要会用到哪些技术包括面临的挑战?


    郭凯:对用户画像系统而言,数据是基础,算法模型是方法,接下来的改进也是围绕这两方面。数据上将继续拓展数据源,比如用户和经纪人的交互数据、用户在线下门店的访问数据、用户在 VR 场景下的轨迹数据等,这里面数据的采集、数据的转换和融合都是我们要去解决的问题。算法模型上会从传统机器学习向深度学习模型升级,在对工程师的数据认知以及对模型的理解和调优上都将面临更大的考验。


    公众号推荐:

    跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

    2019-05-17 10:436956
    用户头像
    赵钰莹 InfoQ 主编

    发布了 879 篇内容, 共 613.0 次阅读, 收获喜欢 2674 次。

    关注

    评论 2 条评论

    发布
    用户头像
    感觉像面试呢?
    2019-05-28 18:40
    回复
    用户头像
    目前最热的技术不一定是最适合企业的,就好像本文的深度学习
    2019-05-17 13:57
    回复
    没有更多了
    发现更多内容

    2021年尾 Android 面试之必问高级知识点(包含答案),kotlin语法大全

    android 程序员 移动开发

    A010-menu资源,看完老板哭着让我留下来

    android 程序员 移动开发

    大势已来!!区块链的真正价值是什么

    CECBC

    面试阿里P6,过关斩将直通2面,结果3面找了个架构师来吊打我?

    Java spring 程序员 架构

    Andorid&Kotlin编译速度原理剖析(上),lambda表达式的作用与好处

    android 程序员 移动开发

    Andriod 网络框架 OkHttp 源码解析,总结一下

    android 程序员 移动开发

    Androdid Droid Fu介绍(1),万字Android技术类校招面试题汇总

    android 程序员 移动开发

    想要实现元宇宙,需要哪些技术支撑?

    行云创新

    技术 云原生 vr 云宇宙 虚拟

    Androdid Droid Fu介绍,flutter底部弹窗

    android 程序员 移动开发

    2021Android面经,历时一个半月,斩获3个大厂offer,阿里P8大佬整理

    android 程序员 移动开发

    2021牛转乾坤:新花样玩转Android组件化架构实践,15K-50K的详细Android学习指南

    android 程序员 移动开发

    Android 11 Beta 版正式发布!以及众多面向开发者的重磅更新

    android 程序员 移动开发

    2021疫情下Android技术人的宅家学习进阶指南!花了大价钱大厂内部买来的学习资料,爱看不看

    android 程序员 移动开发

    ajax分析 学习,kotlin构造器

    android 程序员 移动开发

    Activity的任务栈Task以及启动模式与Intent的Flag详解(经典博文,值得收藏

    android 程序员 移动开发

    知识中台与区块链助力多源可信数据价值释放

    CECBC

    ajax分析 学习(1),android0基础

    android 程序员 移动开发

    2021新鲜面经,蚂蚁内部转岗Android面试分享,深夜思考

    android 程序员 移动开发

    GitLab和Rainbond整合实现一体化开发环境

    北京好雨科技有限公司

    DevOps gitlab #GitLab gitlab hook rainbond

    分布式服务下,消息中间件改造

    kafka 架构 RocketMQ RabbitMQ 中间件

    Android - 在线浏览源码,电话短信相关,文本变化监听器

    android 程序员 移动开发

    Activity-的-36-大难点,你会几个?,android游戏开发实践指南

    android 程序员 移动开发

    巧用 Redis 数据结构实现亿级数据聚合统计

    码哥字节

    redis 数据统计 NoSQL 数据库 11月日更

    Andoird中LiveEventBus的使用——用LiveEventBus替代RxBus

    android 程序员 移动开发

    Android 12体验!新的黑夜模式、影音格式,详解系列文章

    android 程序员 移动开发

    2021京东 Android 岗 Java 面试真题解析,android平台架构的四个层次

    android 程序员 移动开发

    1.1 黑客与社会工程学

    sec01张云龙

    11月日更

    Activity的生命周期,这可能是目前最全的

    android 程序员 移动开发

    Anaconda详细安装及使用教程,阿里P8大牛亲自教你

    android 程序员 移动开发

    Android - 定位方式,火星坐标系统,一键锁屏,字节Android高工面试

    android 程序员 移动开发

    Android 3年外包工面试笔记,有机会还是要去大厂学习提升

    android 程序员 移动开发

    贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频_AI&大模型_赵钰莹_InfoQ精选文章