【FCon上海】与行业领袖共话AI大模型、数字化风控等前沿技术。 了解详情
写点什么

贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频

  • 2019-05-17
  • 本文字数:2309 字

    阅读完需:约 8 分钟

贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

贝壳找房的用户策略团队如何从 0 到 1 构建贝壳用户画像体系?


在用户找房的场景下,影响用户购房意愿的因素较多,用户决策周期较长,贝壳作为一家居住服务平台,需要能精准挖掘用户需求,预知用户决策,才能帮助提升用户找房体验,基于此,贝壳找房的用户策略团队从 0 到 1 构建了贝壳的用户画像体系。


InfoQ 记者有幸在QCon 2019 全球软件开发大会上,采访到了贝壳找房用户策略部负责人郭凯,由他亲自讲解画像体系构建过程中的思考。


以下是视频采访的全部内容,为方便读者查看,视频下方也附上了文字内容。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    InfoQ:非常感谢您参加 QCon 2019 的视频采访,首先请您做一下简单的自我介绍,包括您的工作经历和学习经历。


    郭凯:我于 2010 年硕士毕业于哈尔滨工业大学,在 2018 年的 5 月份加入贝壳找房,目前担任数据智能中心用户策略部负责人。在加入贝壳之前,曾先后就职于搜狗和阿里妈妈从事广告策略相关的工作。


    InfoQ:基于什么样的背景,贝壳找房决定构建用户画像系统?主要用于解决什么样的问题?


    郭凯:贝壳找房是 2018 年 4 月新上线的居住平台,在找房场景下,用户决策周期很长,从线上开始看房到最终线下成交平均需要 200 多天。在这样长的决策周期里,平台需要全方位了解用户,才能更好的服务用户,这就需要我们挖掘用户行为,刻画用户需求。


    InfoQ:您可以简单介绍一下机器学习在贝壳用户画像上的应用?关键技术以及面临的挑战分别是什么?


    郭凯:在贝壳的用户画像体系中,刻画用户的标签可以分为三类:事实性标签、挖掘性标签和预测性标签,机器学习在挖掘性标签和预测性标签里都有非常广泛的应用,比如预测用户的线上留存/流失、线下带看和签约,挖掘用户工作地/居住地等等。面对这么多的维度,首先需要设计一套高可复用的模型框架,包括样本抽取、特征设计、效果评估、数据可视化分析等。在统一的框架下针对每一个具体的 Target,我们需要结合实际业务场景在特征设计上做较多的探索。


    另外,数据是所有机器学习模型的基础,贝壳作为一家成立刚满一年的互联网公司,在数据的埋点采集上还有一些需要完善的地方,对模型的效果分析和优化会产生一定影响。


    InfoQ:通过应用人工智能部分技术,目前的准确率大概是多少?


    郭凯:需要分目标来看,不同目标上差异较大,比如在预测用户留存/流失上,准确率可以达到 90%,在挖掘用户工作地和居住地上,准确率在 70%左右。


    InfoQ:在机器学习的模型选型,特征设计和效果评估等各阶段分别遇到了什么样的难点,又是如何解决呢?


    郭凯:最近几年深度学习的应用非常广泛,在广告、推荐和搜索领域都相对传统机器学习方法取得了更好的效果,起初我们也在想要不要直接上深度学习,经过一番考虑之后决定先以传统机器学习模型开始,主要基于以下三点:


    1、深度学习需要更多的调参优化,每一轮的训练时间较长,迭代的时间成本很大;


    2、学习过程需要大量的数据样本,在我们的一些线下场景里数据量不是那么的大,深度学习模型的 variance 可能会比较大;


    3、深度学习的最优化求解过程需要进行大量的计算,对硬件要求较高,在一个新的业务场景还没有验证效果增量的时候,投入过大的硬件成本有较大风险。基于以上几点考量,我们决定先采用传统的机器学习模型快速迭代,目前采用的是 XGBoost+LR,也取得了不错的效果。其实任何一个场景里,模型迭代都是由简到繁的过程,适合自己的才是最好的。


    在数据抽取上,居住这个领域比较特殊的是线下行为比例比较重,并且线下的行为也更加重要,需要将用户线上线下数据打通。在传统机器学习模型中,特征设计是非常重要的一环,为了高效支持特征的迭代,这个模块需要设计的足够灵活来支持任意特征的组合。


    InfoQ:未来是否考虑向深度学习方向迁移?


    郭凯:会的,深度学习是趋势,我们会结合数据赋能的场景,优先针对在更多场景下得到应用的数据维度向深度学习迁移,不断拓展技术边界。


    InfoQ:整个过程用到了哪些开源技术?


    郭凯:传统机器学习模型在工业届已经应用很多年有比较成熟的应用体系了,很多的技术工具都不需要重复造轮子,可以借用开源的技术来实现,算法工程师将更多的精力放在效果调优上。在我们的框架里 XGBoost 和 LR 都是使用的开源工具。


    InfoQ:方便介绍一下如何通过数据分析更好的调优模型,包括模型调优的重要性主要体现在哪些方面?


    郭凯:模型调优是非常体现算法工程师的能力的环节,过程中需要结合数据上的 badcase 深入到模型内部去分析。以决策数模型为例,需要根据决策树的生成过程、根据节点分裂的逻辑来分析产生 badcase 的原因,进而寻找优化方案,这是一个抽丝剥茧的过程。模型调优首先直接影响的就是效果,另外这个过程也会加深工程师对数据的认识、对模型的认识,对工程师的成长有很大帮助。


    InfoQ:目前,贝壳找房的用户画像系统在提高用户体验方面取得的效果如何?


    郭凯:用户画像在贝壳内的很多用户场景下都有应用,比如营销上的新客获取和老客唤醒,消息 Push 和短信分发,站内的搜索和推荐,以及面向经纪人端的一些产品上,都取得了不错的效果,比如提升推荐点击率 20%以上,降低老客唤醒成本近 30%。除了已经取得的效果,我们会继续提升刻画用户的能力,致力于给用户带来更好的服务体验。


    InfoQ:接下来,整个贝壳找房用户画像系统的改进方向,主要会用到哪些技术包括面临的挑战?


    郭凯:对用户画像系统而言,数据是基础,算法模型是方法,接下来的改进也是围绕这两方面。数据上将继续拓展数据源,比如用户和经纪人的交互数据、用户在线下门店的访问数据、用户在 VR 场景下的轨迹数据等,这里面数据的采集、数据的转换和融合都是我们要去解决的问题。算法模型上会从传统机器学习向深度学习模型升级,在对工程师的数据认知以及对模型的理解和调优上都将面临更大的考验。


    公众号推荐:

    AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。

    2019-05-17 10:436994
    用户头像
    赵钰莹 InfoQ 主编

    发布了 880 篇内容, 共 619.5 次阅读, 收获喜欢 2674 次。

    关注

    评论 2 条评论

    发布
    用户头像
    感觉像面试呢?
    2019-05-28 18:40
    回复
    用户头像
    目前最热的技术不一定是最适合企业的,就好像本文的深度学习
    2019-05-17 13:57
    回复
    没有更多了
    发现更多内容

    过年前 再带大家卷一波Go高质量知识点

    王中阳Go

    Go golang go面试题 后端面试题

    零基础入门Vue之影分身之术——列表渲染&渲染原理浅析

    不在线第一只蜗牛

    Java Vue 前端 前端开发

    mac电脑音乐制作软件 Ableton Live 12 for mac中文激活

    影影绰绰一往直前

    Ableton Live 12下载 Ableton Live 12激活版 Ableton Live 12中文

    好“云”来!盘点春节与云计算息息相关的那些事儿

    Finovy Cloud

    云计算 云时代

    photoshop2024硬件要求

    Rose

    可视化代码编辑器Blocs for mac v5.2.1激活版下载

    影影绰绰一往直前

    如何定义“易用”?无代码/低代码开发平台能力探讨

    NocoBase

    开源 软件开发 低代码 低代码开发平台 无代码

    云原生安全DevSecOps思考

    薛猫

    云原生 k8s 安全 DevSecOps

    QSpace Pro for Mac v4.2.4 中文破解版 多窗格文件管理

    影影绰绰一往直前

    博客生成编辑器MWeb Pro for Mac v4.5.6中文激活版

    影影绰绰一往直前

    Ableton Live 12 for mac v12.0b26激活版 音乐制作工具

    iMac小白

    甲辰龙年,中国科技十大趋势

    脑极体

    科技趋势

    Dock栏快速启动程序uDock for Mac 激活版

    影影绰绰一往直前

    开源项目中的设计模式(一) - Alibaba Sentinel与责任链模式

    骑牛上青山

    Java 设计模式

    coconutBattery Plus for Mac 3.9.15 直装版 电池质量检测工具

    影影绰绰一往直前

    Axure RP 10中文汉化版 交互式原型设计

    Rose

    将Excel转换为HTML:Easy Data Transform for mac

    Rose

    一行命令找出 Linux 中所有真实用户

    互联网工科生

    Linux

    「云原生可观测团队」获选「InfoQ 年度技术内容贡献奖」

    阿里巴巴云原生

    阿里云 云原生

    火山引擎ByteHouse:如何为OLAP设计高性能向量检索能力?

    字节跳动数据平台

    数据库 大数据

    文本管理软件 FSNotes for mac v6.6.7中文版

    影影绰绰一往直前

    VMware Fusion Pro 13(VM虚拟机)中文破解版安装教程

    Rose

    Final Cut Pro 中文基础教程:多机位剪辑

    Rose

    5 款轻松上手的开源项目

    EquatorCoco

    开源 项目开发

    BetterDisplay Pro Mac v2.0.11激活版 显示器管理工具

    影影绰绰一往直前

    Blocs for mac:可视化Web设计,全新的方法来构建现代化、高质量的静态网站

    Rose

    microsoft 365永久激活密钥

    Rose

    开发者集结令丨Farris-Vue前端组件创新挑战赛开赛啦!

    inBuilder低代码平台

    前端 低代码 开发

    告别 GPU 焦虑,玩转极致性价比的 CPU 文生图

    阿里巴巴云原生

    阿里云 Kubernetes 云原生

    数据库管理软件 DBeaverUE for Mac v23.3.4旗舰激活版

    影影绰绰一往直前

    前端开发CSS实用的技巧有哪些

    小魏写代码

    贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频_AI&大模型_赵钰莹_InfoQ精选文章