阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频

  • 2019-05-17
  • 本文字数:2309 字

    阅读完需:约 8 分钟

贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频

贝壳找房的用户策略团队如何从 0 到 1 构建贝壳用户画像体系?


在用户找房的场景下,影响用户购房意愿的因素较多,用户决策周期较长,贝壳作为一家居住服务平台,需要能精准挖掘用户需求,预知用户决策,才能帮助提升用户找房体验,基于此,贝壳找房的用户策略团队从 0 到 1 构建了贝壳的用户画像体系。


InfoQ 记者有幸在QCon 2019 全球软件开发大会上,采访到了贝壳找房用户策略部负责人郭凯,由他亲自讲解画像体系构建过程中的思考。


以下是视频采访的全部内容,为方便读者查看,视频下方也附上了文字内容。


00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    InfoQ:非常感谢您参加 QCon 2019 的视频采访,首先请您做一下简单的自我介绍,包括您的工作经历和学习经历。


    郭凯:我于 2010 年硕士毕业于哈尔滨工业大学,在 2018 年的 5 月份加入贝壳找房,目前担任数据智能中心用户策略部负责人。在加入贝壳之前,曾先后就职于搜狗和阿里妈妈从事广告策略相关的工作。


    InfoQ:基于什么样的背景,贝壳找房决定构建用户画像系统?主要用于解决什么样的问题?


    郭凯:贝壳找房是 2018 年 4 月新上线的居住平台,在找房场景下,用户决策周期很长,从线上开始看房到最终线下成交平均需要 200 多天。在这样长的决策周期里,平台需要全方位了解用户,才能更好的服务用户,这就需要我们挖掘用户行为,刻画用户需求。


    InfoQ:您可以简单介绍一下机器学习在贝壳用户画像上的应用?关键技术以及面临的挑战分别是什么?


    郭凯:在贝壳的用户画像体系中,刻画用户的标签可以分为三类:事实性标签、挖掘性标签和预测性标签,机器学习在挖掘性标签和预测性标签里都有非常广泛的应用,比如预测用户的线上留存/流失、线下带看和签约,挖掘用户工作地/居住地等等。面对这么多的维度,首先需要设计一套高可复用的模型框架,包括样本抽取、特征设计、效果评估、数据可视化分析等。在统一的框架下针对每一个具体的 Target,我们需要结合实际业务场景在特征设计上做较多的探索。


    另外,数据是所有机器学习模型的基础,贝壳作为一家成立刚满一年的互联网公司,在数据的埋点采集上还有一些需要完善的地方,对模型的效果分析和优化会产生一定影响。


    InfoQ:通过应用人工智能部分技术,目前的准确率大概是多少?


    郭凯:需要分目标来看,不同目标上差异较大,比如在预测用户留存/流失上,准确率可以达到 90%,在挖掘用户工作地和居住地上,准确率在 70%左右。


    InfoQ:在机器学习的模型选型,特征设计和效果评估等各阶段分别遇到了什么样的难点,又是如何解决呢?


    郭凯:最近几年深度学习的应用非常广泛,在广告、推荐和搜索领域都相对传统机器学习方法取得了更好的效果,起初我们也在想要不要直接上深度学习,经过一番考虑之后决定先以传统机器学习模型开始,主要基于以下三点:


    1、深度学习需要更多的调参优化,每一轮的训练时间较长,迭代的时间成本很大;


    2、学习过程需要大量的数据样本,在我们的一些线下场景里数据量不是那么的大,深度学习模型的 variance 可能会比较大;


    3、深度学习的最优化求解过程需要进行大量的计算,对硬件要求较高,在一个新的业务场景还没有验证效果增量的时候,投入过大的硬件成本有较大风险。基于以上几点考量,我们决定先采用传统的机器学习模型快速迭代,目前采用的是 XGBoost+LR,也取得了不错的效果。其实任何一个场景里,模型迭代都是由简到繁的过程,适合自己的才是最好的。


    在数据抽取上,居住这个领域比较特殊的是线下行为比例比较重,并且线下的行为也更加重要,需要将用户线上线下数据打通。在传统机器学习模型中,特征设计是非常重要的一环,为了高效支持特征的迭代,这个模块需要设计的足够灵活来支持任意特征的组合。


    InfoQ:未来是否考虑向深度学习方向迁移?


    郭凯:会的,深度学习是趋势,我们会结合数据赋能的场景,优先针对在更多场景下得到应用的数据维度向深度学习迁移,不断拓展技术边界。


    InfoQ:整个过程用到了哪些开源技术?


    郭凯:传统机器学习模型在工业届已经应用很多年有比较成熟的应用体系了,很多的技术工具都不需要重复造轮子,可以借用开源的技术来实现,算法工程师将更多的精力放在效果调优上。在我们的框架里 XGBoost 和 LR 都是使用的开源工具。


    InfoQ:方便介绍一下如何通过数据分析更好的调优模型,包括模型调优的重要性主要体现在哪些方面?


    郭凯:模型调优是非常体现算法工程师的能力的环节,过程中需要结合数据上的 badcase 深入到模型内部去分析。以决策数模型为例,需要根据决策树的生成过程、根据节点分裂的逻辑来分析产生 badcase 的原因,进而寻找优化方案,这是一个抽丝剥茧的过程。模型调优首先直接影响的就是效果,另外这个过程也会加深工程师对数据的认识、对模型的认识,对工程师的成长有很大帮助。


    InfoQ:目前,贝壳找房的用户画像系统在提高用户体验方面取得的效果如何?


    郭凯:用户画像在贝壳内的很多用户场景下都有应用,比如营销上的新客获取和老客唤醒,消息 Push 和短信分发,站内的搜索和推荐,以及面向经纪人端的一些产品上,都取得了不错的效果,比如提升推荐点击率 20%以上,降低老客唤醒成本近 30%。除了已经取得的效果,我们会继续提升刻画用户的能力,致力于给用户带来更好的服务体验。


    InfoQ:接下来,整个贝壳找房用户画像系统的改进方向,主要会用到哪些技术包括面临的挑战?


    郭凯:对用户画像系统而言,数据是基础,算法模型是方法,接下来的改进也是围绕这两方面。数据上将继续拓展数据源,比如用户和经纪人的交互数据、用户在线下门店的访问数据、用户在 VR 场景下的轨迹数据等,这里面数据的采集、数据的转换和融合都是我们要去解决的问题。算法模型上会从传统机器学习向深度学习模型升级,在对工程师的数据认知以及对模型的理解和调优上都将面临更大的考验。


    公众号推荐:

    2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

    AI 前线公众号
    2019-05-17 10:436885
    用户头像
    赵钰莹 InfoQ 主编

    发布了 874 篇内容, 共 604.2 次阅读, 收获喜欢 2671 次。

    关注

    评论 2 条评论

    发布
    用户头像
    感觉像面试呢?
    2019-05-28 18:40
    回复
    用户头像
    目前最热的技术不一定是最适合企业的,就好像本文的深度学习
    2019-05-17 13:57
    回复
    没有更多了
    发现更多内容

    事务是如何影响你的系统(二)

    卢卡多多

    11月日更

    天高任鸟飞,在你还苦闷Android出路时,总有人在系统钻研为高级开发做准备

    android 程序员 移动开发

    好不容易撑过了腾讯三面!却因为虚报工资被刷了,挥泪整理面经

    android 程序员 移动开发

    好文推荐:RxHttp-完美适配Android-10-11-上传-下载-进度监听

    android 程序员 移动开发

    如何在-Android-中完成一个-APT-项目的开发?,android文件下载实战

    android 程序员 移动开发

    在-View-上使用挂起函数,app开发面试题及答案

    android 程序员 移动开发

    基本功---Litho的使用及原理剖析,10年阿里开发架构师经验分享

    android 程序员 移动开发

    备战秋招-阿里巴巴面试真题:-给你一个Demo-你如何快速定位ANR?

    android 程序员 移动开发

    头条Android 岗年薪45W+面经分享(技术 6面,Android开发者值得深入思考的几个问题

    android 程序员 移动开发

    在中国程序员是青春饭吗?,android开发基础入门教程

    android 程序员 移动开发

    在线等!阿里、百度一面就惨遭吊打,kotlin语言书籍

    android 程序员 移动开发

    备战金九银十:Android面试10+个知识点总结宝典助你通关

    android 程序员 移动开发

    坊间传言:程序员可以先在大厂镀金,以后去中小厂毫无压力

    android 程序员 移动开发

    如何在复杂业务场景中优雅实现Android指纹验证?,rust移动端跨平台开发

    android 程序员 移动开发

    大厂一步到位:Android-基础+Android高级,android物联网开发从入门到实战

    android 程序员 移动开发

    大牛耗时一年:深入探索-Android-包体积优化,共三万字建议收藏上

    android 程序员 移动开发

    “神算子”上线!EasyDL时序预测模型零门槛轻松上手

    百度大脑

    人工智能 百度

    在Android项目中接入Flutter,在Flutter使用安卓布局---草稿

    android 程序员 移动开发

    备战阿里面试一年半顺利通过二面,面对突如其来的疫情,让我的阿里三面搁浅ing

    android 程序员 移动开发

    大学毕业做音视频开发,月入20K,你呢,kotlin协程面试

    android 程序员 移动开发

    大神一招搞定:ReentrantReadWriteLock-几道小小数学题就够了。

    android 程序员 移动开发

    [ CloudWeGo 微服务实践 - 番外 ] Go 代码静态检查

    baiyutang

    golang 11月日更

    大牛耗时一年:深入探索-Android-包体积优化,共三万字建议收藏上(1)

    android 程序员 移动开发

    太难为我这个应届生了,腾讯面试了8轮,终拿下腾讯Android测发岗offer

    android 程序员 移动开发

    Android线程思考

    轻口味

    android 多线程 11月日更

    基于Android的特征X射线谱识别系统的开发,android指纹识别

    android 程序员 移动开发

    大型Bat面试知识总结分享—AMS在Android起到什么作用?简单的分析下Android的源码

    android 程序员 移动开发

    太强了吧,这居然是19年双非本科开发一年的Android面经总结!开发几年的老程序员自叹不如

    android 程序员 移动开发

    大众点评App的短视频耗电量优化实战,通宵都要看完这个Android关键技术点

    android 程序员 移动开发

    大学计算机专业,什么水平可以进大厂?,解密Android开发常见误区

    android 程序员 移动开发

    太卷了!程序员面试前刷面经“神似,2021最新Android大厂面试真题大全

    android 程序员 移动开发

    贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频_AI&大模型_赵钰莹_InfoQ精选文章