【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频

  • 2019-05-17
  • 本文字数:2309 字

    阅读完需:约 8 分钟

贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频

贝壳找房的用户策略团队如何从 0 到 1 构建贝壳用户画像体系?


在用户找房的场景下,影响用户购房意愿的因素较多,用户决策周期较长,贝壳作为一家居住服务平台,需要能精准挖掘用户需求,预知用户决策,才能帮助提升用户找房体验,基于此,贝壳找房的用户策略团队从 0 到 1 构建了贝壳的用户画像体系。


InfoQ 记者有幸在QCon 2019 全球软件开发大会上,采访到了贝壳找房用户策略部负责人郭凯,由他亲自讲解画像体系构建过程中的思考。


以下是视频采访的全部内容,为方便读者查看,视频下方也附上了文字内容。


00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    InfoQ:非常感谢您参加 QCon 2019 的视频采访,首先请您做一下简单的自我介绍,包括您的工作经历和学习经历。


    郭凯:我于 2010 年硕士毕业于哈尔滨工业大学,在 2018 年的 5 月份加入贝壳找房,目前担任数据智能中心用户策略部负责人。在加入贝壳之前,曾先后就职于搜狗和阿里妈妈从事广告策略相关的工作。


    InfoQ:基于什么样的背景,贝壳找房决定构建用户画像系统?主要用于解决什么样的问题?


    郭凯:贝壳找房是 2018 年 4 月新上线的居住平台,在找房场景下,用户决策周期很长,从线上开始看房到最终线下成交平均需要 200 多天。在这样长的决策周期里,平台需要全方位了解用户,才能更好的服务用户,这就需要我们挖掘用户行为,刻画用户需求。


    InfoQ:您可以简单介绍一下机器学习在贝壳用户画像上的应用?关键技术以及面临的挑战分别是什么?


    郭凯:在贝壳的用户画像体系中,刻画用户的标签可以分为三类:事实性标签、挖掘性标签和预测性标签,机器学习在挖掘性标签和预测性标签里都有非常广泛的应用,比如预测用户的线上留存/流失、线下带看和签约,挖掘用户工作地/居住地等等。面对这么多的维度,首先需要设计一套高可复用的模型框架,包括样本抽取、特征设计、效果评估、数据可视化分析等。在统一的框架下针对每一个具体的 Target,我们需要结合实际业务场景在特征设计上做较多的探索。


    另外,数据是所有机器学习模型的基础,贝壳作为一家成立刚满一年的互联网公司,在数据的埋点采集上还有一些需要完善的地方,对模型的效果分析和优化会产生一定影响。


    InfoQ:通过应用人工智能部分技术,目前的准确率大概是多少?


    郭凯:需要分目标来看,不同目标上差异较大,比如在预测用户留存/流失上,准确率可以达到 90%,在挖掘用户工作地和居住地上,准确率在 70%左右。


    InfoQ:在机器学习的模型选型,特征设计和效果评估等各阶段分别遇到了什么样的难点,又是如何解决呢?


    郭凯:最近几年深度学习的应用非常广泛,在广告、推荐和搜索领域都相对传统机器学习方法取得了更好的效果,起初我们也在想要不要直接上深度学习,经过一番考虑之后决定先以传统机器学习模型开始,主要基于以下三点:


    1、深度学习需要更多的调参优化,每一轮的训练时间较长,迭代的时间成本很大;


    2、学习过程需要大量的数据样本,在我们的一些线下场景里数据量不是那么的大,深度学习模型的 variance 可能会比较大;


    3、深度学习的最优化求解过程需要进行大量的计算,对硬件要求较高,在一个新的业务场景还没有验证效果增量的时候,投入过大的硬件成本有较大风险。基于以上几点考量,我们决定先采用传统的机器学习模型快速迭代,目前采用的是 XGBoost+LR,也取得了不错的效果。其实任何一个场景里,模型迭代都是由简到繁的过程,适合自己的才是最好的。


    在数据抽取上,居住这个领域比较特殊的是线下行为比例比较重,并且线下的行为也更加重要,需要将用户线上线下数据打通。在传统机器学习模型中,特征设计是非常重要的一环,为了高效支持特征的迭代,这个模块需要设计的足够灵活来支持任意特征的组合。


    InfoQ:未来是否考虑向深度学习方向迁移?


    郭凯:会的,深度学习是趋势,我们会结合数据赋能的场景,优先针对在更多场景下得到应用的数据维度向深度学习迁移,不断拓展技术边界。


    InfoQ:整个过程用到了哪些开源技术?


    郭凯:传统机器学习模型在工业届已经应用很多年有比较成熟的应用体系了,很多的技术工具都不需要重复造轮子,可以借用开源的技术来实现,算法工程师将更多的精力放在效果调优上。在我们的框架里 XGBoost 和 LR 都是使用的开源工具。


    InfoQ:方便介绍一下如何通过数据分析更好的调优模型,包括模型调优的重要性主要体现在哪些方面?


    郭凯:模型调优是非常体现算法工程师的能力的环节,过程中需要结合数据上的 badcase 深入到模型内部去分析。以决策数模型为例,需要根据决策树的生成过程、根据节点分裂的逻辑来分析产生 badcase 的原因,进而寻找优化方案,这是一个抽丝剥茧的过程。模型调优首先直接影响的就是效果,另外这个过程也会加深工程师对数据的认识、对模型的认识,对工程师的成长有很大帮助。


    InfoQ:目前,贝壳找房的用户画像系统在提高用户体验方面取得的效果如何?


    郭凯:用户画像在贝壳内的很多用户场景下都有应用,比如营销上的新客获取和老客唤醒,消息 Push 和短信分发,站内的搜索和推荐,以及面向经纪人端的一些产品上,都取得了不错的效果,比如提升推荐点击率 20%以上,降低老客唤醒成本近 30%。除了已经取得的效果,我们会继续提升刻画用户的能力,致力于给用户带来更好的服务体验。


    InfoQ:接下来,整个贝壳找房用户画像系统的改进方向,主要会用到哪些技术包括面临的挑战?


    郭凯:对用户画像系统而言,数据是基础,算法模型是方法,接下来的改进也是围绕这两方面。数据上将继续拓展数据源,比如用户和经纪人的交互数据、用户在线下门店的访问数据、用户在 VR 场景下的轨迹数据等,这里面数据的采集、数据的转换和融合都是我们要去解决的问题。算法模型上会从传统机器学习向深度学习模型升级,在对工程师的数据认知以及对模型的理解和调优上都将面临更大的考验。


    公众号推荐:

    跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

    2019-05-17 10:436910
    用户头像
    赵钰莹 InfoQ 主编

    发布了 875 篇内容, 共 606.4 次阅读, 收获喜欢 2671 次。

    关注

    评论 2 条评论

    发布
    用户头像
    感觉像面试呢?
    2019-05-28 18:40
    回复
    用户头像
    目前最热的技术不一定是最适合企业的,就好像本文的深度学习
    2019-05-17 13:57
    回复
    没有更多了
    发现更多内容

    Difference between from DR4019 and DR4029 /industrial wifi5 router/support openwrt.

    Cindy-wallys

    IPQ4019 ipq4029

    MatrixGate 5.0 性能再升级,加载速度提升三倍!

    YMatrix 超融合数据库

    数据库 开源数据库 超融合数据库

    2023升级版Java面试八股文核心笔记,7天内拿下那该死的offer

    开心学Java

    Java 面试 java面试 Java八股文

    小微企业运维用哪款软件好?有免费的吗?

    行云管家

    运维 安全运维 小微企业

    什么是声明式编程

    canonical

    函数式 声明式 命令式

    程序员之间拉开差距最大的因素

    博文视点Broadview

    【直播回顾】AIGC产业研究报告2023图像生成篇报告解读

    易观分析

    产业 智能

    阿里大佬在Github分享的Spring Cloud全栈笔记,你想象不到有多全

    做梦都在改BUG

    Java 架构 微服务 Spring Cloud

    Github上标星98K!火爆全网的性能调优实战手册,出自腾讯T4大佬

    做梦都在改BUG

    Java 性能优化 性能调优

    从可逆计算看Delta Oriented Programming

    canonical

    开源 低代码 软件产品线工程 可变性管理 可逆计算

    低代码平台需要什么样的ORM引擎?(2)

    canonical

    开源 mybatis 低代码 jpa ORM

    低代码平台需要什么样的ORM引擎?(1)

    canonical

    开源 低代码 ORM 低代码平台 Spring JPA

    手把手教你用代码画架构图 | 京东云技术团队

    京东科技开发者

    京东云 代码实现 企业号 5 月 PK 榜 C4

    我以为我对Mysql很熟,直到遇到了阿里这份笔记

    做梦都在改BUG

    Java MySQL 数据库

    从可逆计算看声明式编程

    canonical

    开源 低代码 声明式 命令式

    NLP 入门导论

    小付聊测试

    AI 入门 nlp

    深入理解 synchronized 的锁升级

    做梦都在改BUG

    Java synchronized 锁升级

    Wallys / QCN9074/QCN9024 WIFI 6E 802.11AX 4X4 6GHz wifi module.

    Cindy-wallys

    前端开发之函数式编程实践 | 京东云技术团队

    京东科技开发者

    JavaScript 编程 京东云 企业号 5 月 PK 榜

    解耦远不止依赖注入

    canonical

    架构设计 解耦 依赖注入

    架构师日记-从数据库发展历程到数据结构设计探析 | 京东云技术团队

    京东科技开发者

    数据库 京东云 企业号 5 月 PK 榜

    玩转服务器之环境篇:PHP和Python环境部署指南 | 京东云技术团队

    京东科技开发者

    php Python 京东云 企业号 5 月 PK 榜 轻量云服务器

    【保姆级教程】如何用Rust编写一个ChatGPT桌面应用 | 京东云技术团队

    京东科技开发者

    rust 京东云 桌面应用 企业号 5 月 PK 榜

    时序数据库中的乱序问题-写不动的老程序员带你解读

    Greptime 格睿科技

    云原生 时序数据库 国产时序数据库 乱序数据

    华为数据中心产业论坛 | 打造低碳、绿色数据中心,构建新型数字产业能源基础设施

    Geek_2d6073

    软件测试 | SQLite管理工具

    测吧(北京)科技有限公司

    测试

    企业应该知道的几种网络安全防护措施!

    行云管家

    网络安全 网络 信息

    华为云云原生视窗:一文回顾Q1精彩瞬间

    华为云开发者联盟

    云原生 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

    碉堡了!阿里架构师手打的Java10W字面经,已经助我拿了6个offer

    做梦都在改BUG

    Java java面试 Java八股文 Java面试题 Java面试八股文

    背靠香港影视集团星光文化,StarNFT问世了

    小哈区块

    分库分表的 21 条法则,hold 住!

    小小怪下士

    Java MySQL 程序员 分库分表

    贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频_AI&大模型_赵钰莹_InfoQ精选文章