【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

大数据学院:技术大咖告诉你,为什么你做的用户画像模型不精准?

  • 2020-03-08
  • 本文字数:3822 字

    阅读完需:约 13 分钟

大数据学院:技术大咖告诉你,为什么你做的用户画像模型不精准?

对企业而言,得用户者得天下,能够有一套科学的精准营销、个性化推荐模型,无疑会促进业务的增长;对开发者而言,用户画像也是频繁被提及的技术,这样可以根据目标用户的动机和行为上进行产品设计,远远优于为脑中虚构的东西做设计。


用户画像的应用场景甚多,但即使是从事这方面研发的人,对其内部逻辑也是似是而非。大家都希望自己的用户画像模型更加精准,如何做到?这就要深入解剖,理解用户画像与标签的关系、根据何种理论建模更加有效?大数据时代,需要上帝的视角,有了科学的大数据思维方法和理论指导,才能在结合实际业务建模中游刃有余。

DT 时代要从比特流中理解人类行为

水有源木有本,之所以需要用户画像,是因为 DT 时代相较传统 IT 时代发生很大变化:DT 时代的数据是现实世界的虚拟化表现,数据本身构成了一个虚拟世界,这使得 IT 系统构建在虚拟系统上,也变得更加智能。


尤其表现在信息化建设、可穿戴设备、信息网络的发展,使全社会的信息化程度越来越高,越来越多的业务需要计算机应用,将设备和人连接在一起,用户与这些应用、设备交互中产生大量数据。


在这种社会科技发展趋势下,人与人沟通的方式发生了根本变革,这就导致“要学会从比特流中解读他人”,因此要构建用户画像;但数据这么大,人工显然无法应对,所以“还要教会机器从比特流中理解人类”,再在画像的基础上构建一些应用,比如个性化推荐、精准广告、金融征信等,进行机器与人的交互。

你真的理解用户画像是什么意思吗?给你深度解析

用户画像、标签、360 度用户视图等这些词经常被提起,但实际上连从事研发工作的人,对这些概念也不甚了解。要想搞清楚,还需要从理论层面解读。


用户画像从某种程度上说来源于对事物的描述,但每个人描述事物的方式和角度不一样,梳理共性,可将用户画像分为五个层次:


第一个是目标,目标都是为了描述人、认识人、了解人、理解人。这是用户画像最大的目标。


第二是描述的方式,分为非形式化(语音、文本、视频、图像……)和形式化(读卡器读取信息的形式)两种手段。

第三是组织方式,就是结构化和非结构化的组织方式,我们前面看到的球员数据它就是结构化的。

第四个就是用户画像标准,包括常识、共识、体系。这个很重要(比如说某个人特别二次元,这个词对方就可能听不懂,是因为双方对二次元这个词没有达成共识,所以必须有一套达成共识的知识体系,不然用户画像这件事是没有办法达到的。)

最后一个是验证,依据:事实、推理过程、检验。为什么一定要验证?举个例子,比如说某个人“特别不靠谱”,相当于打上标签,但会被反问为什么不靠谱、依据是什么?所以要提前验证,否则会丧失可信力。


据此,可以得出用户画像的定义:用户画像是对现实世界中用户的数学建模。



一方面,用户画像是描述用户的数据,是符合特定用户需求的对用户的形式化描述。从业务中抽象出来,可以形容为“来源于现实,高于现实”。另一方面,用户画像是一种模型,是通过分析挖掘用户尽可能多的数据信息得到的。对数据做抽象,可以形容为“来源于数据,高于数据”。反过来,根据这个模型,可以挖掘出更多用户画像。

如何构建用户画像?让机器根据一套知识体系理解人类

在 90 年代流行一种”本体论”方法,但非常复杂。所以重点来了,用户画像构建需要根据一套原则,在这里分享一套相对朴素的方法:



朴素的知识表现方法:符号-概念法。符号与概念是相对应的,比如,狗这个词是一个符号,但人们脑子中的概念是”四条腿、看家的、一个能汪汪叫的动物”。



朴素的用户特征表现方法:标签-模型法。标签的定义是用户特征的符号表现,模型定义是经验总结的用户特征。什么是标签?举例来说,比如”收入高、坐办公室” 这个群体可以打上白领这个标签;同时标签是跟业务场景绑定在一起的,脱离业务场景的符号没有明确的含义。比如在阿里内部,关于男女,这样最简单的标签,也有 12 个男和女,它与业务密切相关,不仅仅是指生理上的男和女,还包括在互联网喜欢买男性的商品或者女性的商品定义的男女等等。


那么,用户画像和标签有什么关系?其实二者是整体和局部的关系,用户画像是整体,标签是局部,而整体和局部的关系可以通过“标签体系”体现。



根据这个逻辑,可以得出,用户画像可以用标签的集合来表现,即“标签体系”方法,用户画像(整体)和标签(局部)还包含两方面的关系:化整为零,整体如何反映在局部;化零为整,局部如何组成整体。


举例来说:“人都有一双眼睛一个鼻子”,化整为零来看:应该观察到每个人都有一双眼睛和一个鼻子;化零为整:只有位置合适的一双眼睛和一个鼻子才被认为是一个人。


至于标签体系,因为标签是和业务密切相关的,对应的标签体系也要搜集所有业务方的需求,制定出标签体系后,给每一个标签标准进行定义,最后进行标签开发。


另外,在用户画像建模方面,可以将标签建模分为四层:第一层是事实类标签,譬如用户购物了什么品类;第二层是机器学习模型的预测标签,譬如当下需求、潜在需求等;第三层是营销模型类标签,譬如用户价值、活跃度和忠诚度等;第四层是业务类的标签,譬如高奢人群、有房一族等,它是由底层的标签组合生成的,通常由业务人员定义。



最后是验证,对模型的验证可以分成两个方面,一个是准确率的验证,标签打得准不准;第二个是标签打得全不全。但这两个方面没有办法同时满足的。现实业务中无法追求 100%完备的标签体系。不过,目前谈得最多的是准确率。其分为两种,一种是有事实标准的,譬如生理性别;另外一种是无事实标准的,譬如用户的忠诚度,只能验证过程,具体效果需要通过线上业务 A/B Test 进行验证。

构建用户画像的关键难题:需要上帝视角

要想精准构建用户画像还面临着许多技术难题,比如用户多渠道信息打通、多渠道的产品打通、实时采集用户数据,以及用户数据挖掘建模等方面。重点解读下用户多渠道信息打通和多渠道的产品打通两个关键问题。


首先是用户多渠道信息打通,大数据时代我们需要上帝视角。


因为用户与企业的触点非常多,譬如手机、邮箱、Cookie 等,要将同一个用户的多个触点进行打通。方法就是把用户 ID 视为图中的顶点,如果用户的两个触点在同一个场景出现(比如用邮箱登陆),那么就可以把在用户的邮箱和 Cookie 用一条边进行连接,从而构建一张图。



用户打通可以基于图例的方法进行强拉通,也可以采用机器学习方法进行模糊拉通,预测出拉通的概率。




除了用户打通,不同渠道的产品也需要拉通,可采用标签体系拉通方法:建立一套标准的分类标签体系,比如一颗分类树,任何商品都能划分到这个分类树的叶子节点。根据百分点的实践经验,手工映射的方法成本高、难以大规模开展,实际工作中会采用机器学习模型+少量的人工规则来实现。


但要实现自动分类,其中难点不在于模型,而在于获得训练数据、feature engineering,以及分类树层级节点之间的依赖问题。

用户画像应用,是业务和技术的最佳结合点

可以说,“用户画像”在行业应用中算是曝光率最高的技术之一,有很多用武之地,总结来说,包括:售前的精准营销、售中的个性化推荐,以及售后的增值服务等;用户画像的标签维度包括人口属性、上网特征、购物偏好等。



需要强调的是,标签和应用是相互相承的关系,一方面可以根据现有的标签维度开发应用,另一方面也可以根据应用的需求扩展标签的维度,两者互相促进。


首先,根据用户画像进行精准营销。不同于门户广告等 DSP 公司投放的程序化广告,百分点着眼点在于帮助企业整合、拉通自己的第一方数据,建立企业用户画像、实现全渠道营销。


而且结合百分点的营销管家产品,可以实现触发式的营销。


比如,用户在某网站下单购买一款手机,便可以立马给他推送该品牌手机对应的手机配件广告。最终效果是,通过用户拉通用户画像,对 59 万个潜在消费者形成 4 个精准人群,并进行投放,是盲投点击率的 10 倍。


其次是售中的个性化推荐。这是百分点最开始创立时做的事情,目前已经服务超过 1500 家的电商和媒体客户,是国内最大的第三方推荐服务提供商。


值得一提的是百分点推荐引擎的设计架构,核心为四大组件:场景引擎、规则引擎、算法引擎和展示引擎,尤其是规则引擎非常强大,可以根据客户的业务需求可视化配置推荐逻辑,譬如推新品、清库存等等,而不仅仅是点击率最优。


比如百分点的某个团购网站客户,采用这个推荐引擎解决下单率的问题,通过分析发现了该网站用户的一系列特征,譬如忠诚度低、区域性购买等。



最后是如何结合用户画像提供“售后”增值服务。上图是百分点客户的应用系统方案,通过数据接口实时反馈用户相关信息,包括历史维修、历史咨询并进行知识推荐等内容,支撑服务效率、提升客户满意度;同时收集用户的服务满意度数据,进一步补充、完善用户画像信息。

小结

在大数据时代,机器要学会从比特流中解读用户,构建用户画像变得尤其重要,是上层各种应用的基础。


用户画像不是数学游戏,而是严肃的业务问题。构建用户画像的核心是进行标签建模,标签不仅仅是个符号,更要和业务紧密关联,是业务和技术的最佳结合点,是现实与数据化的最佳实践。不断从更深的逻辑角度思考建模理论,并有效匹配业务应用,用户画像在实际业务中的重要价值将会越来越大。


作者介绍


苏海波,百分点集团研发总监,清华大学电子工程系博士。擅长文本分析、机器学习,精于个性化推荐以及计算广告学;多篇论文发表于 GLOBECOM、ICC、IEICE Transactions 等国外顶尖学术会议和期刊;曾负责当当网百货搜索以及 adsmart 广告系统的算法效果优化;曾负责新浪微博信息流广告产品整体算法策略的设计及研发。


2020-03-08 16:441440

评论

发布
暂无评论
发现更多内容

Web Development Technology Trends for 2023

Mahipal_Nehra

UI UX AI Codec Metaverse

架构解析:Dubbo3 应用级服务发现如何应对双11百万集群实例

Apache Dubbo

Java 开源 微服务 dubbo

深入浅出Seata的AT模式

Java 架构

Flink on Yarn三部曲之一:准备工作

程序员欣宸

大数据 flink hadoop YARN 12月月更

嵌入式系统硬件概述

timerring

嵌入式系统 12月月更

腾讯云曹磊:双碳、双循环政策驱动下,消费电子行业的新机遇

科技热闻

火山引擎边缘云荣获2022全球分布式云大会两项大奖

火山引擎边缘云

云原生 边缘计算 边缘云 火山引擎边缘计算

华为云数据库GaussDB(for Cassandra)揭秘:高性能低成本是什么样的体验?

科技说

测试如何发展副业,提升斜杠收入

老张

码农副业 斜杠

架构实战营 1-2 架构图随堂测验

西山薄凉

「架构实战营」

一文了解 Go 方法

陈明勇

Go golang 方法

三江学院计算机科学与工程学院举办“火焰杯”软件测试开发选拔赛颁奖仪式

测吧(北京)科技有限公司

软件测试 测试

架构实战营 1-1 架构概念随堂测验

西山薄凉

「架构实战营」

架构实战营 1-4 架构设计三原则随堂测验

西山薄凉

2022-12-01:从不订购的客户。找出所有从不订购任何东西的客户,以下数据的答案输出是Henry和Max,sql语句如何写? DROP TABLE IF EXISTS `customers`; C

福大大架构师每日一题

数据库 福大大

【愚公系列】2022年12月 微信小程序-页面栈和页面路由

愚公搬代码

12月月更

常用的十大Python开发工具

千锋IT教育

WeLink互动直播:维护网课秩序,杜绝外人乱入

与时俱进的时代

华为自研分布式时序数据库集群:初始GaussDB(for Influx)

清欢科技

接口测试快速入门-1

度假的小鱼

接口测试 11月月更

华为云数据库GaussDB (for Cassandra) 数据库治理 -- 大key与热key问题的检测与解决

IT科技苏辞

50亿海量数据如何高效存储和分析? 华为云数据库GaussDB (for Cassandra) 3个秘诀搞定

IT科技苏辞

极客时间运维进阶训练营第四周作业

LiaoWD

pipeline SonarQube jenkins高级用法

架构实战营 1-3 面向复杂度架构设计随堂测验

西山薄凉

华为云数据库GaussDB(for Cassandra)揭秘:内存异常增长的排查经历

科技说

04 Redis sentinel 模式存储试卷

神奇的叶叔叔

照亮无尽前沿之路:华为正成为科技灯塔的守护者

脑极体

移动开发跨平台框架,你了解多少?

FinClip

华为云数据库GaussDB(for Influx)与开源企业版性能对比

清欢科技

Zig语言初探

Yuet

架构实战营模块 7 作业

陌生流云

架构实战营

大数据学院:技术大咖告诉你,为什么你做的用户画像模型不精准?_文化 & 方法_百分点科技技术团队_InfoQ精选文章