大数据学院:技术大咖告诉你,为什么你做的用户画像模型不精准?

2020 年 3 月 08 日

大数据学院:技术大咖告诉你,为什么你做的用户画像模型不精准?

对企业而言,得用户者得天下,能够有一套科学的精准营销、个性化推荐模型,无疑会促进业务的增长;对开发者而言,用户画像也是频繁被提及的技术,这样可以根据目标用户的动机和行为上进行产品设计,远远优于为脑中虚构的东西做设计。

用户画像的应用场景甚多,但即使是从事这方面研发的人,对其内部逻辑也是似是而非。大家都希望自己的用户画像模型更加精准,如何做到?这就要深入解剖,理解用户画像与标签的关系、根据何种理论建模更加有效?大数据时代,需要上帝的视角,有了科学的大数据思维方法和理论指导,才能在结合实际业务建模中游刃有余。

DT 时代要从比特流中理解人类行为

水有源木有本,之所以需要用户画像,是因为 DT 时代相较传统 IT 时代发生很大变化:DT 时代的数据是现实世界的虚拟化表现,数据本身构成了一个虚拟世界,这使得 IT 系统构建在虚拟系统上,也变得更加智能。

尤其表现在信息化建设、可穿戴设备、信息网络的发展,使全社会的信息化程度越来越高,越来越多的业务需要计算机应用,将设备和人连接在一起,用户与这些应用、设备交互中产生大量数据。

在这种社会科技发展趋势下,人与人沟通的方式发生了根本变革,这就导致“要学会从比特流中解读他人”,因此要构建用户画像;但数据这么大,人工显然无法应对,所以“还要教会机器从比特流中理解人类”,再在画像的基础上构建一些应用,比如个性化推荐、精准广告、金融征信等,进行机器与人的交互。

你真的理解用户画像是什么意思吗?给你深度解析

用户画像、标签、360 度用户视图等这些词经常被提起,但实际上连从事研发工作的人,对这些概念也不甚了解。要想搞清楚,还需要从理论层面解读。

用户画像从某种程度上说来源于对事物的描述,但每个人描述事物的方式和角度不一样,梳理共性,可将用户画像分为五个层次:


第一个是目标,目标都是为了描述人、认识人、了解人、理解人。这是用户画像最大的目标。

第二是描述的方式,分为非形式化(语音、文本、视频、图像……)和形式化(读卡器读取信息的形式)两种手段。
第三是组织方式,就是结构化和非结构化的组织方式,我们前面看到的球员数据它就是结构化的。
第四个就是用户画像标准,包括常识、共识、体系。这个很重要(比如说某个人特别二次元,这个词对方就可能听不懂,是因为双方对二次元这个词没有达成共识,所以必须有一套达成共识的知识体系,不然用户画像这件事是没有办法达到的。)
最后一个是验证,依据:事实、推理过程、检验。为什么一定要验证?举个例子,比如说某个人“特别不靠谱”,相当于打上标签,但会被反问为什么不靠谱、依据是什么?所以要提前验证,否则会丧失可信力。

据此,可以得出用户画像的定义:用户画像是对现实世界中用户的数学建模。

一方面,用户画像是描述用户的数据,是符合特定用户需求的对用户的形式化描述。从业务中抽象出来,可以形容为“来源于现实,高于现实”。另一方面,用户画像是一种模型,是通过分析挖掘用户尽可能多的数据信息得到的。对数据做抽象,可以形容为“来源于数据,高于数据”。反过来,根据这个模型,可以挖掘出更多用户画像。

如何构建用户画像?让机器根据一套知识体系理解人类

在 90 年代流行一种”本体论”方法,但非常复杂。所以重点来了,用户画像构建需要根据一套原则,在这里分享一套相对朴素的方法:

朴素的知识表现方法:符号 - 概念法。符号与概念是相对应的,比如,狗这个词是一个符号,但人们脑子中的概念是”四条腿、看家的、一个能汪汪叫的动物”。

朴素的用户特征表现方法:标签 - 模型法。标签的定义是用户特征的符号表现,模型定义是经验总结的用户特征。什么是标签? 举例来说,比如”收入高、坐办公室” 这个群体可以打上白领这个标签;同时标签是跟业务场景绑定在一起的,脱离业务场景的符号没有明确的含义。比如在阿里内部,关于男女,这样最简单的标签,也有 12 个男和女,它与业务密切相关,不仅仅是指生理上的男和女,还包括在互联网喜欢买男性的商品或者女性的商品定义的男女等等。

那么,用户画像和标签有什么关系?其实二者是整体和局部的关系,用户画像是整体,标签是局部,而整体和局部的关系可以通过“标签体系”体现。

根据这个逻辑,可以得出,用户画像可以用标签的集合来表现,即“标签体系”方法,用户画像(整体)和标签(局部)还包含两方面的关系:化整为零,整体如何反映在局部;化零为整,局部如何组成整体。

举例来说:“人都有一双眼睛一个鼻子”,化整为零来看:应该观察到每个人都有一双眼睛和一个鼻子;化零为整:只有位置合适的一双眼睛和一个鼻子才被认为是一个人。

至于标签体系,因为标签是和业务密切相关的,对应的标签体系也要搜集所有业务方的需求,制定出标签体系后,给每一个标签标准进行定义,最后进行标签开发。

另外,在用户画像建模方面,可以将标签建模分为四层:第一层是事实类标签,譬如用户购物了什么品类;第二层是机器学习模型的预测标签,譬如当下需求、潜在需求等;第三层是营销模型类标签,譬如用户价值、活跃度和忠诚度等;第四层是业务类的标签,譬如高奢人群、有房一族等,它是由底层的标签组合生成的,通常由业务人员定义。

最后是验证,对模型的验证可以分成两个方面,一个是准确率的验证,标签打得准不准;第二个是标签打得全不全。但这两个方面没有办法同时满足的。现实业务中无法追求 100% 完备的标签体系。不过,目前谈得最多的是准确率。其分为两种,一种是有事实标准的,譬如生理性别;另外一种是无事实标准的,譬如用户的忠诚度,只能验证过程,具体效果需要通过线上业务 A/B Test 进行验证。

构建用户画像的关键难题:需要上帝视角

要想精准构建用户画像还面临着许多技术难题,比如用户多渠道信息打通、多渠道的产品打通、实时采集用户数据,以及用户数据挖掘建模等方面。重点解读下用户多渠道信息打通和多渠道的产品打通两个关键问题。

首先是用户多渠道信息打通,大数据时代我们需要上帝视角。

因为用户与企业的触点非常多,譬如手机、邮箱、Cookie 等,要将同一个用户的多个触点进行打通。方法就是把用户 ID 视为图中的顶点,如果用户的两个触点在同一个场景出现(比如用邮箱登陆),那么就可以把在用户的邮箱和 Cookie 用一条边进行连接,从而构建一张图。

用户打通可以基于图例的方法进行强拉通,也可以采用机器学习方法进行模糊拉通,预测出拉通的概率。

除了用户打通,不同渠道的产品也需要拉通,可采用标签体系拉通方法:建立一套标准的分类标签体系,比如一颗分类树,任何商品都能划分到这个分类树的叶子节点。根据百分点的实践经验,手工映射的方法成本高、难以大规模开展,实际工作中会采用机器学习模型 + 少量的人工规则来实现。

但要实现自动分类,其中难点不在于模型,而在于获得训练数据、feature engineering,以及分类树层级节点之间的依赖问题。

用户画像应用,是业务和技术的最佳结合点

可以说,“用户画像”在行业应用中算是曝光率最高的技术之一,有很多用武之地,总结来说,包括:售前的精准营销、售中的个性化推荐,以及售后的增值服务等;用户画像的标签维度包括人口属性、上网特征、购物偏好等。

需要强调的是,标签和应用是相互相承的关系,一方面可以根据现有的标签维度开发应用,另一方面也可以根据应用的需求扩展标签的维度,两者互相促进。

首先,根据用户画像进行精准营销。不同于门户广告等 DSP 公司投放的程序化广告,百分点着眼点在于帮助企业整合、拉通自己的第一方数据,建立企业用户画像、实现全渠道营销。

而且结合百分点的营销管家产品,可以实现触发式的营销。

比如,用户在某网站下单购买一款手机,便可以立马给他推送该品牌手机对应的手机配件广告。最终效果是,通过用户拉通用户画像,对 59 万个潜在消费者形成 4 个精准人群,并进行投放,是盲投点击率的 10 倍。

其次是售中的个性化推荐。这是百分点最开始创立时做的事情,目前已经服务超过 1500 家的电商和媒体客户,是国内最大的第三方推荐服务提供商。

值得一提的是百分点推荐引擎的设计架构,核心为四大组件:场景引擎、规则引擎、算法引擎和展示引擎,尤其是规则引擎非常强大,可以根据客户的业务需求可视化配置推荐逻辑,譬如推新品、清库存等等,而不仅仅是点击率最优。

比如百分点的某个团购网站客户,采用这个推荐引擎解决下单率的问题,通过分析发现了该网站用户的一系列特征,譬如忠诚度低、区域性购买等。

最后是如何结合用户画像提供“售后”增值服务。上图是百分点客户的应用系统方案,通过数据接口实时反馈用户相关信息,包括历史维修、历史咨询并进行知识推荐等内容,支撑服务效率、提升客户满意度;同时收集用户的服务满意度数据,进一步补充、完善用户画像信息。

小结

在大数据时代,机器要学会从比特流中解读用户,构建用户画像变得尤其重要,是上层各种应用的基础。

用户画像不是数学游戏,而是严肃的业务问题。构建用户画像的核心是进行标签建模,标签不仅仅是个符号,更要和业务紧密关联,是业务和技术的最佳结合点,是现实与数据化的最佳实践。不断从更深的逻辑角度思考建模理论,并有效匹配业务应用,用户画像在实际业务中的重要价值将会越来越大。

作者介绍

苏海波,百分点集团研发总监,清华大学电子工程系博士。擅长文本分析、机器学习,精于个性化推荐以及计算广告学;多篇论文发表于 GLOBECOM、ICC、IEICE Transactions 等国外顶尖学术会议和期刊;曾负责当当网百货搜索以及 adsmart 广告系统的算法效果优化;曾负责新浪微博信息流广告产品整体算法策略的设计及研发。

2020 年 3 月 08 日 16:44 416

评论

发布
暂无评论
发现更多内容

oeasy教您玩转linux010109clear清屏

o

Flink检查点、保存点及状态恢复-13

小知识点

scala 大数据 flink

大事情!中国限制 AI 算法出口。网友:这是要阻止XX“下跪”

程序员生活志

LeetCode题解:155. 最小栈,单个栈同时存储最小值,JavaScript,详细注释

Lee Chen

LeetCode 前端进阶训练营

架构师训练营第十二周总结

张明森

高并发系统三大利器之降级

java金融

5G边缘计算:开源架起5G MEC生态发展新通路

华为云开发者社区

开源 5G 边缘计算 公有云 EdgeGallery

Docker 镜像的备份恢复迁移

哈喽沃德先生

Docker 容器 微服务 镜像 容器技术

Redis常见问题--哈希冲突

是老郭啊

哈希表 Redis项目

pandas ~基础pandas

南辞

Python

雪花算法把玩

ElvinYang

面经手册 · 第8篇《LinkedList插入速度比ArrayList快?你确定吗?》

小傅哥

Java 数据结构 小傅哥 面试题 linkedlist

Redis常见问题--单线程

是老郭啊

nosql redis 线程

翻转链表算法、自动化测试框架robot-framework、两款iOS 在手机端debugging 工具Flex、啄木鸟、加密技术 高可用系统的度量 高可用系统的架构 高可用系统的运维 John 易筋 ARTS 打卡 Week 15

John(易筋)

ARTS 打卡计划 高可用系统的架构 翻转链表 自动化测试Robot 手机调试工具Flex

软件产品的创新与宇宙奇点大爆炸

常平

方法论 产品思维 架构思维

银行大数据新玩法,构建“一湖两库”金融数据湖

华为云开发者社区

大数据 数据湖 FusionInsight MRS DWS

一个空格引发的“救火之旅” - 记一次 SOFA RPC 的排查过程

阿里云金融线TAM SRE专家服务团队

数字化转型需要低/零代码平台的支持

代码制造者

低代码 数字化转型 企业信息化 零代码 编程开发

k8s-client-go源码剖析(二)

LanLiang

go Kubernetes 源码剖析

一键洞察全量SQL ,远离性能异常

华为云开发者社区

数据库 sql 大数据 数据治理 华为云

一文带你深扒ClassLoader内核,揭开它的神秘面纱!

我没有三颗心脏

Java ClassLoader java基础 类加载器

基于Apache Doris的小米增长分析平台实践

DorisDB

数据分析 用户增长 apache doris 分析型数据库 用户行为分析

JVM 内存模型、字节码、垃圾回收面试要点

escray

面试 学习笔记 垃圾回收 字节码 面试现场

oeasy教您玩转linux010108到底哪个which

o

30年技术积累,技术流RTC如何成为视频直播领域的黑马?

华为云开发者社区

云计算 AI 5G RTC 华为云

OpenKruise:Kubernetes 核心控制器 Plus

郭旭东

Kubernetes 云原生 OpenKruise

麦叔告诉你,Linux下安装nginx都踩了那些坑

麦叔

nginx #linux

【读书笔记一】《企业IT架构转型之道-阿里巴巴中台战略思想与架构实战》

Man

中台 阿里 中台战略

mPaas研发流程和线上运维介绍

阿里云金融线TAM SRE专家服务团队

ios android

区块链支付系统开发方案,usdt跑分系统搭建

WX13823153201

Spring整合WebSocket

牛初九

Milvus Community Conf 2020

Milvus Community Conf 2020

大数据学院:技术大咖告诉你,为什么你做的用户画像模型不精准?-InfoQ