对企业而言，得用户者得天下，能够有一套科学的精准营销、个性化推荐模型，无疑会促进业务的增长；对开发者而言，用户画像也是频繁被提及的技术，这样可以根据目标用户的动机和行为上进行产品设计，远远优于为脑中虚构的东西做设计。

用户画像的应用场景甚多，但即使是从事这方面研发的人，对其内部逻辑也是似是而非。大家都希望自己的用户画像模型更加精准，如何做到？这就要深入解剖，理解用户画像与标签的关系、根据何种理论建模更加有效？大数据时代，需要上帝的视角，有了科学的大数据思维方法和理论指导，才能在结合实际业务建模中游刃有余。

DT时代要从比特流中理解人类行为

水有源木有本，之所以需要用户画像，是因为DT时代相较传统IT时代发生很大变化：DT时代的数据是现实世界的虚拟化表现，数据本身构成了一个虚拟世界，这使得IT系统构建在虚拟系统上，也变得更加智能。

尤其表现在信息化建设、可穿戴设备、信息网络的发展，使全社会的信息化程度越来越高，越来越多的业务需要计算机应用，将设备和人连接在一起，用户与这些应用、设备交互中产生大量数据。

在这种社会科技发展趋势下，人与人沟通的方式发生了根本变革，这就导致“要学会从比特流中解读他人”，因此要构建用户画像；但数据这么大，人工显然无法应对，所以“还要教会机器从比特流中理解人类”，再在画像的基础上构建一些应用，比如个性化推荐、精准广告、金融征信等，进行机器与人的交互。

你真的理解用户画像是什么意思吗？给你深度解析

用户画像、标签、360度用户视图等这些词经常被提起，但实际上连从事研发工作的人，对这些概念也不甚了解。要想搞清楚，还需要从理论层面解读。

用户画像从某种程度上说来源于对事物的描述，但每个人描述事物的方式和角度不一样，梳理共性，可将用户画像分为五个层次：

第一个是目标，目标都是为了描述人、认识人、了解人、理解人。这是用户画像最大的目标。

第二是描述的方式，分为非形式化（语音、文本、视频、图像……）和形式化（读卡器读取信息的形式）两种手段。
第三是组织方式，就是结构化和非结构化的组织方式，我们前面看到的球员数据它就是结构化的。
第四个就是用户画像标准，包括常识、共识、体系。这个很重要（比如说某个人特别二次元，这个词对方就可能听不懂，是因为双方对二次元这个词没有达成共识，所以必须有一套达成共识的知识体系，不然用户画像这件事是没有办法达到的。）
最后一个是验证，依据：事实、推理过程、检验。为什么一定要验证？举个例子，比如说某个人“特别不靠谱”，相当于打上标签，但会被反问为什么不靠谱、依据是什么？所以要提前验证，否则会丧失可信力。

据此，可以得出用户画像的定义：用户画像是对现实世界中用户的数学建模。

一方面，用户画像是描述用户的数据，是符合特定用户需求的对用户的形式化描述。从业务中抽象出来，可以形容为“来源于现实，高于现实”。另一方面，用户画像是一种模型，是通过分析挖掘用户尽可能多的数据信息得到的。对数据做抽象，可以形容为“来源于数据，高于数据”。反过来，根据这个模型，可以挖掘出更多用户画像。

如何构建用户画像？让机器根据一套知识体系理解人类

在90年代流行一种”本体论”方法，但非常复杂。所以重点来了，用户画像构建需要根据一套原则，在这里分享一套相对朴素的方法：

朴素的知识表现方法：符号-概念法。符号与概念是相对应的，比如，狗这个词是一个符号，但人们脑子中的概念是”四条腿、看家的、一个能汪汪叫的动物”。

朴素的用户特征表现方法：标签-模型法。标签的定义是用户特征的符号表现，模型定义是经验总结的用户特征。什么是标签?举例来说，比如”收入高、坐办公室” 这个群体可以打上白领这个标签；同时标签是跟业务场景绑定在一起的，脱离业务场景的符号没有明确的含义。比如在阿里内部，关于男女，这样最简单的标签，也有12个男和女，它与业务密切相关，不仅仅是指生理上的男和女，还包括在互联网喜欢买男性的商品或者女性的商品定义的男女等等。

那么，用户画像和标签有什么关系？其实二者是整体和局部的关系，用户画像是整体，标签是局部，而整体和局部的关系可以通过“标签体系”体现。

根据这个逻辑，可以得出，用户画像可以用标签的集合来表现，即“标签体系”方法，用户画像（整体）和标签（局部）还包含两方面的关系：化整为零，整体如何反映在局部；化零为整，局部如何组成整体。

举例来说：“人都有一双眼睛一个鼻子”，化整为零来看：应该观察到每个人都有一双眼睛和一个鼻子；化零为整：只有位置合适的一双眼睛和一个鼻子才被认为是一个人。

至于标签体系，因为标签是和业务密切相关的，对应的标签体系也要搜集所有业务方的需求，制定出标签体系后，给每一个标签标准进行定义，最后进行标签开发。

另外，在用户画像建模方面，可以将标签建模分为四层：第一层是事实类标签，譬如用户购物了什么品类；第二层是机器学习模型的预测标签，譬如当下需求、潜在需求等；第三层是营销模型类标签，譬如用户价值、活跃度和忠诚度等；第四层是业务类的标签，譬如高奢人群、有房一族等，它是由底层的标签组合生成的，通常由业务人员定义。

最后是验证，对模型的验证可以分成两个方面，一个是准确率的验证，标签打得准不准；第二个是标签打得全不全。但这两个方面没有办法同时满足的。现实业务中无法追求100%完备的标签体系。不过，目前谈得最多的是准确率。其分为两种，一种是有事实标准的，譬如生理性别；另外一种是无事实标准的，譬如用户的忠诚度，只能验证过程，具体效果需要通过线上业务A/B Test进行验证。

构建用户画像的关键难题：需要上帝视角

要想精准构建用户画像还面临着许多技术难题，比如用户多渠道信息打通、多渠道的产品打通、实时采集用户数据，以及用户数据挖掘建模等方面。重点解读下用户多渠道信息打通和多渠道的产品打通两个关键问题。

首先是用户多渠道信息打通，大数据时代我们需要上帝视角。

因为用户与企业的触点非常多，譬如手机、邮箱、Cookie等，要将同一个用户的多个触点进行打通。方法就是把用户ID视为图中的顶点，如果用户的两个触点在同一个场景出现（比如用邮箱登陆），那么就可以把在用户的邮箱和Cookie用一条边进行连接，从而构建一张图。

用户打通可以基于图例的方法进行强拉通，也可以采用机器学习方法进行模糊拉通，预测出拉通的概率。

除了用户打通，不同渠道的产品也需要拉通，可采用标签体系拉通方法：建立一套标准的分类标签体系，比如一颗分类树，任何商品都能划分到这个分类树的叶子节点。根据百分点的实践经验，手工映射的方法成本高、难以大规模开展，实际工作中会采用机器学习模型+少量的人工规则来实现。

但要实现自动分类，其中难点不在于模型，而在于获得训练数据、feature engineering，以及分类树层级节点之间的依赖问题。

用户画像应用，是业务和技术的最佳结合点

可以说，“用户画像”在行业应用中算是曝光率最高的技术之一，有很多用武之地，总结来说，包括：售前的精准营销、售中的个性化推荐，以及售后的增值服务等；用户画像的标签维度包括人口属性、上网特征、购物偏好等。

需要强调的是，标签和应用是相互相承的关系，一方面可以根据现有的标签维度开发应用，另一方面也可以根据应用的需求扩展标签的维度，两者互相促进。

首先，根据用户画像进行精准营销。不同于门户广告等DSP公司投放的程序化广告，百分点着眼点在于帮助企业整合、拉通自己的第一方数据，建立企业用户画像、实现全渠道营销。

而且结合百分点的营销管家产品，可以实现触发式的营销。

比如，用户在某网站下单购买一款手机，便可以立马给他推送该品牌手机对应的手机配件广告。最终效果是，通过用户拉通用户画像，对59万个潜在消费者形成4个精准人群，并进行投放，是盲投点击率的10倍。

其次是售中的个性化推荐。这是百分点最开始创立时做的事情，目前已经服务超过1500家的电商和媒体客户，是国内最大的第三方推荐服务提供商。

值得一提的是百分点推荐引擎的设计架构，核心为四大组件：场景引擎、规则引擎、算法引擎和展示引擎，尤其是规则引擎非常强大，可以根据客户的业务需求可视化配置推荐逻辑，譬如推新品、清库存等等，而不仅仅是点击率最优。

比如百分点的某个团购网站客户，采用这个推荐引擎解决下单率的问题，通过分析发现了该网站用户的一系列特征，譬如忠诚度低、区域性购买等。

最后是如何结合用户画像提供“售后”增值服务。上图是百分点客户的应用系统方案，通过数据接口实时反馈用户相关信息，包括历史维修、历史咨询并进行知识推荐等内容，支撑服务效率、提升客户满意度；同时收集用户的服务满意度数据，进一步补充、完善用户画像信息。

小结

在大数据时代，机器要学会从比特流中解读用户，构建用户画像变得尤其重要，是上层各种应用的基础。

用户画像不是数学游戏，而是严肃的业务问题。构建用户画像的核心是进行标签建模，标签不仅仅是个符号，更要和业务紧密关联，是业务和技术的最佳结合点，是现实与数据化的最佳实践。不断从更深的逻辑角度思考建模理论，并有效匹配业务应用，用户画像在实际业务中的重要价值将会越来越大。

作者介绍：

苏海波，百分点集团研发总监，清华大学电子工程系博士。擅长文本分析、机器学习，精于个性化推荐以及计算广告学；多篇论文发表于GLOBECOM、ICC、IEICE Transactions 等国外顶尖学术会议和期刊；曾负责当当网百货搜索以及adsmart广告系统的算法效果优化；曾负责新浪微博信息流广告产品整体算法策略的设计及研发。

创作场景

大数据学院：技术大咖告诉你，为什么你做的用户画像模型不精准？