从Twitter留言预测用户收入_大数据_张天雷

阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见，现购票可享受 9 折优惠｜AICon 了解详情 



 写点什么

利用社交媒体上发表的内容来自动推断用户特征，对于社会科学、市场学和政治学研究有着非常重要的意义。近日，宾夕法尼亚大学的 Daniel Preoţiuc-Pietro 等人就利用 Twitter 上的数据构建了预测用户收入的模型。该模型很好的揭露了不同特征分类和收入之间的关系，同时也发现了很多有意思的现象。

随着信息技术的迅速发展，社交媒体也开始为越来越多的人提供服务。社交网站中所接收的用户数据也随之飞速增长，为社会科学中复杂问题的研究提供了充分支撑。对这些数据的分析可以很好的披露出语言模式和用户特征（如位置、年纪以及政治倾向等）。由此，这些信息可以用于大规模社会科学研究，并可帮助进行更有针对性的广告营销等。

Daniel 等人的研究以自动推导社交媒体中用户的收入为出发点。在训练和测试阶段，该团队使用了已经表明收入的 Twitter 用户数据集，其中包括了 Twitter 平台的相关统计数据和历史内容。为了便于分析，Daniel 等人的研究以 Twitter 用户和职位之间的映射为基础，采用了英国政府的标准化职业分类（Standard Occupational Classification，SOC）方法，将所有职业根据职能要求和内容分成了9 个大组。最终的测试数据就牵涉到了9 个组的5191 个用户，及其10,796,836 条留言。

预测模型使用了很多特征作为参考，包括了简单的用户简历特征（如朋友数量、追随者数量以及平均每天留言的数量等）、人口统计特征（如年纪、性别、政治倾向以及智力等）、用户情绪特征（开心的、伤心的、生气的以及惊讶的留言的比例等）和浅层的文本特征（非复制留言的比例、转发留言的比例以及平均的留言数量等）。

而且，他们采用了线性和非线性学习算法来构建收入模型。其线性学习算法使用的是带 Elastic Net 调节的 logistic 回归分析。第一个非线性学习算法则使用带径向基核函数（Radial Basis Function ，RBF）的支持向量机（Support Vector Machine，SVM）。但由于SVM 并不支持指定最重要的若干特征，Daniel 等人又采用高斯过程（Gaussian Process）构建了一个贝叶斯非参数化的统计框架。最后，预测模型把所有特征集模型的结果采用线性权重的方式结合在了一起。

为了测量预测模型的精确度，Daniel 等人的研究首先针对用户收入进行了评估，其试验过程采用了十折交叉验证：把原始的数据随机分成10 个部分，选择其中一个作为测试数据，一个作为参数微调的数据，剩下的8 个作为训练数据。最终结果表明，用户数据和用户发表的内容之间的皮尔逊相关系数最大可达到0.633（0.6-0.8 表示“强相关”），证实了模型的精确性。

该工作的另外一个目标是深入发掘Twitter 上与用户收入相关的特征。通过检查模型的输出和对参数进行量化分析，团队发掘出了收入和语言使用以及Twitter 中用户行为之间的关系，其中包括了很多已知和未知的现象。例如，已经为公众所接受和熟知的现象是：收入和受教育程度、智力、年龄以及性别等相关。另外的一些发现就显得特别有意思：无派别且生活从容的用户收入较高；收入越高的用户越容易产生生气和惧怕的情绪，从而经常发表一些感性的内容；高收入用户更多地谈论政治，非政府组织以及合作的话题，而低收入者则更多地倾向于使用低俗语言。

感谢董志南对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们，并与我们的编辑和其他读者朋友交流（欢迎加入 InfoQ 读者交流群（已满），InfoQ 读者交流群（#2））。

发布

暂无评论

创作场景

从 Twitter 留言预测用户收入

评论

200 行代码就能骗人的首个聊天机器人

vivo web service：亿万级规模web服务引擎架构

必看的数据库使用规范

XSKY新一代分布式文件系统XGFS揭秘——元数据服务

如何优雅的备份账号相关信息

MySQL5.7应当注意的参数

区块链加未来3至5年可以预见上链将成为常态

机器学习算法之——卷积神经网络（CNN）原理讲解

【杭州】阿里巴巴搜索推荐事业部开发岗位招聘

机器学习算法之——逻辑回归（Logistic Regression）原理详解及Python实现

构建统一监管制度加快数据要素立法修法

从零开始的深度学习实用教程 | PyTorch官方推荐

给路灯按上“电话卡”，从此不仅只照明还给管理员“打电话”

牧羊少年奇幻之旅

Git 常用命令总结

一.操作系统概述

浅谈备受开发者好评的.NET core敏捷开发工具，讲讲LEARUN工作流引擎

赋能云端管理激发智能边缘英特尔发布超能云终端解决方案

小小的代码分支模型如何撬动研发过程管理

获奖公布丨程序员的七夕骚话该怎么讲？留下你爱的表白～

机器学习 | 卷积神经网络详解(二)——自己手写一个卷积神经网络

我一个普通程序员，光靠GitHub打赏就年入70万，要不你也试试

2020中国RPA指数测评报告|T研究

InnoDB 事务加锁分析

前端科普系列（1）：前端简史

Java基础知识篇（2020最新版）准备放进收藏夹吃灰的勿进

Linux-技术专题-buffer/cache理解

机器学习算法之——隐马尔可夫模型原理详解及Python实现

区块链最激动人心的未来是什么

大数据技术思想入门(一)：分布式存储特点

Java 生成解析二维码

创作场景

从 Twitter 留言预测用户收入

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载