【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

从 Twitter 留言预测用户收入

  • 2015-12-08
  • 本文字数:1415 字

    阅读完需:约 5 分钟

利用社交媒体上发表的内容来自动推断用户特征,对于社会科学、市场学和政治学研究有着非常重要的意义。近日,宾夕法尼亚大学的 Daniel Preoţiuc-Pietro 等人就利用 Twitter 上的数据构建了预测用户收入的模型。该模型很好的揭露了不同特征分类和收入之间的关系,同时也发现了很多有意思的现象。

随着信息技术的迅速发展,社交媒体也开始为越来越多的人提供服务。社交网站中所接收的用户数据也随之飞速增长,为社会科学中复杂问题的研究提供了充分支撑。对这些数据的分析可以很好的披露出语言模式和用户特征(如位置、年纪以及政治倾向等)。由此,这些信息可以用于大规模社会科学研究,并可帮助进行更有针对性的广告营销等。

Daniel 等人的研究以自动推导社交媒体中用户的收入为出发点。在训练和测试阶段,该团队使用了已经表明收入的 Twitter 用户数据集,其中包括了 Twitter 平台的相关统计数据和历史内容。为了便于分析,Daniel 等人的研究以 Twitter 用户和职位之间的映射为基础,采用了英国政府的标准化职业分类(Standard Occupational Classification,SOC)方法,将所有职业根据职能要求和内容分成了9 个大组。最终的测试数据就牵涉到了9 个组的5191 个用户,及其10,796,836 条留言。

预测模型使用了很多特征作为参考,包括了简单的用户简历特征(如朋友数量、追随者数量以及平均每天留言的数量等)、人口统计特征(如年纪、性别、政治倾向以及智力等)、用户情绪特征(开心的、伤心的、生气的以及惊讶的留言的比例等)和浅层的文本特征(非复制留言的比例、转发留言的比例以及平均的留言数量等)。

而且,他们采用了线性和非线性学习算法来构建收入模型。其线性学习算法使用的是带 Elastic Net 调节 logistic 回归分析。第一个非线性学习算法则使用带径向基核函数(Radial Basis Function ,RBF)的支持向量机(Support Vector Machine,SVM)。但由于SVM 并不支持指定最重要的若干特征,Daniel 等人又采用高斯过程(Gaussian Process)构建了一个贝叶斯非参数化的统计框架。最后,预测模型把所有特征集模型的结果采用线性权重的方式结合在了一起。

为了测量预测模型的精确度,Daniel 等人的研究首先针对用户收入进行了评估,其试验过程采用了十折交叉验证:把原始的数据随机分成10 个部分,选择其中一个作为测试数据,一个作为参数微调的数据,剩下的8 个作为训练数据。最终结果表明,用户数据和用户发表的内容之间的皮尔逊相关系数最大可达到0.633(0.6-0.8 表示“强相关”),证实了模型的精确性。

该工作的另外一个目标是深入发掘Twitter 上与用户收入相关的特征。通过检查模型的输出和对参数进行量化分析,团队发掘出了收入和语言使用以及Twitter 中用户行为之间的关系,其中包括了很多已知和未知的现象。例如,已经为公众所接受和熟知的现象是:收入和受教育程度、智力、年龄以及性别等相关。另外的一些发现就显得特别有意思:无派别且生活从容的用户收入较高;收入越高的用户越容易产生生气和惧怕的情绪,从而经常发表一些感性的内容;高收入用户更多地谈论政治,非政府组织以及合作的话题,而低收入者则更多地倾向于使用低俗语言。


感谢董志南对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-12-08 18:002285
用户头像

发布了 268 篇内容, 共 117.7 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

5张图搞懂Java引用拷贝、深拷贝、浅拷贝

bigsai

Java 浅拷贝和深拷贝

OpenKruise v0.7.0 版本发布:新增周期任务分发控制器

阿里巴巴云原生

阿里云 容器 开发者 运维 云原生

盘点2020|多线程的遥感大数据行业产品经历

老壳有点爽

大数据 盘点2020 InSAR

从阿里离职后人虚了,头也秃了,就剩这份Java性能优化的PDF了

Java架构追梦

Java 架构 面试 性能优化 并发

LeetCode题解:127. 单词接龙,双向BFS,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

微软最强 Python 自动化工具开源了!不用写一行代码!

星安果

Python 开源 自动化 工具 高效率

Tufin联合Cisco,将网络安全自动化进行到底

Geek_448e23

网络安全 自动化管理 云安全

forsage以太坊矩阵系统软件开发|forsage以太坊矩阵APP开发

系统开发

架构师 3 期 3 班 -week4- 作业

zbest

作业 week4

从面试角度分析LinkedList源码

Java旅途

Java List 集合 linkedlist

架构师训练营第 13 周学习总结

netspecial

极客大学架构师训练营

90分钟10个手写案例,从源码底层给你讲解7种线程池创建方式

996小迁

Java 源码 架构 资料 笔记

架构师训练营 1 期 -- 第十三周总结

曾彪彪

极客大学架构师训练营

建议收藏,mybatis插件原理详解

田维常

mybatis

干货丨如何使用Redash连接DolphinDB数据源

DolphinDB

数据处理 时序数据库 DolphinDB 数据库开发 redash

等保数据备份和恢复关键点,这些你该知道!

华为云开发者联盟

数据 容灾 恢复

架构师训练营第 1 期第 13 周作业

业哥

智能微卡口监控系统搭建,智慧平安小区建设解决方案

t13823115967

智慧城市

DAPP软件系统开发

系统开发

扩招1W人,字节跳动内部公开12月份Java岗71道面试题

比伯

Java 编程 架构 面试 程序人生

程序员因重复记录日志撑爆ELK被辞退!

Java架构师迁哥

阿里华为等大厂如何处理数值精度/舍入/溢出问题

Java架构师迁哥

警务通APP系统开发,移动警务平台搭建解决方案

t13823115967

智慧城市

盘点2020 | 一个三线程序员的2020年,不卑不亢

沉默王二

程序员 盘点2020 沉默王二

PostgreSQL高可用:多主复制解决方案

PostgreSQLChina

数据库 postgresql 开源

边缘计算和5G:我们从何而来?

VoltDB

云计算 大数据 5G 物联网 边缘计算

几款Java开发者必备常用的工具,准点下班不在话下

华为云开发者联盟

Java 工具 开发

盘点2020 | 微服务架构下该如何技术选型呢?

xcbeyond

微服务 技术选型 盘点2020 选型原则

《O2O实战:他们是如何利用互联网的》.pdf

田维常

互联网

985研究生熬夜23天吃透845页架构宝典 终收割腾讯Java岗offer!再也不用怀疑人生了

比伯

Java 编程 架构 面试 程序人生

女朋友突然问我DNS是个啥....

乱敲代码

计算机网络 DNS DNS服务器

从Twitter留言预测用户收入_大数据_张天雷_InfoQ精选文章