过滤器气泡:谷歌如何影响你的搜索结果?

2018 年 12 月 20 日

过滤器气泡:谷歌如何影响你的搜索结果?

多年来,人们对谷歌的“过滤器气泡”(filter bubble)问题进行了大量的讨论。简单地说,过滤器气泡就是根据你的个人数据来操纵你的搜索结果。在实际当中,这意味着链接会被向上或向下移动,或者添加链接到你的搜索结果中。谷歌通过你的个人信息(例如你的搜索、浏览和购买历史记录)产生这些被编辑过的结果,并根据算法认为你最有可能点击哪些内容将你置于某个“气泡”中。


在搜索政治话题时,过滤器气泡会产生不好的结果。因为犹豫不决和好奇的选民在形成决策意见的关键时刻倾向于使用搜索引擎研究候选人。如果他们因为个人的过滤器气泡而获得偏向一方的信息,那么很可能会对政治结果产生重大影响。


早在 2012 年,我们的一项研究表明,谷歌的过滤器气泡可能对 2012 年美国总统选举产生了重大影响,因为在选举之前,谷歌在搜索结果中为奥巴马插入了比罗姆尼多了数千万的链接。我们的研究启发了华尔街日报的一项独立调查:


华尔街日报的一项调查发现,搜索引擎经常会干预最近有关“奥巴马”的搜索结果——但对有关“罗姆尼”的搜索却不予理睬。


在 2016 年美国总统选举和最近的其他选举之后,人们对在政治方面受到在线搜索影响的方式产生了新的兴趣。为此,我们针对 2018 年谷歌过滤器气泡的现状进行了研究。


我们的主要发现


谷歌声称已经采取措施降低过滤器气泡的影响,但我们的最新研究却展现出了另一种完全不一样的结果。通过对同时输入相同搜索关键字的个体进行研究,我们发现:


  • 大多数参与者都看到了独有的结果。位置和时间的变化、是否登录谷歌账户或为一小部分用户修改谷歌测试算法都无法解释为什么会产生这些差异。

  • 在搜索结果的第一页,有些链接会在某些参与者的页面中出现,但却没有出现在其他参与者的页面中,即使开启了隐私浏览模式并退出谷歌账户。

  • 新闻和视频信息框中的结果也有很大差异。尽管参与者同时进行搜索,并且考虑到了位置因素,他们还是会看到不同的结果。

  • 开启隐私浏览模式以及退出谷歌账户之后,很大程度上仍然会受滤器气泡的影响。这些策略根本无法提供大多数人所期望的匿名性。事实上,在使用谷歌搜索时,根本不可能避免它的过滤器气泡。



对于那些对细节感兴趣的人,请继续阅读以下内容,我们还提供了基础数据和代码。我们希望我们的工作能够鼓励更多人进一步研究这个问题。


研究方法


我们要求美国的志愿者在 2018 年 6 月 24 日星期日东部时间晚上 9 点搜索“枪支管制”、“移民”和“接种疫苗”(按顺序)。志愿者先在开启隐私浏览模式并退出谷歌账号的情况下进行搜索,然后第二次不在正常模式下搜索。我们整理了 87 个完整的搜索结果集——桌面 76 个,移动 11 个。请注意,我们将研究限制在美国,因为不同国家/地区的搜索索引是不一样的。


在分析搜索结果时,我们只查看了网站的顶级域名,例如:www.cdc.gov/features/vaccines-travel和www.cdc.gov/vaccines/adults都将被视为cdc.gov。


发现 1:即使退出谷歌账户并处于隐私浏览模式,大多数人都会看到独有的结果。


为了计算不同的结果变化,我们记录了主要元素的顺序:有机(常规)链接、新闻(热门新闻)信息框和视频信息框。我们忽略了广告、包含相关搜索的部分和其他信息框。


关于链接排序的说明:你可能认为,只要向用户显示的链接是相同的,那么它们的顺序就不那么重要了,但事实并非如此。一个链接的点击次数是前面链接点击数量的一半,是后面链接点击数量的两倍。换句话说,链接排序非常重要,因为人们点击第一个链接的次数远远超过第二个链接,并依此类推。


我们在下面列出了每个搜索关键字的数量变化。我们排除了移动搜索结果,因为移动设备和桌面设备之间的信息框数量可能会有很大差异。这就是为什么数据里只有 76 个参与者,而不是 87 个。我们还根据位置进行了限制(更多内容请见下方)。


隐私浏览模式(并已退出谷歌账户):


  • “枪支控制”:62种变化,52/76参与者(68%)看到独有的结果。

  • “移民”:57种变化,43/76名参与者(57%)看到了独有的结果。

  • “疫苗接种”:73种变化,70/76参与者(92%)看到独有的结果。


正常模式:


  • “枪支控制”:58个变化,45/76参与者(59%)看到独有的结果。

  • “移民”:59个变化,48/76参与者(63%)看到独有的结果。

  • “疫苗接种”:73种变化,70/76参与者(92%)看到独有的结果。



如果没有过滤器气泡,人们看到的搜索结果页面的变化会非常小——几乎每个人都会看到相同的一组结果,但我们看到的不是这样的。


相反,大多数人都看到了独有的结果。我们还发现,隐私浏览模式(并退出谷歌账户)和正常模式下的变化是一样的。


时间和位置可能会对搜索结果产生一些影响。首先,搜索结果可能会随时间发生变化,比如那些对时间很敏感的链接。我们通过让所有人同时进行搜索来控制这个因素。


其次,搜索结果会随位置的不同而发生改变,比如本地新闻。我们通过手动检查所有链接来控制这个因素,根据参与者所在的城市和州对它们进行比较。我们看到很少与枪支控制(1 个有机链接,1 个新闻信息框链接)和移民(0)相关的本地链接,更多的是关于疫苗接种(15 个有机链接,4 个新闻信息框链接)。


为了控制这些本地链接,我们在所有的分析中使用相同的占位符替换这些链接——使用 localdomain.com 替换有机链接,使用“Local Source”替换信息框。这种调整意味着如果两个用户的结果只有本地域名不同,那么它们将被视为相同的结果。有趣的是,这种调整并未显著影响整体变化。


你可能认为产生变化的另一个原因是搜索算法引起的。如果是这样,那么大多数人看到的结果应该是相同的,只有少数人看到的结果有轻微差异。但事实是,我们看到的是大多数人的结果是不一样的。


发现 2:谷歌为一些参与者提供了一些链接,但这些链接并未出现在其他参与者的搜索结果中


谷歌搜索结果通常有十个有机链接。这些链接的顺序非常重要(即第一个链接的点击次数约 40%,第二个链接约为 20%,第三个链接约为 10%,等等),同时,我们还想知道其中有多少个不同的域名。


如果没有滤波器气泡,人们可能会看到域名总数大约为 10。但事实上,我们看到了比 10 多得多的域名。在隐私浏览模式下(退出谷歌账户),并将本地域替换为localdomain.com,以下是统计结果:


  • “枪支管制”:19个不同的域名;

  • “移民”:15个不同的域名;

  • “疫苗接种”:22个不同的域名。



从图中可以看出,有些人相对于其他参与者得到了一组非常不寻常的结果,其中有一些其他人看不到的域名。如果你是这些人中的一员,根本无法知道自己错过了什么。


发现 3:新闻信息框和视频信息框中存在重大差异


我们还想了解新闻(热门新闻)和视频信息框中的变化,我们也看到了它们当中的巨大变化。同样,我们也使用了隐私浏览模式(退出谷歌账户),并且本地域名被替换为“Local Source”。


新闻信息框:


  • “枪支管制”:来自5个来源的3个变化,出现在75/76人的搜索结果中,其中最常见的有69人(90%)可以看到。

  • “移民”:来自7个来源的6个变化,出现在76/76人的搜索结果中,其中最常见的有35人(46%)可以看到。

  • “疫苗接种”:来自3个来源的2个变化,出现在2/76人的搜索结果中,每个变化都有一个人(1%)可以看到。


视频信息框:


  • “枪支管制”:来自7个来源的12个变化,出现在75/76人的搜搜结果中,其中最常见的有24人(32%)可以看到。

  • “移民”:来自6个来源的6个变化,出现在75/76人的搜索结果中,其中最常见的有42人(55%)可以看到。

  • “疫苗接种”:未在搜索结果中显示。


举个例子,与“移民”搜索相关的视频信息框显示以下 6 种变化。与有机搜索结果一样,这里的顺序也很重要,因为第二个和第三个的点击次数要少得多。


  • 今天,MSNBC,NBC新闻(42名参与者可以看到);

  • MSNBC,今日,NBC新闻(26名参与者可以看到);

  • 今天,MSNBC,MSNBC(4名参与者可以看到);

  • MSNBC,今天,今天(1位参与者可以看到);

  • 纽约时报,CNN,MSNBC(1位参与者可以看到);

  • 今天,MSNBC,RealClearPolitics(1位参与者可以看到)。


请记住,我们让人们同时进行搜索,并且我们将所有本地链接替换为相同的字符串,因此这种变化不是因为受到时间或位置因素的影响。而且,有些人是的搜索结果真的有点异常,他们根本没有看到信息框。


发现 4:隐私浏览模式并退出谷歌账户几乎减轻受过滤器气泡的影响


最后,我们看到了隐私浏览模式(也称为隐身模式)并退出谷歌账户的变化与普通模式是一样的。大多数人都希望通过注销谷歌账户和“隐身”来获得匿名性。然而,这只是一种美好的愿望,因为网站使用 IP 地址和浏览器指纹来识别已注销谷歌账户或处于隐私浏览模式的用户。


如果搜索结果在这些状态下会更具匿名性,那么每个人在隐私浏览模式下获得的结果应该很相似。但我们看到的不是这样的。


为了进行严格的测试,我们采用了有机结果,不包括广告和信息框,并且:


为每个域名分配一个字母(例如A代表nytimes.com,B 代表 wsj.com 等)。


将每个人的搜索结果作为一个字符串,例如 ABDFJKMSL。


比较这些字符串,看看它们彼此之间有多么相似。


在进行比较时,我们计算了不同搜索结果集之间的域名变化,将变化归结为一个数字。例如,ABC—>ACB 的变化为 1。(从技术上讲,我们使用一个字母来表示搜索结果中的一个域名,并计算它们之间的 Damerau-Levenshtein 编辑距离。)



我们发现,如果随机比较参与者之间的隐私模式,而不是比较隐私模式和正常模式,变化的数量增加了一倍以上:


枪支控制:


  • 普通和隐私浏览模式的平均值(同一用户):1.03;

  • 隐私浏览模式的平均值(随机用户):2.89;

  • 隐私浏览模式的平均值(五个最接近的用户):2.65。


移民:


  • 普通和隐私浏览模式的平均值(同一用户):1.38;

  • 隐私浏览模式的平均值(随机用户):3.28;

  • 隐私浏览模式的平均值(五个最接近的用户):2.80。


接种疫苗:


  • 普通和隐私浏览模式的平均值(同一用户):2.23;

  • 隐私浏览模式的平均值(随机用户):4.97;

  • 隐私浏览模式的平均值(五个最接近的用户):4.25。



人们通常认为隐私浏览模式更具匿名性,但这一发现表明,无论使用什么样的浏览模式,谷歌都会定制搜索结果。所以,我们不应该陷入这种虚假的安全感,认为“隐身”模式就可以匿名。


研究数据和代码


数据可分为两部分下载:


不可识别的参与者数据:


https://duckduckgo.com/download/duckduckgo-filter-bubble-study-2018_participants.xls


搜索结果的原始数据:


https://duckduckgo.com/download/duckduckgo-filter-bubble-study-2018_raw-search-results.xls


  • duckduckgo-filter-bubble-study-2018_participants.xls包含了我们发给每个参与者的说明,以及每个参与者的匿名数据。

  • duckduckgo-filter-bubble-study-2018_raw-search-results.xls包含了不同模式下的搜索结果。


用于分析这些数据的代码是开源的,可在我们的 GitHub 代码库(https://github.com/duckduckgo/filter-bubble-study)中获得。


英文原文:


https://spreadprivacy.com/google-filter-bubble-study/


2018 年 12 月 20 日 15:49809
用户头像

发布了 731 篇内容, 共 359.6 次阅读, 收获喜欢 1824 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

一个爱不释手的Apifox,让我扔掉 Postman的想法

给你买橘子

Java 编程 程序员 开发 Postman

使用 Dockerfile 创建镜像 | Docker 系列

AlwaysBeta

Docker 容器 镜像 Dockerfile 容器技术

RESTful 架构及实践

pingan8787

Java 前端 RESTf

图说前端-ArrayBuffers 和 SharedArrayBuffers(2/3)

梦见君笑

前端 内存管理 前端进阶训练营

ARTS 打卡 第2周

Scotty

Java 线程的生老病死

武培轩

Java 线程 多线程 并发 线程状态

《精益思想》读后感分享

zhongzhq

高效工作 精益 精益思想 精益生产方式

玩转Redis高可用 - 哨兵(Sentinel)模式

Man

高可用 redis高可用 中间件

基于Kubernetes实现的大数据采集与存储实践总结

岿然独存5

Docker Kubernetes S3 EFK Fluentd

刘华:上云还是不上云,这是一个问题

刘华Kenneth

架构 敏捷

架构师必须知道的架构知识

Chank

架构 架构师 Architecture Architect

啃碎并发(九):内存模型之基础概述

猿灯塔

Java 猿灯塔

图说前端-使用Atomics避免SharedArrayBuffers中的race conditions(3/3)

梦见君笑

前端 内存管理 前端进阶训练营

java 后端博客系统文章系统——No3

猿灯塔

如果你想写自己的Benchmark框架

程序那些事

JVM 性能调优 GC benchmark

无价值人生记录.0:浪费1000%时间去做一个用来节省1%时间的“轮子玩具”(上:因缘)

八苦-瞿昙

C# 程序员人生 随笔 随笔杂谈 aop

如何基于 BitMap 进行海量数据分析

GrowingIO技术专栏

互联网 数据分析 科技互联网 数据化

图解:深度优先搜索与广度优先搜索

淡蓝色

Java 数据结构 算法

redis系列之——Redis为什么这么快?

诸葛小猿

Java redis 程序员

如何搭建一个HBase集群

Rayjun

HBase

图说前端-内存管理(1/3)

梦见君笑

前端 内存 前端进阶训练营

那些让程序员目瞪口呆的Bug

Java小咖秀

程序员 程序员人生 bug

创业使人成长系列 (2)- 散伙协议

石云升

创业 股权 合伙人 散伙协议

DOM 树的构建

法正

html DOM 前端进阶训练营

给 Spring Boot 项目减减肥!18.18M 到 0.18M 是如何做到的?

给你买橘子

Java 程序员 Spring Cloud 编码 SpringBoot 2

游戏夜读 | 如何分析游戏体验?

game1night

分布式系统的一些基础理论

俊俊哥

分布式事务 CAP Base

redis里的数据结构

流沙

redis

Git 常用操作汇总-cheat sheet

多选参数

git GitHub gitlab gitee

计算机操作系统基础(十七)---进程同步之Unix域套接字

书旅

php laravel 线程 操作系统 进程

猿灯塔:spring Boot Starter开发及源码刨析(三)

猿灯塔

Java 猿灯塔

过滤器气泡:谷歌如何影响你的搜索结果?-InfoQ