写点什么

打破 Google 破坏性的搜索垄断

2020 年 12 月 31 日

打破 Google 破坏性的搜索垄断

Google 在网络搜索方面有绝对的优势。近来,Google 在搜索算法方面的垄断地位,也就是搜索引擎将 Google 自己的内容放在搜索结果的首位,频繁引起美国和欧洲的反垄断关注。


但是,Google 搜索业务的垄断并非唯一。由于拥有目前为止最大最好的在线索引,Google 的地位受到了保护。


Daisuke Wakabayashi 在《纽约时报》(The New York Times)上写道,软件工程师 Zack Maril 成立了一个名为 “Knucklehead Club”(傻瓜俱乐部)的组织(因为只有傻瓜才会挑战如此有钱有势的公司)来研究并唤起人们对这一事实的关注。


基于结构上的原因,我将在下面解释,为了建立这样一个索引而 “抓取”网络的行为是自然的垄断行为,而且由于 Google 的低调行为,没有人会对其主导地位提出真正的挑战。“一般来说,人们不会谈论这个问题,因为人们对它知之甚少。” Maril 在接受采访时告诉《周刊报道》(The Week)。世界各国政府都应该从公共利益的角度出发,对这家公司进行监管,或者干脆接管。


首先,让我解释一下机制。在经济学术语中,自然垄断指的是高固定成本和低边际成本的市场。电力就是一个典型的例子,它需要巨大的初始投资来建造发电厂,并将电线拉到每家每户,此后,每增加 1 度电的成本几乎为零。一家公司一旦建立了这样的网络,刚刚起步的新公司就几乎不可能与之竞争了。


Google 的网络爬虫也基本上处于相似的位置。原因如下:要运行搜索引擎,你需要对互联网建立一个索引,这样就可以搜索到东西了(就像图书馆里的卡片目录一样)。这样的话,就必须定期抓取互联网,尽可能多地复制网页,这样索引就能尽可能地广泛和最新。


这就给竞争设置了两个障碍。第一点,也是最明显的,互联网是巨大的,因此要建立一个能看到其中哪怕一小部分的爬虫,都需要巨大的投资。很长时间以来,Google 一直遥遥领先,以至于另一个科技巨头微软才开始参与竞争。


第二点,更为微妙的是,网站所有者有限制所有非 Google 爬虫的动机。创建一种互联网规模的爬虫可能很昂贵,但是创建一种只会抓取少量网站的爬虫是很便宜的,人们之所以这样做是有很多原因的。网站带宽是要花钱的,而爬虫的自动操作会消耗大量的带宽。


因此,很多管理员禁止所有类似爬虫的活动,但 Google 却获得了豁免,因为 Google 的搜索结果显示对流量有很大影响。(Knucklehead Club 的研究还表明,Google 从许多网站获得的利益甚至比这更多)。


以上两点意味着,任何新公司都不可能对 Google 网络索引的统治地位构成严重威胁。大多数网站都会禁止任何新的主要爬虫,因为它占用了网站的流量,并且带来的回报很小,但是新的搜索引擎也不能增加流量,正因为它不能开发合适的索引来吸引用户。


甚至微软,在它的搜索引擎必应花了几年时间,耗费了几十亿美元,但还是远远落后于他们。正因为它不能开发合适的索引来吸引用户。甚至微软,在它的搜索引擎 Bing(必应)花了几年时间,花了几十亿美元,但还是远远落后于他们。


对于外行人来说,这也许没什么大不了的。毕竟,Google 很不错,所以我们大概不需要创建更多的网络索引,或者迫使 Google 让其他人使用它的索引,对吗?甚至在搜索方面,人们对此也不太清楚。


举例来说,Google 在某些领域变得极端糟糕,如产品评论,其搜索结果常常被大量腐败的、算法博弈的垃圾内容或其自身的广告弄得乱七八糟。假如其它公司也能参与竞争,我们就可以看到它们在一些特定的任务,甚至仅仅是在普通搜索方面打败 Google 的搜索引擎。


但更深层次的问题是,控制唯一优秀的互联网索引有很大的优势。Maril 告诉《周刊报道》,这个庞大的数据宝库让 Google “在机器学习和人工智能方面难以置信的优势”。举例来说,机器翻译,“只有当你达到数据的临界点时,它才会起作用”。


同样的道理,从其他网站的角度来考虑,确保能够被 Google 抓取,看起来不像是某种恩惠,而更像是必须缴纳的 “Google 税”,他说。任何拥有网站的人,只需花点时间和金钱,就可以让 Google 索引他们的网页,以免他们无法被网民发现。这些数据将给公司带来越来越难以逾越的竞争优势。


正如我之前所论述的那样,Google 之所以如此强大,如此有利可图,很大程度上是因为先发优势和网络效应。它在正确的时间,出现在正确的地方,用一个比其他人更好的搜索引擎,这种优势滚雪球般地成为了对唯一存在的,或者说能够存在的(至少在目前的现状下)良好的网络索引的私有控制。


只有 Google 才有权使用这些数据,这是不公平的,但是也不清楚有多少商业和研究想法会因为没人能得到他们的数据而被扼杀在萌芽状态。垄断企业容易变得肥胖和懒惰。


那么该怎么办呢?传统的处理自然垄断的方法不是国有化就是管制。但是,这些方法可能并不适合,因为与过去所有的自然垄断不同,互联网覆盖了全球。


举例来说,如果 Google 的网络索引由联邦政府拥有,他们可能会试图将其用作某种疯狂的帝国主义活动的一部分。比如,美国和欧盟同意一项国际条约,该条约要求 Google 支付象征性费用许可其索引内容,或许更为明智。另一种方法是,各国只需建立自己的公共互联网索引,供所有人免费使用。


但是,在有人提出解决方案之前,我们必须仔细研究一下这个问题。幸好,众议院一直在关注这一问题,甚至特朗普的司法部也提出诉讼,指控 Google 违反反垄断法。那只是国家努力的开始,需要建立一个人人平等的互联网。


作者介绍:


Ryan Cooper,《周刊报道》(The Week)的全国记者。他在《华盛顿月刊》(Washington Monthly)、《新共和》(The New Republic)和《华盛顿邮报》(Washington Post)发表文章。


原文链接:


https://theweek.com/articles/955074/bust-googles-destructive-search-monopoly


2020 年 12 月 31 日 18:081339
用户头像
刘燕 InfoQ记者

发布了 554 篇内容, 共 173.4 次阅读, 收获喜欢 1053 次。

关注

评论

发布
暂无评论
发现更多内容

架构作业:一致性hash

Nick~毓

编码之路,与君共勉

yes的练级攻略

程序人生

c++bind函数使用

良知犹存

c++

C/C++最佳实践

jiangling500

c c++ 最佳实践

大明湖畔昇腾绽放,趵突泉里智能奔涌

脑极体

甲方日常 36

句子

工作 随笔杂谈 日常

Java中的5大队列,你知道几个?

王磊

Java

服了,这款开源类库可以帮你简化每一行代码

沉默王二

Java GitHub 后端 hutool

终于,SM2国密算法被Linux内核社区接受了!

阿里云基础软件团队

关于编码

西贝

Java 编码

mongodb源码实现、调优、最佳实践系列-Mongodb网络模块源码实现及性能调优(一)

杨亚洲(专注mongodb及高性能中间件)

MySQL mongodb 中间件 架构师 分布式数据库mongodb

如何基于消息中间件实现分布式事务?我想说的都在这儿了!!

冰河

分布式事务 微服务 分布式数据库 数据一致性 海量数据

架构师训练营第2期-第一周-学习总结

井中人

一致性 hash

garlic

极客大学架构师训练营

epoll服务器解析

菜鸟小sailor 🐕

食堂就餐卡系统设计

Griffenliu

Java中的String到底占用多大的内存空间?你所了解的可能都是错误的!!

冰河

Java 内存泄露 string 性能调优 内存溢出

架构师训练营第 2 期第一周作业

井中人

听说你会缓存?

架构师修行之路

redis 缓存 微服务

week04 作业

xxx

分布式缓存架构,消息队列,负载均衡

garlic

极客大学架构师训练营

二十一、深入Python强大的装饰器

刘润森

Python

Week 4命题作业

balsamspear

极客大学架构师训练营

设计数据库集群读写分离并非易事

架构师修行之路

分布式 微服务

如果只推荐一本 Python 书,我要 Pick 它!

Python猫

Python 学习 编程 程序员 码农

一文读懂线程池的工作原理(故事白话文)

捡田螺的小男孩

Java 面试 线程池 线程池工作原理

Linux内核系统结构

林昱榕

Linux 操作系统 内核 系统调用 操作系统结构

java安全编码指南之:线程安全规则

程序那些事

java安全编码 java安全 java安全编码指南 java代码规范 java代码安全

spring-boot-route(二十三)开发微信公众号

Java旅途

Java Spring Boot

Week 4学习总结

balsamspear

极客大学架构师训练营

week04总结

xxx

Hummer 轻量级跨端技术框架详解及实战

Hummer 轻量级跨端技术框架详解及实战

打破 Google 破坏性的搜索垄断-InfoQ