GMTC 全球大前端技术大会 8 折涨价倒计时 2 天,现在购票立减 ¥960 ! 了解详情
写点什么

打破 Google 破坏性的搜索垄断

2020 年 12 月 31 日

打破 Google 破坏性的搜索垄断

Google 在网络搜索方面有绝对的优势。近来,Google 在搜索算法方面的垄断地位,也就是搜索引擎将 Google 自己的内容放在搜索结果的首位,频繁引起美国和欧洲的反垄断关注。


但是,Google 搜索业务的垄断并非唯一。由于拥有目前为止最大最好的在线索引,Google 的地位受到了保护。


Daisuke Wakabayashi 在《纽约时报》(The New York Times)上写道,软件工程师 Zack Maril 成立了一个名为 “Knucklehead Club”(傻瓜俱乐部)的组织(因为只有傻瓜才会挑战如此有钱有势的公司)来研究并唤起人们对这一事实的关注。


基于结构上的原因,我将在下面解释,为了建立这样一个索引而 “抓取”网络的行为是自然的垄断行为,而且由于 Google 的低调行为,没有人会对其主导地位提出真正的挑战。“一般来说,人们不会谈论这个问题,因为人们对它知之甚少。” Maril 在接受采访时告诉《周刊报道》(The Week)。世界各国政府都应该从公共利益的角度出发,对这家公司进行监管,或者干脆接管。


首先,让我解释一下机制。在经济学术语中,自然垄断指的是高固定成本和低边际成本的市场。电力就是一个典型的例子,它需要巨大的初始投资来建造发电厂,并将电线拉到每家每户,此后,每增加 1 度电的成本几乎为零。一家公司一旦建立了这样的网络,刚刚起步的新公司就几乎不可能与之竞争了。


Google 的网络爬虫也基本上处于相似的位置。原因如下:要运行搜索引擎,你需要对互联网建立一个索引,这样就可以搜索到东西了(就像图书馆里的卡片目录一样)。这样的话,就必须定期抓取互联网,尽可能多地复制网页,这样索引就能尽可能地广泛和最新。


这就给竞争设置了两个障碍。第一点,也是最明显的,互联网是巨大的,因此要建立一个能看到其中哪怕一小部分的爬虫,都需要巨大的投资。很长时间以来,Google 一直遥遥领先,以至于另一个科技巨头微软才开始参与竞争。


第二点,更为微妙的是,网站所有者有限制所有非 Google 爬虫的动机。创建一种互联网规模的爬虫可能很昂贵,但是创建一种只会抓取少量网站的爬虫是很便宜的,人们之所以这样做是有很多原因的。网站带宽是要花钱的,而爬虫的自动操作会消耗大量的带宽。


因此,很多管理员禁止所有类似爬虫的活动,但 Google 却获得了豁免,因为 Google 的搜索结果显示对流量有很大影响。(Knucklehead Club 的研究还表明,Google 从许多网站获得的利益甚至比这更多)。


以上两点意味着,任何新公司都不可能对 Google 网络索引的统治地位构成严重威胁。大多数网站都会禁止任何新的主要爬虫,因为它占用了网站的流量,并且带来的回报很小,但是新的搜索引擎也不能增加流量,正因为它不能开发合适的索引来吸引用户。


甚至微软,在它的搜索引擎必应花了几年时间,耗费了几十亿美元,但还是远远落后于他们。正因为它不能开发合适的索引来吸引用户。甚至微软,在它的搜索引擎 Bing(必应)花了几年时间,花了几十亿美元,但还是远远落后于他们。


对于外行人来说,这也许没什么大不了的。毕竟,Google 很不错,所以我们大概不需要创建更多的网络索引,或者迫使 Google 让其他人使用它的索引,对吗?甚至在搜索方面,人们对此也不太清楚。


举例来说,Google 在某些领域变得极端糟糕,如产品评论,其搜索结果常常被大量腐败的、算法博弈的垃圾内容或其自身的广告弄得乱七八糟。假如其它公司也能参与竞争,我们就可以看到它们在一些特定的任务,甚至仅仅是在普通搜索方面打败 Google 的搜索引擎。


但更深层次的问题是,控制唯一优秀的互联网索引有很大的优势。Maril 告诉《周刊报道》,这个庞大的数据宝库让 Google “在机器学习和人工智能方面难以置信的优势”。举例来说,机器翻译,“只有当你达到数据的临界点时,它才会起作用”。


同样的道理,从其他网站的角度来考虑,确保能够被 Google 抓取,看起来不像是某种恩惠,而更像是必须缴纳的 “Google 税”,他说。任何拥有网站的人,只需花点时间和金钱,就可以让 Google 索引他们的网页,以免他们无法被网民发现。这些数据将给公司带来越来越难以逾越的竞争优势。


正如我之前所论述的那样,Google 之所以如此强大,如此有利可图,很大程度上是因为先发优势和网络效应。它在正确的时间,出现在正确的地方,用一个比其他人更好的搜索引擎,这种优势滚雪球般地成为了对唯一存在的,或者说能够存在的(至少在目前的现状下)良好的网络索引的私有控制。


只有 Google 才有权使用这些数据,这是不公平的,但是也不清楚有多少商业和研究想法会因为没人能得到他们的数据而被扼杀在萌芽状态。垄断企业容易变得肥胖和懒惰。


那么该怎么办呢?传统的处理自然垄断的方法不是国有化就是管制。但是,这些方法可能并不适合,因为与过去所有的自然垄断不同,互联网覆盖了全球。


举例来说,如果 Google 的网络索引由联邦政府拥有,他们可能会试图将其用作某种疯狂的帝国主义活动的一部分。比如,美国和欧盟同意一项国际条约,该条约要求 Google 支付象征性费用许可其索引内容,或许更为明智。另一种方法是,各国只需建立自己的公共互联网索引,供所有人免费使用。


但是,在有人提出解决方案之前,我们必须仔细研究一下这个问题。幸好,众议院一直在关注这一问题,甚至特朗普的司法部也提出诉讼,指控 Google 违反反垄断法。那只是国家努力的开始,需要建立一个人人平等的互联网。


作者介绍:


Ryan Cooper,《周刊报道》(The Week)的全国记者。他在《华盛顿月刊》(Washington Monthly)、《新共和》(The New Republic)和《华盛顿邮报》(Washington Post)发表文章。


原文链接:


https://theweek.com/articles/955074/bust-googles-destructive-search-monopoly


2020 年 12 月 31 日 18:081346
用户头像
刘燕 InfoQ记者

发布了 568 篇内容, 共 179.1 次阅读, 收获喜欢 1086 次。

关注

评论

发布
暂无评论
发现更多内容

CAP原理简述&Doris 临时失效处理过程

Mars

CAP原理

架构师训练营第六周作业

李日盛

CAP

Week6 (技术选型二)作业1

shuyaxx

第 10 周 作业

Pyr0man1ac

BATJ一线大厂面试必问的4大框架源码,该如何学习?

Java架构师迁哥

【第十周】课后作业

云龙

Spring中的线程池与任务调度

Rayjun

Java spring 线程池

架构是训练营第 10 周学习笔记

郎哲158

周练习 10

何毅曦

JVM垃圾回收

少林寺三毛

JVM

食堂就餐卡系统设计

ルンルン

架构师训练营第一周”架构方法“学习笔记

随秋

极客大学架构师训练营

LeetCode题解:121. 买卖股票的最佳时机,一次遍历,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

关于微服务架构

天天向上

极客大学架构师训练营

第十周学习总结

knight

第 10 周 模块分解

Pyr0man1ac

架构师训练营 - 第 10 周课后作业(1 期)

阿甘

架构师训练营第六周学习笔记

李日盛

笔记

「架构师训练营第 1 期」第十周作业

张国荣

架构方法 - 学习笔记

心晴雨亦晴(~o~)

第六周学习总结

晴空万里

技术选型总结二

Mars

技术选型

架构是训练营第 10 周作业

郎哲158

第六周 cap原理

Geek_9527

训练营第六周作业

大脸猫

极客大学架构师训练营

第六周 cap原理

落朽

架构师训练营第一周”架构方法“作业

随秋

极客大学架构师训练营

架构师 01 期,第十周课后作业

子文

架構師訓練營第 1 期 - 第 10 周作業

Panda

架構師訓練營第 1 期

【架构师训练营第 1 期 10 周】 作业

Bear

极客大学架构师训练营

【第十周】课后作业

薇凉

打破 Google 破坏性的搜索垄断-InfoQ