2021腾讯数字生态大会直播预约通道开启!技术内容大爆发,开发者必看! 了解详情
写点什么

打破 Google 破坏性的搜索垄断

2020 年 12 月 31 日

打破 Google 破坏性的搜索垄断

Google 在网络搜索方面有绝对的优势。近来,Google 在搜索算法方面的垄断地位,也就是搜索引擎将 Google 自己的内容放在搜索结果的首位,频繁引起美国和欧洲的反垄断关注。


但是,Google 搜索业务的垄断并非唯一。由于拥有目前为止最大最好的在线索引,Google 的地位受到了保护。


Daisuke Wakabayashi 在《纽约时报》(The New York Times)上写道,软件工程师 Zack Maril 成立了一个名为 “Knucklehead Club”(傻瓜俱乐部)的组织(因为只有傻瓜才会挑战如此有钱有势的公司)来研究并唤起人们对这一事实的关注。


基于结构上的原因,我将在下面解释,为了建立这样一个索引而 “抓取”网络的行为是自然的垄断行为,而且由于 Google 的低调行为,没有人会对其主导地位提出真正的挑战。“一般来说,人们不会谈论这个问题,因为人们对它知之甚少。” Maril 在接受采访时告诉《周刊报道》(The Week)。世界各国政府都应该从公共利益的角度出发,对这家公司进行监管,或者干脆接管。


首先,让我解释一下机制。在经济学术语中,自然垄断指的是高固定成本和低边际成本的市场。电力就是一个典型的例子,它需要巨大的初始投资来建造发电厂,并将电线拉到每家每户,此后,每增加 1 度电的成本几乎为零。一家公司一旦建立了这样的网络,刚刚起步的新公司就几乎不可能与之竞争了。


Google 的网络爬虫也基本上处于相似的位置。原因如下:要运行搜索引擎,你需要对互联网建立一个索引,这样就可以搜索到东西了(就像图书馆里的卡片目录一样)。这样的话,就必须定期抓取互联网,尽可能多地复制网页,这样索引就能尽可能地广泛和最新。


这就给竞争设置了两个障碍。第一点,也是最明显的,互联网是巨大的,因此要建立一个能看到其中哪怕一小部分的爬虫,都需要巨大的投资。很长时间以来,Google 一直遥遥领先,以至于另一个科技巨头微软才开始参与竞争。


第二点,更为微妙的是,网站所有者有限制所有非 Google 爬虫的动机。创建一种互联网规模的爬虫可能很昂贵,但是创建一种只会抓取少量网站的爬虫是很便宜的,人们之所以这样做是有很多原因的。网站带宽是要花钱的,而爬虫的自动操作会消耗大量的带宽。


因此,很多管理员禁止所有类似爬虫的活动,但 Google 却获得了豁免,因为 Google 的搜索结果显示对流量有很大影响。(Knucklehead Club 的研究还表明,Google 从许多网站获得的利益甚至比这更多)。


以上两点意味着,任何新公司都不可能对 Google 网络索引的统治地位构成严重威胁。大多数网站都会禁止任何新的主要爬虫,因为它占用了网站的流量,并且带来的回报很小,但是新的搜索引擎也不能增加流量,正因为它不能开发合适的索引来吸引用户。


甚至微软,在它的搜索引擎必应花了几年时间,耗费了几十亿美元,但还是远远落后于他们。正因为它不能开发合适的索引来吸引用户。甚至微软,在它的搜索引擎 Bing(必应)花了几年时间,花了几十亿美元,但还是远远落后于他们。


对于外行人来说,这也许没什么大不了的。毕竟,Google 很不错,所以我们大概不需要创建更多的网络索引,或者迫使 Google 让其他人使用它的索引,对吗?甚至在搜索方面,人们对此也不太清楚。


举例来说,Google 在某些领域变得极端糟糕,如产品评论,其搜索结果常常被大量腐败的、算法博弈的垃圾内容或其自身的广告弄得乱七八糟。假如其它公司也能参与竞争,我们就可以看到它们在一些特定的任务,甚至仅仅是在普通搜索方面打败 Google 的搜索引擎。


但更深层次的问题是,控制唯一优秀的互联网索引有很大的优势。Maril 告诉《周刊报道》,这个庞大的数据宝库让 Google “在机器学习和人工智能方面难以置信的优势”。举例来说,机器翻译,“只有当你达到数据的临界点时,它才会起作用”。


同样的道理,从其他网站的角度来考虑,确保能够被 Google 抓取,看起来不像是某种恩惠,而更像是必须缴纳的 “Google 税”,他说。任何拥有网站的人,只需花点时间和金钱,就可以让 Google 索引他们的网页,以免他们无法被网民发现。这些数据将给公司带来越来越难以逾越的竞争优势。


正如我之前所论述的那样,Google 之所以如此强大,如此有利可图,很大程度上是因为先发优势和网络效应。它在正确的时间,出现在正确的地方,用一个比其他人更好的搜索引擎,这种优势滚雪球般地成为了对唯一存在的,或者说能够存在的(至少在目前的现状下)良好的网络索引的私有控制。


只有 Google 才有权使用这些数据,这是不公平的,但是也不清楚有多少商业和研究想法会因为没人能得到他们的数据而被扼杀在萌芽状态。垄断企业容易变得肥胖和懒惰。


那么该怎么办呢?传统的处理自然垄断的方法不是国有化就是管制。但是,这些方法可能并不适合,因为与过去所有的自然垄断不同,互联网覆盖了全球。


举例来说,如果 Google 的网络索引由联邦政府拥有,他们可能会试图将其用作某种疯狂的帝国主义活动的一部分。比如,美国和欧盟同意一项国际条约,该条约要求 Google 支付象征性费用许可其索引内容,或许更为明智。另一种方法是,各国只需建立自己的公共互联网索引,供所有人免费使用。


但是,在有人提出解决方案之前,我们必须仔细研究一下这个问题。幸好,众议院一直在关注这一问题,甚至特朗普的司法部也提出诉讼,指控 Google 违反反垄断法。那只是国家努力的开始,需要建立一个人人平等的互联网。


作者介绍:


Ryan Cooper,《周刊报道》(The Week)的全国记者。他在《华盛顿月刊》(Washington Monthly)、《新共和》(The New Republic)和《华盛顿邮报》(Washington Post)发表文章。


原文链接:


https://theweek.com/articles/955074/bust-googles-destructive-search-monopoly


2020 年 12 月 31 日 18:081426
用户头像
刘燕 InfoQ记者

发布了 697 篇内容, 共 224.4 次阅读, 收获喜欢 1340 次。

关注

评论

发布
暂无评论
发现更多内容

详解什么是JMM!

愚者

JMM

fil是怎么挖的?Fil矿机有什么配置要求?

区块链 IPFS fil fil矿机 fil矿机配置

Spring Boot基础学习

偏执

面试 后端 spring Boot Starter

【入门必读】《TcaplusDB数据库常见问题解决及诊断技巧集锦-数据库使用类-2》

数据人er

数据库 nosql tencentdb TcaplusDB

体验设计也可以很简单。只要释放出一些善意就可以了。

石云升

用户体验 7月日更 体验设计

现在双非本科的学历还有机会拿到大厂 offer 吗?

java小李

面试 spring Boot Starter

抖音快手获客系统开发公司

“运愁维卧”,决胜千里 | TcaplusDB 7.24运维日致敬每一位运维人

数据人er

数据库 nosql tencentdb TcaplusDB

阿里员工:非科班出身,工作10年,我从1800到如今年薪200万

互联网架构师小马

拼多多 +蚂蚁金服 +头条(已拿offer),面试真题分享!

云流

Java 程序员 架构 面试 计算机

博睿数据把脉“体验经济”,以“上帝”视角解决业务运营挑战

博睿数据

为什么在线自习室这么受年轻人的追捧?

anyRTC开发者

音视频 WebRTC 在线教育 在线自习室 实时直播

三分钟评估 你的CMDB是“磐石”还是“豆腐渣”

鹿小U

DevOps 运维自动化 CMDB IT运维

Java版人脸检测详解下篇:开发java应用并做成docker镜像同步

编程菌

Java 编程 程序员 技术 技术栈

四种策略切实保障用户身份安全-行云管家堡垒机!

行云管家

堡垒机 双因子认证

你的服务器可以安装TcaplusDB吗?来看一下软硬件配置

数据人er

数据库 nosql tencentdb TcaplusDB

单机12万QPS——FunTester复仇记

FunTester

性能测试 接口测试 测试框架 压力测试 测试开发

ONES Performance 研发效能管理解决方案

万事ONES

研发效能 解决方案 ONES

国际啤酒节|TcaplusDB以包容的心态对外开放

数据人er

数据库 nosql tencentdb TcaplusDB

双因子认证是什么意思?有什么作用?

行云管家

信息安全 双因子认证

持续演进的云原生应用交付

CODING DevOps

云原生 k8s 研发工具 CODING DevOps 交付工具

博睿作为AIOps代表厂商入选《2021年中国ICT技术成熟度曲线报告》

博睿数据

数据链DNA:可观测助力云原生时代服务可达

博睿数据

博睿数据携数据链DNA理念亮相山东 助力金融行业数字化转型

博睿数据

用了七个步骤,4面通过拿offer,终“跳进”字节跳动

云流

Java 编程 程序员 架构 面试

易聊首次公开智能客服技术与产品体系,在线客服IM永久免费改变行业模式

易聊科技

快手技术大咖分享“领域数据建设”实践经验

Geek老T

大数据 数据治理

洗清杂念 辟除妄见 归于自然|靠谱点评

无量靠谱

有了 NGINX 和 Kong,为什么还需要 Apache APISIX?

Apache APISIX 中国社区

网关 kong ngnix APISIX

模块3.架构设计

脉动

百度智能云在视频云解决方案市场位居前三!

百度大脑

云计算 云服务 IDC

英特尔On技术创新峰会

英特尔On技术创新峰会

打破 Google 破坏性的搜索垄断-InfoQ