【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

五年官司终败诉:爬取领英数据“完全合法”,万亿爬虫大军蠢蠢欲动

  • 2022-04-21
  • 本文字数:3574 字

    阅读完需:约 12 分钟

五年官司终败诉:爬取领英数据“完全合法”,万亿爬虫大军蠢蠢欲动

互联网爬虫战争永无休止。


这算得上是爬虫斗争历史上具有里程碑意义的一个裁决。本周一,美国法院裁定,数据分析公司 HiQ 控诉 LinkedIn 案维持原判,并且认定从公共网站收集个人资料完全合法。


LinkedIn 是微软旗下的职业社交平台,用户可以在 LinkedIn 网站建立个人档案,包括教育背景、工作经历、技能等信息。HiQ 则是一家数据分析公司,从 LinkedIn 爬取公开数据,进行整理分析后将处理结果出售给相关企业。


LinkedIn 虽拥有数据,然而数据本身是由用户提供给 LinkedIn 的。在大数据时代,一些互联网平台积累了大量用户数据,并以此建立自身资源优势:在和其他互联网企业与平台的竞争中,用户数据越多利用得越好,就越容易吸引更多用户,从而处于更有利的地位。这种滚雪球式的效应使得互联网企业往往将数据视为竞争中的核心资产。


官司打了两三回,最终偏向公共利益


在此案之前,任何访问 LinkedIn 网站的人都可以得到这些数据。在数据分析公司 HiQ 长期对 LinkedIn 的网站数据进行爬取行为后,LinkedIn 向 HiQ 发送了禁止通知函,并在函中援引了《计算机欺诈与滥用法案》(Computer Fraud and Abuse Act, “CFAA”)。


2017 年,HiQ 先发制人,作为原告方,控诉 LinkedIn 通过法律、技术等多种方式阻止其复制 LinkedIn 用户的公开个人资料,还向法院申请了临时禁令。


虽然 HiQ 公司对 LinkedIn 网站实施了网络爬虫,但美法院法官认为,这种爬虫行为并不违反法律,因为 LinkedIn 网站上的数据是公开数据,对于公开数据,即使违反对方设置的 robot 协议,也应当是被法律允许的。


这就像在白天推开一家未锁门的商店进去看看,并不能将其认定为非法侵入。因此,法院最后不仅没有认定 HiQ 公司的爬虫行为违法,甚至反过来认定 LinkedIn 的反爬虫技术违法。


负责审理此案的地方法官向 HiQ 授予了初步禁令,禁止 LinkedIn 在案件审理期间干扰 HiQ 的数据爬取工作。法官认为,《计算机欺诈与滥用法案》(将“未经授权”或者以“超出所授予访问权限”方式访问受保护计算机,认定为犯罪行为)并不适用于 HiQ 从 LinkedIn 网站收集公开数据的行为。



面对不利局面,LinkedIn 选择上诉。早在 2019 年,上诉法院就曾经支持下级法院于 2017 年在 HiQ 诉 LinkedIn 案中做出的裁决,认定网络爬取并不属于“未经授权访问受保护计算机”行为,裁定也依旧维持原判。LinkedIn 再次选择上诉。但两年之后,第九巡回法院仍然站在 HiQ 一边,并将此案发回加州北区法院。


LinkedIn 当然对此不服,随后向美国最高法院提起上诉。2020 年 3 月,LinkedIn 要求最高法院审查第九巡回法院做出裁决。该公司辩护称,其以技术手段阻止网络爬取、同时发送终止通告函件的行为,应被视为符合正常授权机制的要求。实际上,作为微软持有的社交媒体网站、LinkedIn 一直努力避免站内结果被外界直接查看,但又不希望因过度封闭而自绝于搜索引擎。


LinkedIn 方面的律师在递交给最高法院的申诉书中写道,“根据第九巡回法院的裁定,除非用密码机制将网站彻底封锁起来,否则任何一家决定部分公开网站内容的企业——包括 Ticketmaster、Amazon 等在线零售商,乃至 Twitter 等社交网络平台——都将暴露在批量部署的侵入性爬虫程序的面前。”


“而一旦选择密码封锁,则网站将无法被搜索引擎正常检索,导致人们无法经由互联网上最主要的信息获取渠道发现其中信息。”


2021 年 6 月 3 日,美国最高法院曾在另一起类似案件,即 Van Buren 诉美国政府案中,缩小过《欺诈与滥用法案》的管控范围。Nathan Van Buren 是佐治亚州的一名警察,有权限为执法目的搜索有关车牌的计算机记录。他中了联邦调查局的圈套,为私人目的搜索这些记录(应联邦调查局线人的要求,该线人提出为这些信息支付数千美元)。最终美法院对他判处了 18 个月的监禁。人们一直批评该法案未对“未经授权”和“超出授权范围”做出清晰界定。


美国高等法院在 Van Buren 案中表示,单纯违反服务条款并不符合《欺诈与滥用法案》中提出的“超出授权范围”条件。然而,基于凭证的锁闭机制是否足以作为确定“未经授权”访问的唯一方法,美国高等法院仍未能给出明确答案。


两周之后,美国最高法院决定将 HiQ 诉 LinkedIn 案发回第九巡回法院,希望结合 Van Buren 案的判例重新审视《欺诈与滥用法案》的适用范畴。但从结果来看,上诉法院虽然参考了 Van Buren 判例,但最终仍做出了维持两年前原判意见的裁定。


第九巡回法院在裁决中指出,“公共网站的一大基本特征,就是其中公开可见的部分不受访问限制;换言之,这些部分将对任何拥有网络浏览器的访问者开放。”


“也就是说,如果将这些托管公开页面的计算机视为房屋,那么公共网站设备在部署之初就没有设置任何“前门”,自然不存在提高或降低访问门槛一说。因此,Van Buren 案强化了我们的裁定,即“未经授权”概念确实不适用于公共网站。”


但院方裁决并未解决 HiQ 与 LinkedIn 之间的恩怨纠葛,只是单纯禁止 LinkedIn 继续干扰 HiQ 收集其公开网站数据、并表示不支持根据《欺诈与滥用法案》对 HiQ 的分析业务提出索赔。而案件背后真正核心的不公平竞争、隐私侵犯等问题仍未得到解决。


在邮件声明中,LinkedIn 发言人表示该公司不会放弃诉讼,将继续在法庭上寻求合理的结果。“我们对结果感到失望,但这只是一项初步裁决、案件还远未结束。我们将继续努力保护 LinkedIn 会员,特别是保护他们在网站上掌控个人信息的能力。”


此案的影响力


数据抓取行为如今被广泛应用到社会生活当中,不仅仅是在商业上的使用,还有学术研究上的应用等等。因此,本案的判决也受到极大的关注。此案的裁决得到了美国媒体的欢呼和赞誉,认为第九巡回法院的决定是档案工作者、学者、研究人员和记者的“重大胜利”。


对于争论不休的数据和隐私的归属问题,这个案件也在一定程度上进行了讨论。从第九巡回上诉法院的观点来看,其裁决支持了用户才是数据的所有者,平台只是依据用户的授权才使用这些数据,而不能完全拥有这些数据。


在 Reddit 上,网友们对 LinkedIn 发言人提起上诉的解释发起了大量嘲讽:“这样的解释即使不是荒谬的,也是冒昧的,提供数据的用户从来没有得到平台的反馈”,“保护客户隐私的说法被夸大了”,“现在谁会相信这样的解释是有意义的?”…



另一方面,数据抓取也是现代互联网生态的重要组成部分,根据 Akamai 的统计,全球互联网流量中,近 40% 的流量由爬虫所占据。在 2021 年第二季度,全球遭遇的爬虫攻击达到了 700 亿次,同比增长 15%。美国法院这一裁定,也意味着从此百亿爬虫抓取在线零售商和社交网络平台的公开信息,是合乎美国法律的。


中美法律不同,需谨慎使用爬虫技术


或许正是由于数据的重要地位,近年来中外关于数据的争议问题层出不穷。在中国,爬虫行为引发的不正当纠纷案件也不在少数。德恒律师事务所曾发布过一篇名为《爬进“不正当竞争”的虫,代价不菲》的文章,在文章中讲述道,他们以“爬虫”等关键词在北大法宝检索并筛选出自 2016 年起的爬虫类相关案件共 49 件,大部分为刑事案件,涉及侵犯著作权罪、非法经营罪、侵犯公民个人信息、诈骗罪、敲诈勒索罪等,也包括部分民商法案件,主要涉及著作权和不正当竞争纠纷。


其中一个典型案例是大众点评诉百度案。


2016 年,百度因大量使用爬虫抓取大众点评的点评信息,在百度地图中进行展示,后被大众点评诉至法院。法院审理认为,百度的行为违反了公认的商业道德和诚实信用原则,构成不正当竞争。


在大众点评诉百度的二审判决中,法官明确指出:“在自由、开放的市场经济秩序中,经营资源和商业机会具有稀缺性,经营者的权益并非可以获得像法定财产权那样的保护强度,经营者必须将损害作为一种竞争结果予以适当的容忍。本案中,汉涛公司所主张的应受保护的利益并非绝对权利,其受到损害并不必然意味着应当得到法律救济,只要他人的竞争行为本身是正当的,则该行为并不具有可责性。”


虽然技术是中立的,但是技术应用存在着边界。目前,平台的数据权属无法进行明确化的界权,所以界定法律责任的过程还是比较复杂的。也因此,随着互联网技术的发展,“爬虫”二字在中文语境逐渐带上了“贬义”色彩。


对编写网络爬虫的程序员来说,如果爬到不该爬取的数据,则存在违法的可能。“爬虫写得好,牢饭吃得早”戏称的存在,也说明了我们需要谨慎对待爬虫技术。就像 LinkedIn 平台,获取公共数据一般有两个选择:使用爬虫 /scraper (免费但有风险),使用 API(不是免费但安全),如果一定需要使用这些公开数据,需要我们做出谨慎的抉择。


参考链接:

https://www.theregister.com/2022/04/19/scraping_public_data_linkedin/

https://news.ycombinator.com/item?id=31075396

《数据抓取的边界在哪里?》:http://rmfyb.chinacourt.org/paper/html/2020-03/19/content_166271.htm?div=-1

《爬进“不正当竞争”的虫,代价不菲》:http://www.dehenglaw.com/CN/tansuocontent/0008/023370/7.aspx?MID=0902


2022-04-21 15:135029

评论

发布
暂无评论
发现更多内容

Android C++系列:Linux网络(四)TCP详解

轻口味

c++ android 28天写作 12月日更

Deutsch-Jozsa Algorithm

Si Yuan

量子计算

HHL Algorithm

Si Yuan

量子计算

1-7聚合架构第八讲:ADM被骂的冤吗?

钰湚—付晓岩

企业架构 业务架构 聚合架构

Redis 核心原理与实战总结系列

码哥字节

Redis 6.0 技术专题合集

MySql优化:详细解读InnoDB存储引擎

秋水

MySQL性能优化 内容合集 签约计划第二季 MySQL InnoDB

模块二作业

Geek_e6f7f6

架构训练营

我们需要一个React框架吗?

RingCentral铃盛

React 框架 分布式应用框架

【分布式技术专题】「分布式ID系列」百度开源的分布式高性能的唯一ID生成器UidGenerator

洛神灬殇

唯一ID 12月日更 UidGenerator 服务ID 百度技术

Servlet的生命周期

JavaEdge

12月日更

预付式消费不安全怎么办?区块链技术来了

CECBC

成年人除了工作以外,在社会上还要争取什么?

DaemonStone

管理 技术人生 职业发展 人生选择

Linux之cd命令

入门小站

目录

dart系列之:实时通讯,在浏览器中使用WebSockets

程序那些事

flutter dart HTTP 程序那些事 12月日更

区块链,开启智慧养老新时代

CECBC

100+行业大牛,Qcon全球软件开发者大会参会记录

看点代码再上班

技术 互联网 软件开发 Qcon

创业合伙人的选择和经营

wood

创业 合伙人 28天写作

MySql优化:MySQL体系结构及存储引擎总结

秋水

MySQL性能优化 内容合集 签约计划第二季

模块六作业

doublechun

「架构实战营」

字典树之旅03.Patricia Trie(一)

极客志

Java 自然语言处理 数据结构 算法 字典树

1-8聚合架构第九讲:我们聊聊4个A?

钰湚—付晓岩

企业架构 业务架构 聚合架构

10.《重学JAVA》--控制语句(二)

杨鹏Geek

Java 25 周年 28天写作 12月日更

【Promise 源码学习】第十七篇 - async/await 简介

Brave

源码 Promise 12月日更

SQL优化和索引

lixiaofeng

SQL优化 索引优化 内容合集 签约计划第二季

给弟弟的信第9封|初入职场攻略

大菠萝

28天写作

Redis 实战:巧用 Bitmap 实现亿级数据统计

码哥字节

redis BitMap 签约计划第二季

电商系统微服务架构设计

天天向上

架构实战营

Quantum Mechanics Is Different

Si Yuan

量子计算

🏆视差特效的原理和实现方法

德育处主任

JavaScript 前端 特效 前端特效 css特效

如何决定响应式网站的 CSS 单位?

海拥(haiyong.site)

响应式 大前端 28天写作 签约计划第二季 12月日更

聊聊SpringBoot中的两种占位符:@*@ 和 ${*}

xiaoxi666

maven springboot

五年官司终败诉:爬取领英数据“完全合法”,万亿爬虫大军蠢蠢欲动_语言 & 开发_Tina_InfoQ精选文章