AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

LinkedIn 被裁定应开放对其公开资料数据的爬取

  • 2017-08-29
  • 本文字数:1371 字

    阅读完需:约 4 分钟

一位美国联邦法官裁定,Microsoft 旗下的 LinkedIn 公司不能阻止第三方 Web 爬虫爬取其公开资料数据。这一裁定是根据初创企业 hiQ Labs 针对 LinkedIn 的诉讼而于 8 月 14 日做出的,这次诉讼是在 LinkedIn 向该初创企业发出一份要求其停止并中断爬取数据的信函后发起的。

hiQ Labs 爬取 LinkedIn 用户资料中的公开可见信息,为企业了解是否雇员有意向离职提供帮助。这类爬取行为违反了 LinkedIn 的反爬取软件禁令,因此在2017 年5 月23 日,LinkedIn 向HiQ Labs 发出了信函,要求该公司停止这类爬取行为,并威胁要依据《电脑欺诈和滥用法》(CFAA,Computer Fraud and Abuse Act)而采取法律行为。就此,hiQ Labs 发起了对LinkedIn 的诉讼,指责LinkedIn 具有反竞争行为,侵犯了企业访问公开可用信息的言论自由权利。该初创企业的代理律师指出, hiQ Labs 应该并未访问 LinkedIn 的主要数据源。法官 Edward Chen 在裁定中,特意呼吁 LinkedIn 对 CFAA 做“广泛的诠释”:“如果采纳 LinkedIn 的行为,那么将对互联网的开放访问产生深远的影响,这是议会在三十年前颁布 CFAA 时所不愿意看到的结果”。据报道,LinkedIn 将对这一裁决提出上诉

对于数据所有者及隐私,以及社会媒体公司对用户公开发表信息的控制程度,该联邦政令的影响重大。HiQ Labs 认为,LinkedIn 对公共资料获取的限制违反了建立在最高法院最近的一项裁决上的“第一修正案”(the First Amendment),即将社交媒体网站等同于一种“现代公众广场”。 Hacker News 的一个热议话题显示,社交媒体用户是否将他们公开发布数据等同视作将信息张贴在公开广场上,这依然有待观察。

在本次法庭案例中,涉及了数据隐私问题的另一个意外维度,那就是LinkedIn 宣称它想要保护的并非仅是数据本身,而是包括对被更改数据的访问。LinkedIn 允许用户公开发表个人资料,默认情况下并不会共享对简历的某些更改。但是hiQ Labs 通过大规模抓取可以检测到资料中的更改情况,并使用这些发现情况去告警企业雇主存在潜在的雇员流失问题。虽然有部分用户明白公开发表资料的深层影响,但是大多数用户不可能时刻惦记从数据中可以产生何种洞察,以及这些数据会被如何使用,而有一些他们所不了解的企业却在持续地监测个人资料的更新情况。

Programmable Web 网站的主编 David Berlind 最近评论了该裁定对API 经济的影响。他指出,LinkedIn 数据的价值并非在于数据本身,而是其后的数据模型。该裁定将允许机器人毫无顾忌地利用这些数据企业,这降低了LinkedIn 等产品的整体价值。他进一步提出,该裁定强制企业允许爬虫规避企业发布的API,妨碍了企业去“扩展并理解数据和数据所驱动价值之间的关联性”。

虽然LinkedIn 确实提供了一些 API ,但是看上去很多开发人员并不认为这些 API 适合自身的需要,因为编程界业已形成了广泛爬取 LinkedIn 数据的事实。已有提供在 Github 上的开源爬取库,开发人员可在 Stack Exchange Quora 上就相关话题开展交流,商业数据爬取公司也提供了采集 LinkedIn 数据的教程。在2016 年,该Microsoft 旗下的公司发起了一次针对一百个匿名爬取数据机器人用户的诉讼,所涉及的机器人意图通过伪造的用户账号访问非公开的简历数据。值得注意的是,LinkedIn 非常支持白名单服务提供商(如搜索引擎)的爬取行为。

查看英文原文: LinkedIn Ordered to Allow Scraping of Public Profile Data

2017-08-29 19:002958
用户头像

发布了 391 篇内容, 共 143.6 次阅读, 收获喜欢 257 次。

关注

评论

发布
暂无评论
发现更多内容

Tech Talk 活动预告 | 送走 CentOS Linux 8,开发者们该如何保持 Linux 的采用途径?

亚马逊云科技 (Amazon Web Services)

开发者

什么是FAQ?如何编写FAQ文档?

小炮

Linux之scp命令

入门小站

Linux

在线上传图片二维码识别解析

入门小站

工具

C++后台开发学习路线

Linux服务器开发

后台开发 C/C++ 后端开发 Linux服务器开发 C++后台开发

ModStartCMS模块化建站系统 v3.4.0 富文本粘贴上传,自定义分页

ModStart开源

php laravel modstart

无缝融入 Kubernetes 生态 | 云原生网关支持 Ingress 资源

阿里巴巴云原生

小程序插件提升APP使用体验

Speedoooo

敏捷开发 APP开发 app性能 容器平台 小程序插件

5G和Wi-Fi市场与技术的一些思考系列之一

李伟-晨泳

消息复杂计算的抽象和简化

阿里巴巴终端技术

数据处理 客户端 消息

免费机器资源、硬核导师、丰厚奖励|OpenI启智社区联合主办的飞桨黑客马拉松第二期开始啦~

OpenI启智社区

TDesign 更新周报(2022年3月第2周)

TDesign

“==”和“===”,难道不是多一个的区别吗?

华为云开发者联盟

JavaScript typescript string 变量 操作符

网络安全 kali web安全【渗透测试】目录遍历漏洞

学神来啦

网络安全 渗透测试 WEB安全 kali kali Linux

详解图像处理的算术运算与逻辑运算

华为云开发者联盟

OpenCV 计算机视觉 图像处理 图像算术 逻辑运算

网易数帆云原生日志平台架构实践

网易数帆

云原生 网易

业务驱动的全景监控体系在阿里的应用 | 阿里巴巴DevOps实践指南

阿里云云效

云计算 阿里云 DevOps 云原生 云端开发

Hoo虎符研究院|区块链简报20220314期

区块链前沿News

Hoo 虎符交易所

国产虚拟化软件H3C CAS体验之环境搭建(虚拟机搭建)

WangNing

虚拟化 环境搭建 H3C CAS

云图说|DRS数据对比——带您随时观测数据一致性

华为云开发者联盟

数据一致性 DRS 数据复制 数据迁移

NextRPC : RPC多段返回的创新和探索

阿里巴巴终端技术

RPC 客户端

使用Rust的几点理由,加入我们,一起学习!

非凸科技

网络协议之:socket协议详解之Datagram Socket

程序那些事

socket 网络协议 udp 程序那些事 3月月更

如何选择最优路径完成云原生上云?听这场阿里云特别分享【云原生技术与最佳实践】

阿里巴巴云原生

技术解读:英特尔 x86 平台上,AI 能力是如何进行演进的?(附PPT)

OpenAnolis小助手

人工智能 X86 intel 自然语言模型

【CAD】系列Ⅰ

謓泽

3月月更

2021年券商APP盘点:用户规模大幅度增长,智能炒股成为行业标配

易观分析

券商

基于微信小程序的运动场馆预约小程序开发笔记

CC同学

Apache ShenYu源码阅读系列-Agent模块源码分析

子夜2104

数字化时代,银行如何建设管理小程序平台促进线上金融业务发展?

FinClip

小程序 银行

从旁观者到贡献者:经历 OpenYurt 的“开源之夏”,我们想让更多人体验社区的魅力

阿里巴巴云原生

LinkedIn被裁定应开放对其公开资料数据的爬取_语言 & 开发_Shelby Switzer_InfoQ精选文章