最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

不满被辞退,一程序员写爬虫程序侵入公司后台删数据泄愤,造成经济损失 10 余万元

  • 2021-11-08
  • 本文字数:2424 字

    阅读完需:约 8 分钟

不满被辞退,一程序员写爬虫程序侵入公司后台删数据泄愤,造成经济损失10余万元

使用爬虫技术,不应逾越物理上的边界,更应守得住内心的边界。


员工为泄私愤,用爬虫删公司数据


11 月 8 日,据检察日报报道,北京某信息技术有限公司杨浦子公司一员工录某某因被公司解雇心生不满,为泄私愤,他编写了“爬虫”程序植入控制平台网站,删除了公司的相关数据代码,造成公司经济损失 10 余万元。


近日,录某某因涉嫌破坏计算机信息系统罪,被上海市杨浦区检察院提起公诉。


据报道,录某某自今年 3 月加入北京某信息技术有限公司杨浦子公司工作,负责某网购平台优惠券、预算等系统的代码研发。


6 月中旬,录某某因工作不符合要求被公司解雇。录某某对公司的决定颇为不满。“这些代码是我起早贪黑参与编写的,好好的工作就这样黄了”,收到主管通知被解雇的消息后,录某某十分气愤,遂产生了报复的念头。


录某某想到了利用爬虫软件删除公司数据的报复方式。录某某自己编写了爬虫程序,并趁着自己的公司账户还没注销,登录上公司的代码控制平台,植入爬虫程序,删除了原先存档在该平台上的优惠券、预算系统和补贴规则。


6 月下旬,公司将预算系统上线时,发现来历不明的“爬虫”程序植入了该系统,很多数据和代码被删除了,线上系统无法交付商家使用。


公司立即组织研发人员排查电脑系统,发现发现服务器日志上显示删除时间正是录某某离职当天,且当时录某某正在工位上操作计算机,而删除的数据也正是录某某原先负责的三个部分的相关数据和代码。公司认为录某某有重大作案嫌疑,便向公安机关报案。


公安机关将该案移送杨浦区检察院审查起诉后,检察官走访了多家计算机技术专业机构,了解抓取数据对计算机系统数据安全造成的影响,研讨行为人对研发该“爬虫”程序植入系统的动机和造成的后果。


办案检察官称,如果行为人将网络“爬虫”程序植入目标网站,会对目标网站的计算机信息系统功能和数据进行增加、删除、修改、干扰,进而导致计算机信息系统产生大量不正常的数据,以致不能正常运行,也会对目标网站所存储、运算或者传输的数据和应用程序进行删除、修改、增加等处理,后果严重的,将构成破坏计算机信息系统罪。


办案检察官认为录某某利用“爬虫”程序删除代码,导致该公司优惠券等商业活动延期发布 6 天,第三方数据公司恢复数据库花费 2.2 万余元,支付员工加班费 2 万余元,活动延期导致经济损失 10 万余元,应对录某某以破坏计算机信息系统罪追究刑事责任。


录某某也将为他的行为付出代价。


近几年在国内外,程序员删库跑路的事件屡有发生。


今年 8 月,美国 1-800-Accountant 在线会计师事务所的一名雇员 Medghyne Calonge 在该公司工作了 6 个月后,因表现不佳被公司解雇,员 Medghyne Calonge 心生怨怼,对公司系统文件进行了破坏。Calonge 登录到公司用于管理就业申请的计算机系统,删除了 17000 份求职简历,并在文件中留下脏话。最后,该员工被两项损坏计算机的罪名成立,并面临最多 15 年的监禁。


这些案件也为我们敲响了警钟,删库一时爽,事后悔断肠。切记,作为成年人,要管理好自己的情绪,用理智约束自身行为。

“爬虫”可以爬,但不能乱爬


在录某某案件中,被告人的主要“作案工具”之一是爬虫技术。


此前也曾有技术人员利用爬虫技术非法获利。


今年 6 月,中国裁判文书网发布的《逯某、黎某侵犯公民个人信息一审刑事判决书》显示,做优惠券返利业务的湖南省浏阳市泰创网络科技有限公司的创办人黎某及其雇用的技术员黎某利用爬虫软件攻陷国内某顶级互联网公司的电商平台,造成上述平台十亿余条信息外泄。二人违法行为共获利 340187.68 元。


其实网络爬虫是非常普遍的一种数据挖掘技术,它是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。爬虫技术最早主要运用在搜索引擎中,它满足了人们的数据获取、分析需求。如今,爬虫技术的应用已广泛。有这样一种说法,爬虫贡献了互联网 50% 的流量,它对于互联网的繁荣功不可没。


但这项技术也存在一定的争议,因为它常常被用作非法收集信息的工具,站上数据隐私、数据安全的对立面。在一些场景,爬虫技术很容易游走在违法边缘。尤其在一些金融大数据公司中,爬虫业务被广泛应用。2019 年,多家金融大数据公司因违规利用爬虫技术被查。


爬虫可以爬,但应当遵守“边界”。


早在 1995 年,为了不越“边界”,互联网搜索引擎与网页持有者之间达成了一项“君子协定”— robot 协议,该协议规定了哪些信息该爬,哪些信息不该爬,20 多年来,该协议一直沿用至今。


在遵循 robot 协议的前提下使用爬虫技术是没有任何风险的。但往往有些“作恶者”试图越过红线,一些大数据公司打着“大数据分析”的名头违规违法爬取任何网页及访问用户的数据,致使“虫灾”泛滥。


现在的爬虫似乎无所不能,只要有账号密码都可以爬,包括电商平台、外卖平台、地图、旅行网站、共享单车、等平台的个人信息,用户的通讯录、上网地址、收货地址、聊天记录、搜索记录、支付记录,甚至央行的征信报告... 总之,一切皆可爬,还可进行定制化爬取。


2019 年 5 月,“中国版 GDPR”《数据安全管理办法》征求意见稿发布,第 16 条规定,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。


一位业内人士认为,技术只是工具,在获取数据时需要考虑数据到底有没有获得授权,需要几方授权,在拿到用户授权的情况下,有没有拿到网站等数据来源方的授权,这其中涉及到的权责边界应该更明确。


随着监管越来越严格,爬虫技术的使用边界也将更加明晰。互联网从业者应当怀有敬畏之心,要时时注意不要触碰边界,毕竟,爬虫只是技术,灰色的是“助恶者”。


“爬虫技术本身并无对错,但要看怎么用,用错了肯定违法啊”,一位程序员向 AI 前线表示,“技术无罪,关键在于人”。


使用爬虫技术,不应逾越物理上的边界,更应守得住内心的边界。


参考链接:


https://www.sogou.com/link?url=6IqLFeTuIyhfYJ1Ai-ptaljpXp0hu3m0Mr8IhlJnxsDpxru-Tb1U5YkdHzVkgLz5uQyWWQ4mRDmt5pUc3zy0dg..


https://www.infoq.cn/article/NLc0AOU1U4lmiaDCFtZS

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-11-08 13:593208
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.1 次阅读, 收获喜欢 1966 次。

关注

评论 1 条评论

发布
用户头像
这和爬虫有啥关系。。。
2021-11-09 10:11
回复
没有更多了
发现更多内容

关于分布式系统一致性

Joseph295

NFT新范式,OKALEIDO创新NFT聚合交易生态

EOSdreamer111

读书笔记之《网络是怎样连接的》

蔡农曰

开发 网络 计算机 后端开发

Navicat Premium 15 永久破解激活工具及安装教程(亲测可用)

Geek甜甜

数据库 程序员 工具 navicat

架构实战营|模块4

KDA

#架构实战营

Prometheus、Grafana安装配置linux服务器监控dashboard

橙子猿

golang Prometheus #Grafana

Java—虚拟机

武师叔

6月月更

GNU/Linux知识库(3)- 命令行和包管理

冯亮

Linux DevOps GNU

OKALEIDO:NFT交易平台的发展趋势是什么?

股市老人

如何设计业务高性能高可用存储架构 - 作业

阿拉阿拉幽幽

33岁程序员的年中总结

王磊

年中总结

力扣每日一练之数组下篇Day3

京与旧铺

6月月更

架构训练营模块四作业

融冰

TypeScript中你可能会忽略的细节

真嗣

typescript 前端

测试开发【Mock平台】07开发:项目管理(三)组件Modal和Form讲解,并利用其实现添加功能

MegaQi

测试平台开发教程 6月月更 测试技术干货

又回到最初的起点,记忆中你青涩的脸,我们终于来到了这一天

百思不得小赵

阅读 毕业生 6月月更

vue全局守卫

小恺

6月月更

千万级学生管理系统考试试卷存储方案

Pengfei

【LeetCode】兼具大小写的最好英文字母Java题解

Albert

LeetCode 6月月更

网上教学 助力战疫 | 社区征文

yu

原创 原创保护 初夏征文

千万级学生管理系统的考试试卷存储方案

joak

简约而不简单的Kanban方法

Bruce Talk

Kanban 敏捷开发 Agile

《清单革命》:如何忙而不乱?

郭明

读书笔记

千万学生管理系统试卷存储方案

intelamd

Java 应用压测性能问题定位经验分享

阿里巴巴云原生

阿里云 云原生 压测 性能压测

详解python的运行方式

左手の明天

Python 运行原理

异步任务处理系统,如何解决业务长耗时、高并发难题?

阿里巴巴云原生

阿里云 Serverless 云原生 函数计算 FC

NFT新范式,OKALEIDO创新NFT聚合交易生态

鳄鱼视界

数据洞察力

奔向架构师

数据资产 6月月更

架构实战营模块 4 作业

Naoki

架构实战营

《网络是怎么样连接的》读书笔记 - 认识网络基础概念(一)

懒时小窝

网络编程

不满被辞退,一程序员写爬虫程序侵入公司后台删数据泄愤,造成经济损失10余万元_AI&大模型_刘燕_InfoQ精选文章