GMTC全球大前端技术大会(北京站)门票9折特惠截至本周五,点击立减¥480 了解详情
写点什么

传某头部互联网公司被攻陷,攻击者利用爬虫获取 11.8 亿条数据,8 个月获利 34 万

2021 年 6 月 10 日

传某头部互联网公司被攻陷,攻击者利用爬虫获取11.8亿条数据,8个月获利34万

经查,涉事两名攻击者非法获取某互联网公司客户信息共计 11.8 亿条,在 8 个月的时间里利用该信息经营共获利 34 万余元。最终,二人因侵犯公民个人信息罪,分别被判处有期徒刑三年六个月,有期徒刑三年三个月。

某顶级互联网公司十亿余条信息被外泄


6 月 9 日,网传某顶级互联网公司被攻陷,十亿余条信息外泄。


中国裁判文书网的一则判决书证实了该传闻。


据中国裁判文书网发布的《逯某、黎某侵犯公民个人信息一审刑事判决书》显示,2020 年 8 月 14 日,某互联网公司报称警,在 2020 年 7 月 6 日到 2020 年 7 月 13 日时,有黑产通过 mtop 订单评价接口绕过平台风控批量爬取加密数据,爬取字段量巨大,7 月 6 日至 7 月 13 日之间平均每天爬取数量 500 万,爬取内容包括买家用户昵称,用户评价内容,昵称等敏感字段。


经该公司网站排查发现,逯某有重大作案嫌疑,作案地点河南省商丘市睢阳区新城街道长江路民政局家属院,立为刑事案件。


经审理查明,被告人黎某在湖南省浏阳市成立了浏阳市泰创网络科技有限公司(自然人独资),该公司设有返利部、客服部、招商部等部门。


据悉,该公司主要是做优惠券返利的,主要利用用户的手机号加对方微信好友进行推广商品,让用户领取优惠券,对方使用优惠券成功购买商品,该公司会获得返利。


被告人逯某受雇于被告人黎某,作为公司技术员,每月工资一万元。


自 2019 年 11 月,被告人逯某在商丘市睢阳区其家中利用自己开发的爬虫软件,通过某互联网公司电商网站网页接口爬取客户的信息,并将其中客户的手机号码提供给被告人黎某,用于浏阳市泰创网络科技有限公司用于经营活动,该公司自 2019 年 11 月份至 2020 年 7 月份利用该信息经营共获利 340187.68 元。


经司法鉴定,被告人逯某通过其开发的软件爬取某互联网公司电商网站客户的数字 ID、昵称、手机号码等客户信息共计 1180738048 条,被告人逯某将其爬取信息中的客户手机号码通过微信文件的形式发送给被告人黎某使用共计 19712611 条。

涉事互联网公司安全风控员发现黑产行为


被告人逯某,因涉嫌非法获取计算机信息系统数据、非法控制计算机信息系统罪,于 2020 年 8 月 15 日被商丘市公安局新城分局刑事拘留,2020 年 9 月 22 日被逮捕。


被告人黎某,因涉嫌侵犯公民个人信息罪,2020 年 8 月 21 日被抓获,于 2020 年 8 月 22 日被商丘市公安局新城分局刑事拘留,同年 9 月 22 日被逮捕。


被告人逯某辩称,只采集了五千万条,十一亿八千万条不是我采集的,是从其它地方下载的,我采集的信息没有传播,只有电话号码,没有身份信息,没有联系任何一个用户,没有得到利润。获利只有六七万或七八万元。


被告人黎某辩称,逯某给我发的信息只是一个单纯的手机号码,没有拿这些信息做违法犯罪的事情,返利部的获利是利用该信息,其他部获利与该信息无关,愿意退出 37 万元的违法所得。


证人马某证言证实,其系某互联网公司安全风控员,2020 年 7 月 13 日,其在工作中发现,平台的评价接口存在异常流量行为,经排查后发现有黑产通过破解接口的形式进行加密数据的爬取,在 2020 年 7 月 13 日至 2020 年 7 月 20 日之间爬取了 3500 万条数据。


该互联网公司公司派工作人员前往商丘市公安局犯罪侦查支队直属二大队协查调查,通过嫌疑人逯某的电脑硬盘信息分析统计,共计 12 亿条手机号、user_nick 等加密相关信息。


国家林业局森林公安司法鉴定中心物证检验报告证实,对逯某、黎某手机数据恢复、提取、鉴定。情况说明证实,(调取逯某电脑数据库中数据的真实性说明)逯某数据库数据统计,共有 12 亿条数据,据抽样 1W 条数据进行排查属正确关系对数据。主要字段包含 user_id,user_nick,手机号,注册时间等属于某互联网公司实际认证的真实信息。

判决:黎某获刑三年六个月;逯某获刑三年三个月


商丘市睢阳区人民检察院认为,被告人逯某受雇于被告人黎某,二人违反国家规定,非法获取公民个人信息,情节特别严重,其行为均已构成侵犯公民个人信息罪。公诉机关指控罪名成立。且系共同犯罪,被告人逯某、黎某有坦白情节,且认罪认罚,对其均可从轻处罚。


综合其犯罪情节及社会危害性,依照《中华人民共和国刑法》第二百五十三条之一、第二十五条第一款、第六十七条第三款、第五十二条、第五十三条、第六十四条之规定,判决如下:


一、被告人黎某犯侵犯公民个人信息罪,判处有期徒刑三年六个月,并处罚金人民币三十五万元。


二、被告人逯某犯侵犯公民个人信息罪,判处有期徒刑三年三个月,并处罚金人民币十万元。


三、被告人黎某、逯某违法所得依法继续予以追缴上缴国库。


四、依法扣押的作案工具逯某电脑主机 5 台、电脑显示器 3 台和手机 5 个,由扣押机关依法处理。

矛盾的爬虫技术


这起案件中,被告人的主要“作案工具”之一是爬虫技术,其非法爬取了某互联网公司的十亿余条数信息。


在一些场景,爬虫技术很容易游走在违法边缘。尤其在一些金融大数据公司中,爬虫业务被广泛应用。2019 年下半年,一场严厉的监管风暴下,多家金融大数据公司接连被查,被查原因中多涉及违规利用爬虫技术的问题。


业内有这样一种说法,爬虫贡献了互联网 50% 的流量,它对于互联网的繁荣功不可没。但该技术同时也因“用途”而充满争议。爬虫是一项见不得“阳光”的技术,它广泛运用,却少有人愿意承认在使用它。因为它常常被用作非法收集信息的工具,站上数据隐私、数据安全的对立面。


“爬虫技术本身并无对错,但要看怎么用,用错了肯定违法啊”,一位程序员向 AI 前线表示,“技术无罪,关键在于人”。


网络爬虫是非常普遍的一种数据挖掘技术,它是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。爬虫技术最早主要运用在搜索引擎中,它满足了人们的数据获取、分析需求。早在 1995 年,为了不越“边界”,互联网搜索引擎与网页持有者之间达成了一项“君子协定”— robot 协议,该协议规定了哪些信息该爬,哪些信息不该爬,20 多年来,该协议一直沿用至今。


在遵循 robot 协议的前提下使用爬虫技术是没有任何风险的。但往往有些“作恶者”试图越过红线,一些大数据公司打着“大数据分析”的名头违规违法爬取任何网页及访问用户的数据,致使“虫灾”泛滥。


现在的爬虫似乎无所不能,只要有账号密码都可以爬,包括电商平台、外卖平台、地图、旅行网站、共享单车、等平台的个人信息,用户的通讯录、上网地址、收货地址、聊天记录、搜索记录、支付记录,甚至央行的征信报告...总之,一切皆可爬,还可进行定制化爬取。


爬虫也是一项“矛盾”的技术。爬与反爬的“斗争”每天都在上演,力量此消彼长。


据一位资深程序员介绍,现在比较常见的反爬虫技术手段主要有,检测 Header 信息;设置 IP 访问频率,分析同一 IP 或同一设备在短时间内多次访问同一页面或进行相同操作;识别 UA、通过动态页面增加爬取难度等方式。


这几年,随着随着 AI 的发展,一些机器学习、canvas 指纹等智能反爬虫技术也被运用起来。例如,腾讯云网站管家 WAF 就将 AI 检测引擎能力,运用到了爬虫 Bot 程序检测的环节上,AI 引擎能够对站点访问流量的会话进行追踪,通过流量画像,匹配行为模型及行为标签进行识别,进而识别出爬虫 Bot 程序流量行为。


2019 年 5 月,被称为“中国版 GDPR”的《数据安全管理办法》征求意见稿发布,第 16 条规定,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。


一位业内人士认为,技术只是工具,在获取数据时需要考虑数据到底有没有获得授权,需要几方授权,在拿到用户授权的情况下,有没有拿到网站等数据来源方的授权,这其中涉及到的权责边界应该更明确。


随着监管越来越严格,爬虫技术的使用边界也将更加明晰。互联网从业者应当怀有敬畏之心,要时时注意不要触碰边界,毕竟,爬虫只是技术,灰色的是“助恶者”。

黑产猖獗,AI 风控来“智”斗


近年来,黑产分子欺诈的手段也是“道高一尺、魔高一丈”,人机对话、网络诈骗等新兴欺诈手段增多,诈骗方法也渐趋智能化。据统计,网络黑产的从业人员超过 200 万,市场规模高达千亿级别。


例如在电商场景中,每逢节日大促,商家和平台会推出满减、优惠券、红包、积分抵现金等多种多样的促销,但消费者经常遇到失去到手的战利品和优惠券的情况,实际上,这很大可能是网络黑产们在背后动了这些原本属于消费者的奶酪。


通常情况下,在官方发布促销活动之前,黑产会通过暗网、QQ 群、微信群、黑产论坛等渠道来及时获取相关活动信息,以不法渠道购买大批量 IP、手机号和设备资源等基础资源来注册、登录电商平台,并通过自动化操作工具以及自动 / 人工打码平台来提升作恶效率。


在很多电商业务场景中,黑产会专门研究对应的业务流程并从中挖掘出存在的漏洞,再与自有核心资源和基础工具进行整合,从而把整个行为链条编写成可以自动执行的业务工具,开始全自动、大批量的进行作恶,从而获取高额利润。


依法打击黑产不仅需要监管部门、平台和商家的协作,更需要技术手段的介入。目前,很多行业如电商、金融、游戏、医疗等行业的很多企业和机构开始运用 AI 来加强大数据风控。


与传统的人工风控方式相比,AI 风控能够解决很多历史痛点问题。首先是人工效率的问题,传统体系中,人为干预因素较多,但每个人工作时间有上限。但 AI 的工作时间不会受到限制,可以 24 小时工作。


其次,AI 技术对细化客户分层的颗粒度及实现精细化管理助力颇多。AI 能够代替人工处理,能精准用户画像,提高风险识别能力。特别是处理大规模的客户方面,例如针对百万级、千万级、上亿的客户,如此大量的客户不能完全靠一个风控团队去处理,必须要借助 AI 技术进行这种大量级客户的风险识别工作。


参考链接:


https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=7987f14ab34e4480ae9dad3c009aff7d


https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247519476&idx=3&sn=92777bdba191119e51b80f9f9612932b&chksm=fbea353bcc9dbc2d85854dfa75f8213ac9a61eb8f24c96f88285b802b69af975d16988a8b9c9&scene=27#wechat_redirect

2021 年 6 月 10 日 13:404008
用户头像
刘燕 InfoQ记者

发布了 595 篇内容, 共 189.4 次阅读, 收获喜欢 1158 次。

关注

评论 3 条评论

发布
用户头像
凭本事爬来的不包含敏感信息的数据,小公司就被抓,还是后台不够硬。
18 小时前
回复
用户头像
“爬虫是一项见不得“阳光”的技术”,爬虫怎么就成见不得阳光的技术了?在公共数据不够开放的今天,爬虫为大数据分析和机器学习提供资源,为技术发展起着推进的作用,而且爬虫做为一项技术,怎么还成贬义了?恐怕是人的成见在作怪吧?大公司就可以用,小公司和个人就不能用,是这个意思吗?
2021 年 06 月 15 日 07:43
回复
用户头像
巨头滥用用户数据,就不叫侵犯公民隐私了?
2021 年 06 月 12 日 08:43
回复
没有更多了
发现更多内容

Newbe.Claptrap 框架入门,第三步 —— 定义 Claptrap,管理商品库存

newbe36524

Docker 云计算 微服务 .net core ASP.NET Core

rockchip的yocto编译环境搭建

良知犹存

Linux yocto rockchip

6. 二十不惑,ObjectMapper使用也不再迷惑

YourBatman

json Jackson ObjectMapper

“深化产教融合·共育数字人才”全国产教融合信息化高峰论坛·江苏站成功举办

InfoQ_967a83c6d0d7

【Elasticsearch 技术分享】—— ES 常用名词及结构

程序员小航

Java 搜索引擎 elastic ES Lucene Elastic Search

Python代码调试指南

王坤祥

Python Python基础

你期待的薪酬是多少?

escray

学习 面试 面试现场

Docker 安装及配置镜像加速

哈喽沃德先生

Docker 容器 微服务 容器技术 容器化

看智微智能互动录播系统如何建设“三个课堂”

InfoQ_967a83c6d0d7

关于Aborted connection告警日志的分析

Simon

MySQL MySQL错误日志

一家估值20亿美元的公司,竟然没有办公室?

Atlassian

远程办公 Atlassian Jira

从Vessel到二代裸金属容器,云原生的新一波技术浪潮涌向何处?

华为云开发者社区

Docker 容器 云原生 k8s Vessel

Java中的一些限制

xiaoxi666

我与游戏相伴【自我访谈2】

叶阳夏烟

系列 游戏 访谈录 剧情游戏 仙剑奇侠传

ARTS打卡Week 11

teoking

架构师训练营 - 第 8 周学习总结

红了哟

顺时针遍历矩阵,提高系统高并发350倍,React Native原理浅析 组件设计原则 安全架构 防火墙ModSecurity John 易筋 ARTS 打卡 Week 14

John(易筋)

ARTS 打卡计划 组件设计原则 React Native 高并发优化

浅谈 GET 和 POST 区别

叉叉敌

面试题 post GET

速看!今天我才知道,UUID还分五个版本

麦洛

Java uuid

想不出来问题的你

escray

学习 面试 面试现场

要刷LeetCode了,才发现自己连时间复杂度都不懂

海星

算法 LeetCode

utf8字符集下的比较规则

Simon

MySQL 字符集

ARTS打卡 第13周

引花眠

微服务 ARTS 打卡计划

想问面试官什么问题么?

escray

学习 面试 面试现场

1.Flink任务之间通信开销-6

小知识点

scala 大数据 flink

大数据技术思想入门(三):分布式文件存储的流程

抖码算法

Java 大数据 hadoop 分布式

disruptor 高性能队列最佳选择

柿子

队列 disruptoer 高性能队列

MacOS抓包工具Charles

叉叉敌

ios charles 抓包

ARTS打卡(20.08.17-20.08.23)

小王同学

架构师训练营第十一周作业

Melo

详解责任链模式

海星

传某头部互联网公司被攻陷,攻击者利用爬虫获取11.8亿条数据,8个月获利34万-InfoQ