OceaBase开发者大会落地上海!4月20日共同探索数据库前沿趋势!报名戳 了解详情
写点什么

传某头部互联网公司被攻陷,攻击者利用爬虫获取 11.8 亿条数据,8 个月获利 34 万

  • 2021-06-10
  • 本文字数:3975 字

    阅读完需:约 13 分钟

传某头部互联网公司被攻陷,攻击者利用爬虫获取11.8亿条数据,8个月获利34万

经查,涉事两名攻击者非法获取某互联网公司客户信息共计 11.8 亿条,在 8 个月的时间里利用该信息经营共获利 34 万余元。最终,二人因侵犯公民个人信息罪,分别被判处有期徒刑三年六个月,有期徒刑三年三个月。

某顶级互联网公司十亿余条信息被外泄


6 月 9 日,网传某顶级互联网公司被攻陷,十亿余条信息外泄。


中国裁判文书网的一则判决书证实了该传闻。


据中国裁判文书网发布的《逯某、黎某侵犯公民个人信息一审刑事判决书》显示,2020 年 8 月 14 日,某互联网公司报称警,在 2020 年 7 月 6 日到 2020 年 7 月 13 日时,有黑产通过 mtop 订单评价接口绕过平台风控批量爬取加密数据,爬取字段量巨大,7 月 6 日至 7 月 13 日之间平均每天爬取数量 500 万,爬取内容包括买家用户昵称,用户评价内容,昵称等敏感字段。


经该公司网站排查发现,逯某有重大作案嫌疑,作案地点河南省商丘市睢阳区新城街道长江路民政局家属院,立为刑事案件。


经审理查明,被告人黎某在湖南省浏阳市成立了浏阳市泰创网络科技有限公司(自然人独资),该公司设有返利部、客服部、招商部等部门。


据悉,该公司主要是做优惠券返利的,主要利用用户的手机号加对方微信好友进行推广商品,让用户领取优惠券,对方使用优惠券成功购买商品,该公司会获得返利。


被告人逯某受雇于被告人黎某,作为公司技术员,每月工资一万元。


自 2019 年 11 月,被告人逯某在商丘市睢阳区其家中利用自己开发的爬虫软件,通过某互联网公司电商网站网页接口爬取客户的信息,并将其中客户的手机号码提供给被告人黎某,用于浏阳市泰创网络科技有限公司用于经营活动,该公司自 2019 年 11 月份至 2020 年 7 月份利用该信息经营共获利 340187.68 元。


经司法鉴定,被告人逯某通过其开发的软件爬取某互联网公司电商网站客户的数字 ID、昵称、手机号码等客户信息共计 1180738048 条,被告人逯某将其爬取信息中的客户手机号码通过微信文件的形式发送给被告人黎某使用共计 19712611 条。

涉事互联网公司安全风控员发现黑产行为


被告人逯某,因涉嫌非法获取计算机信息系统数据、非法控制计算机信息系统罪,于 2020 年 8 月 15 日被商丘市公安局新城分局刑事拘留,2020 年 9 月 22 日被逮捕。


被告人黎某,因涉嫌侵犯公民个人信息罪,2020 年 8 月 21 日被抓获,于 2020 年 8 月 22 日被商丘市公安局新城分局刑事拘留,同年 9 月 22 日被逮捕。


被告人逯某辩称,只采集了五千万条,十一亿八千万条不是我采集的,是从其它地方下载的,我采集的信息没有传播,只有电话号码,没有身份信息,没有联系任何一个用户,没有得到利润。获利只有六七万或七八万元。


被告人黎某辩称,逯某给我发的信息只是一个单纯的手机号码,没有拿这些信息做违法犯罪的事情,返利部的获利是利用该信息,其他部获利与该信息无关,愿意退出 37 万元的违法所得。


证人马某证言证实,其系某互联网公司安全风控员,2020 年 7 月 13 日,其在工作中发现,平台的评价接口存在异常流量行为,经排查后发现有黑产通过破解接口的形式进行加密数据的爬取,在 2020 年 7 月 13 日至 2020 年 7 月 20 日之间爬取了 3500 万条数据。


该互联网公司公司派工作人员前往商丘市公安局犯罪侦查支队直属二大队协查调查,通过嫌疑人逯某的电脑硬盘信息分析统计,共计 12 亿条手机号、user_nick 等加密相关信息。


国家林业局森林公安司法鉴定中心物证检验报告证实,对逯某、黎某手机数据恢复、提取、鉴定。情况说明证实,(调取逯某电脑数据库中数据的真实性说明)逯某数据库数据统计,共有 12 亿条数据,据抽样 1W 条数据进行排查属正确关系对数据。主要字段包含 user_id,user_nick,手机号,注册时间等属于某互联网公司实际认证的真实信息。

判决:黎某获刑三年六个月;逯某获刑三年三个月


商丘市睢阳区人民检察院认为,被告人逯某受雇于被告人黎某,二人违反国家规定,非法获取公民个人信息,情节特别严重,其行为均已构成侵犯公民个人信息罪。公诉机关指控罪名成立。且系共同犯罪,被告人逯某、黎某有坦白情节,且认罪认罚,对其均可从轻处罚。


综合其犯罪情节及社会危害性,依照《中华人民共和国刑法》第二百五十三条之一、第二十五条第一款、第六十七条第三款、第五十二条、第五十三条、第六十四条之规定,判决如下:


一、被告人黎某犯侵犯公民个人信息罪,判处有期徒刑三年六个月,并处罚金人民币三十五万元。


二、被告人逯某犯侵犯公民个人信息罪,判处有期徒刑三年三个月,并处罚金人民币十万元。


三、被告人黎某、逯某违法所得依法继续予以追缴上缴国库。


四、依法扣押的作案工具逯某电脑主机 5 台、电脑显示器 3 台和手机 5 个,由扣押机关依法处理。

矛盾的爬虫技术


这起案件中,被告人的主要“作案工具”之一是爬虫技术,其非法爬取了某互联网公司的十亿余条数信息。


在一些场景,爬虫技术很容易游走在违法边缘。尤其在一些金融大数据公司中,爬虫业务被广泛应用。2019 年下半年,一场严厉的监管风暴下,多家金融大数据公司接连被查,被查原因中多涉及违规利用爬虫技术的问题。


业内有这样一种说法,爬虫贡献了互联网 50% 的流量,它对于互联网的繁荣功不可没。但该技术同时也因“用途”而充满争议。爬虫是一项见不得“阳光”的技术,它广泛运用,却少有人愿意承认在使用它。因为它常常被用作非法收集信息的工具,站上数据隐私、数据安全的对立面。


“爬虫技术本身并无对错,但要看怎么用,用错了肯定违法啊”,一位程序员向 AI 前线表示,“技术无罪,关键在于人”。


网络爬虫是非常普遍的一种数据挖掘技术,它是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。爬虫技术最早主要运用在搜索引擎中,它满足了人们的数据获取、分析需求。早在 1995 年,为了不越“边界”,互联网搜索引擎与网页持有者之间达成了一项“君子协定”— robot 协议,该协议规定了哪些信息该爬,哪些信息不该爬,20 多年来,该协议一直沿用至今。


在遵循 robot 协议的前提下使用爬虫技术是没有任何风险的。但往往有些“作恶者”试图越过红线,一些大数据公司打着“大数据分析”的名头违规违法爬取任何网页及访问用户的数据,致使“虫灾”泛滥。


现在的爬虫似乎无所不能,只要有账号密码都可以爬,包括电商平台、外卖平台、地图、旅行网站、共享单车、等平台的个人信息,用户的通讯录、上网地址、收货地址、聊天记录、搜索记录、支付记录,甚至央行的征信报告...总之,一切皆可爬,还可进行定制化爬取。


爬虫也是一项“矛盾”的技术。爬与反爬的“斗争”每天都在上演,力量此消彼长。


据一位资深程序员介绍,现在比较常见的反爬虫技术手段主要有,检测 Header 信息;设置 IP 访问频率,分析同一 IP 或同一设备在短时间内多次访问同一页面或进行相同操作;识别 UA、通过动态页面增加爬取难度等方式。


这几年,随着随着 AI 的发展,一些机器学习、canvas 指纹等智能反爬虫技术也被运用起来。例如,腾讯云网站管家 WAF 就将 AI 检测引擎能力,运用到了爬虫 Bot 程序检测的环节上,AI 引擎能够对站点访问流量的会话进行追踪,通过流量画像,匹配行为模型及行为标签进行识别,进而识别出爬虫 Bot 程序流量行为。


2019 年 5 月,被称为“中国版 GDPR”的《数据安全管理办法》征求意见稿发布,第 16 条规定,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。


一位业内人士认为,技术只是工具,在获取数据时需要考虑数据到底有没有获得授权,需要几方授权,在拿到用户授权的情况下,有没有拿到网站等数据来源方的授权,这其中涉及到的权责边界应该更明确。


随着监管越来越严格,爬虫技术的使用边界也将更加明晰。互联网从业者应当怀有敬畏之心,要时时注意不要触碰边界,毕竟,爬虫只是技术,灰色的是“助恶者”。

黑产猖獗,AI 风控来“智”斗


近年来,黑产分子欺诈的手段也是“道高一尺、魔高一丈”,人机对话、网络诈骗等新兴欺诈手段增多,诈骗方法也渐趋智能化。据统计,网络黑产的从业人员超过 200 万,市场规模高达千亿级别。


例如在电商场景中,每逢节日大促,商家和平台会推出满减、优惠券、红包、积分抵现金等多种多样的促销,但消费者经常遇到失去到手的战利品和优惠券的情况,实际上,这很大可能是网络黑产们在背后动了这些原本属于消费者的奶酪。


通常情况下,在官方发布促销活动之前,黑产会通过暗网、QQ 群、微信群、黑产论坛等渠道来及时获取相关活动信息,以不法渠道购买大批量 IP、手机号和设备资源等基础资源来注册、登录电商平台,并通过自动化操作工具以及自动 / 人工打码平台来提升作恶效率。


在很多电商业务场景中,黑产会专门研究对应的业务流程并从中挖掘出存在的漏洞,再与自有核心资源和基础工具进行整合,从而把整个行为链条编写成可以自动执行的业务工具,开始全自动、大批量的进行作恶,从而获取高额利润。


依法打击黑产不仅需要监管部门、平台和商家的协作,更需要技术手段的介入。目前,很多行业如电商、金融、游戏、医疗等行业的很多企业和机构开始运用 AI 来加强大数据风控。


与传统的人工风控方式相比,AI 风控能够解决很多历史痛点问题。首先是人工效率的问题,传统体系中,人为干预因素较多,但每个人工作时间有上限。但 AI 的工作时间不会受到限制,可以 24 小时工作。


其次,AI 技术对细化客户分层的颗粒度及实现精细化管理助力颇多。AI 能够代替人工处理,能精准用户画像,提高风险识别能力。特别是处理大规模的客户方面,例如针对百万级、千万级、上亿的客户,如此大量的客户不能完全靠一个风控团队去处理,必须要借助 AI 技术进行这种大量级客户的风险识别工作。


参考链接:


https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=7987f14ab34e4480ae9dad3c009aff7d


https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247519476&idx=3&sn=92777bdba191119e51b80f9f9612932b&chksm=fbea353bcc9dbc2d85854dfa75f8213ac9a61eb8f24c96f88285b802b69af975d16988a8b9c9&scene=27#wechat_redirect

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-06-10 13:407489
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 492.6 次阅读, 收获喜欢 1966 次。

关注

评论 5 条评论

发布
用户头像
最大的爬虫叫百度,怎么没人找他们
2021-06-25 16:24
回复
用户头像
贼喊捉贼,呵呵。
2021-06-21 11:04
回复
用户头像
凭本事爬来的不包含敏感信息的数据,小公司就被抓,还是后台不够硬。
2021-06-16 19:36
回复
用户头像
“爬虫是一项见不得“阳光”的技术”,爬虫怎么就成见不得阳光的技术了?在公共数据不够开放的今天,爬虫为大数据分析和机器学习提供资源,为技术发展起着推进的作用,而且爬虫做为一项技术,怎么还成贬义了?恐怕是人的成见在作怪吧?大公司就可以用,小公司和个人就不能用,是这个意思吗?
2021-06-15 07:43
回复
用户头像
巨头滥用用户数据,就不叫侵犯公民隐私了?
2021-06-12 08:43
回复
没有更多了
发现更多内容

智汇华云 | ArSDN打通软件定义数据中心的“任督二脉”

华云数据

软件测试——教育机构课程顾问常见黑话大全

程序员阿沐

程序员 软件测试 教育 机构 教育培训

一文搞定 Flink Job 的运行过程

shengjk1

flink flink源码 flink源码分析

阿里巴巴的“双11”高并发秒杀终极版教程!(Java语言设计)

Java架构追梦

Java 阿里巴巴 架构 面试 秒杀架构设计

4行指令解决pip下载Python第三方库太慢问题(pip更换国内下载源)

不脱发的程序猿

Python pip 4月日更 Python库安装

什么是Selenium?使用Selenium进行自动化测试

码语者

DevOps selenium

前端⼤规模构建演进实践

白玉兰开源

架构 大前端

【转载】图形化系统开发组件X-Series(一)——XrossUnit介绍

赫杰辉

华云大咖说 | 华云数据与数科网维携手共建国产云生态

华云数据

分布式锁之Redis实现

Sakura

4月日更

从源码分析 MySQL 死锁问题入门

比伯

Java 编程 程序员 架构 计算机

轻松带你学习java-agent

华为云开发者联盟

Java Trace Java虚拟机 java-agent 挂载

5个超好用的Instagram图片下载工具推荐

科技猫

分享 下载 教程 图片 Instagram

前端规范之路

白玉兰开源

大前端 开发规范

前端DDD总结与思考

白玉兰开源

大前端 DDD

Flink + Hudi 在 Linkflow 构建实时数据湖的生产实践

Apache Flink

flink

https如何使用python+flask来实现

华为云开发者联盟

Python flask https ssl HTTP协议

Redis的适用场景简单剖析

大数据技术指南

redis 4月日更

0门槛成为“技术牛人”!星环科技线上分享课“星课堂”开播,快来报名,一探究竟

星环科技

人工智能 数据库 云计算 大数据 直播技术

重磅来袭:Spring之RequestBody的使用姿势小结

学Java关注我

Java 编程 架构 技术 程序人生

GitHub开源:17M超轻量级中文OCR模型、支持NCNN推理

不脱发的程序猿

人工智能 GitHub 开源 OCR 4月日更

事件分发机制Android,熬夜整理Android面试笔试题,精心整理

欢喜学安卓

android 程序员 面试 移动开发

三步法助你快速定位网站性能问题

华为云开发者联盟

html 网站 网站优化 Performance面板 瀑布图

一入爬虫深似海,从此早睡是路人

Thrash

事件分发源码,Android事件分发机制收藏这一篇就够了,威力加强版

欢喜学安卓

android 程序员 面试 移动开发

2020年12月的面试经历:美团4面+字节4面(均已拿offer),面试真题分享

Java架构师迁哥

Golang 对象池

escray

学习 极客时间 Go 语言 4月日更

手把手教你从数据预处理开始体验图数据库

NebulaGraph

数据库 数据预处理

【转载】提高系统开发效率的“银弹”——X-series可视化大规模应用开发工具集

赫杰辉

知识分享:SQL注入的流程和步骤

Thrash

sql

云管平台如何纳管多云资源?

嘉为蓝鲸

云计算 运维自动化 cmp 混合云 多云管理平台

传某头部互联网公司被攻陷,攻击者利用爬虫获取11.8亿条数据,8个月获利34万_AI&大模型_刘燕_InfoQ精选文章