写点什么

解读数据泄露的 2020:疫情相关的数据泄露事件猛增,黑客攻击是主要原因

2020 年 12 月 28 日

解读数据泄露的2020:疫情相关的数据泄露事件猛增,黑客攻击是主要原因

本文是 InfoQ“解读 2020”年终技术盘点系列文章之一。


2020 年是不平凡的一年。新冠疫情不仅对人们的生活和工作产生重大影响,而且加速了许多行业的数字化进程,比如远程办公得到快速普及。同时,新冠疫情也给数据泄露带来一些新变化,例如,由远程办公带来的潜在数据泄露让企业组织面临更严峻的挑战。


回顾 2020 年,数据泄露现状依然严峻,让人担忧。据《IBM 2020 年数据泄露报告》显示,数据泄露的平均总成本为 386 万美元(约合人民币 2521 万元)。对企业来说,数据泄露的后果越来越严重。一方面,企业会受到监管机构处罚,比如英国航空因数据泄露被英国信息专员办公室(ICO)罚款 2.04 亿欧元。另一方面,一旦发生数据泄露,不仅会让企业失去客户和用户的信任,而且影响公司长期发展。对个人消费者而言,数据泄露的后果虽然短期不是很明显,但是从长期看,影响非常坏。一旦个人数据遭泄露,这些数据可能会在网上流传,并且被不法分子利用,比如黑客、黑灰产等等。


成人视频网站 CAM4 的数据泄露堪称 2020 年规模最大的数据泄露事件,它泄露了 108 亿条记录,影响美国、巴西、法国、英国和中国等全球十几个国家的用户;罚金最高的则是英国航空泄露 50 万名客户个人信息,英国信息专员办公室(ICO)对其开出了 2.04 亿欧元(约合 16 亿元人民币)的罚单。


此外,我们观察到 2020 年数据泄露的两个新变化:第一,与新冠疫情有关的数据泄露事件非常多;第二,由勒索软件引发的数据泄露事件快速增加。


2020 年度数据泄露 TOP 10


TOP 10. 印尼电商巨头 Tokopedia 数据泄露


时间:5 月 3 日


泄露规模:9100 万用户信息


详情:数据泄露和网络安全情报公司 Under the Breach 在黑客论坛发现,有黑客出售超过 1500 万 Tokopedia 的用户信息。如果想访问该数据,论坛用户需要支付 8 个网站积分,相当于约 16 元。黑客表示,这些数据只是 Tokopedia 泄露的 9100 万数据的一部分。同时,黑客也在出售完整的 9100 万用户数据集,售价 5000 美元。Under the Breach 称泄露的数据是一个 PostgreSQL 数据库,包含个人用户数据等信息。


据悉,Tokopedia 是印度尼西亚最大的电商平台,也是印度尼西亚访问量最大的网站,有 4700 个雇员和 9000 万活跃用户。


泄露数据:全名、电子邮件、电话号码、哈希密码、出生日期等


泄露原因:具体不详


TOP 9. 迪卡侬西班牙分部数据泄露


时间:2 月 25 日


泄露规模:1.23 亿条记录


详情:vpnMentor 安全研究人员发现,体育连锁巨头迪卡侬(Decathlon)发生数据泄露,有 1.23 亿条记录被保存在一个不安全的数据库中,任何人都可以访问。据悉,该数据库属于迪卡侬西班牙和迪卡侬英国公司。2 月 12 日,这个漏洞被发现,迪卡侬于 2 月 16 日得到通知,随后数据库在 2 月 17 日下线。


据了解,迪卡侬集团是法国大型连锁体育用品零售商,业务遍及全球 49 个国家和地区,覆盖欧洲、亚洲和南美部分地区,以及埃及、南非、澳大利亚和加拿大。


泄露数据:员工、未加密密码、API 日志、API 用户名和未加密密码、员工的身份信息、工作电子邮件地址、雇佣合同信息(工作时长、地点、资质、合同期、职位)、私有 IP 地址、未加密的客户电子邮件和登录信息。


泄露原因:具体不详


TOP 8. 俄罗斯车主资料被泄露


时间:5 月 15 日


泄露规模:1.29 亿车主


详情:一个包含 1.29 亿名俄罗斯车主的数据库在暗网被售卖,标价 0.3 个比特币。据悉,被盗数据来自俄罗斯内政部交通安全总局,俄罗斯巡逻管辖登记处。据悉,一家汽车共享公司的一名员工证实了数据的真实性。


泄露数据:车主的全名、地址、护照、汽车的品牌、型号等


泄露原因:具体不详


TOP 7. 微软上亿条客户支持记录和 PII 泄露


时间:1 月 23 日


泄露规模:2.5 亿条


详情:一份新报告显示,微软意外曝光了 2.5 亿条客户服务和支持记录。Comparitech 的安全研究团队发现了五台服务器,每台服务器都包含与 Microsoft 支持代理和客户相同的 2.5 亿对话记录。这些记录所覆盖的时间段为 2005 年至 2019 年 12 月,其并没有使用密码保护或加密,这也意味着,任何可以访问互联网的人都可以对其进行访问。该安全团队表示,大多数个人身份信息已从记录中删除。但是,仍然存在大量以纯文本格式存储的信息,包括:客户电子邮件地址、IP 地址、位置等。


泄露数据:用户电子邮件地址、IP 地址、位置、CSS 声明和案例的描述、案例编号、解决方案和备注等。


泄露原因:数据库错误配置


TOP 6. 18 家公司泄露上亿用户信息


时间:6 月 28 日


泄露规模:3.86 亿


详情:一个网名叫 ShinyHunters 的黑客在黑客论坛上公开超 3.86 亿条用户信息。在过去一年中,ShinyHunters 参与并表示对多起数据泄漏事件负责,其中包括 Wattpad、Dave、Chatbooks、Promo.com、Mathway、HomeChef 以及 微软 GitHub 仓库的泄露事件。虽然不是每条记录都包含密码,例如 promo.com,但是仍然有大量的信息被披露,这让 Threat actor 有机可乘。


泄露数据:具体不详


泄露原因:具体不详


TOP 5. 化妆品巨头雅诗兰黛数据泄露


时间:2 月 12 日


泄露规模:4.4 亿条记录


详情:有安全研究人员发现,化妆品公司雅诗兰黛将一个缺乏保护措施的数据库暴露在互联网上,其中存储了 4.4 亿条记录。安全研究人员 Jeremiah Fowler 率先发现了这个暴露的数据库,在确定来源后,立即试图与雅诗兰黛取得联系。此次泄露总共涉及 440,336,852 条记录,其中包含大量的审计日志和电子邮件地址。


泄露数据:用户电子邮件地址、IP 地址、端口、路径和存储信息等


泄露原因:未知


TOP 4. 微博用户信息泄露


时间:3 月 20 日


泄露规模:5.38 亿


详情:3 月 20 日,有用户发现 5.38 亿条微博用户信息在暗网出售,其中 1.72 亿有账号基本信息。全部数据售价 0.177 比特币,折合成人民币约为 7350 元。针对本次数据泄露事件,微博认证“微博安全总监”的网友罗诗尧回应,“泄漏的手机号是 19 年通过通讯录上传接口被暴力匹配的,其余公开信息都是网上抓来的。”


泄露数据:用户 ID、微博数、粉丝数、关注数、性别、地理位置等


TOP 3. Clearview AI 数据泄露


时间:2 月 27 日


泄露规模:30 亿人脸识别数据


详情:初创公司 Clearview AI 表示,它遭遇黑客攻击,其全部客户名单被黑客窃取。据悉,这家公司从互联网上搜集了 30 多亿张照片,并为美国和加拿大 600 多家执法机构的嫌疑人身份识别系统提供便利。Clearview AI 是美国纽约的一家 AI 面部识别创业公司 Clearview 设计的一款突破性的面部识别应用工具,通过拍摄陌生人的照片,然后将其上传,就可以轻松查看该人的公开照片,以及指向这些照片出现位置的链接和具体内容。


泄露数据:个人面部照片


泄露原因:黑客入侵


TOP 2. 法国《费加罗报》数据泄露


时间:5 月 2 日


泄露规模:74 亿条记录


详情:Security Detectives 的安全研究人员发现《费加罗报》发生数据泄露事件,泄露数据超过 8TB,包括注册用户的登录凭证。此外,泄露的数据库中也含有大量关于其服务器的技术日志信息,这些敏感数据对黑客入侵企业的数据基础设施是非常有价值的。


泄露数据:邮件、全名、家庭地址、居住地和邮编、IP 地址等


泄露原因:数据库配置错误


TOP 1. 成人视频网站 CAM4 数据泄露


时间:5 月 8 日


泄露规模:108 亿条记录


详情:因 Elasticsearch 集群错误配置,成人视频网站 CAM4 发生重大数据泄露事件。据悉,本次泄露的数据量超 7TB,存储着超过 108 亿条记录。由于一个错误配置的 Elasticsearch 集群导致 CAM4 的生产数据库在网上公开,因此数据被泄露。由安全研究者 Anurag Sen 领导的一个 Safety Detectives 团队发现了 CAM4 不安全的数据库。该团队在报告此事后,CAM4 的母公司很快下线数据库。


泄露数据:


姓名、电子邮件地址、出生地、注册日期、性别偏好和性取向、设备信息、其他用户细节,比如口语、用户名、支付记录,包括信用卡类型、支付金额等、用户对话、邮件往来记录、用户和 CAM4 的聊天记录、令牌信息、密码 hashes、IP 地址、Fraud detection logs、Spam detection logs。


泄露原因:数据库配置错误


虽然 TOP 10 的数据泄露规模巨大,动辄上亿条数据,但是它们也只是 2020 年数据泄露事件的冰山一角。IBM《2020 年数据泄露报告》基于 524 家发生泄露的企业组织,时间从 2019 年 8 月到 2020 年 4 月。


79 起数据泄露事件的分析


为了进一步研究今年的数据泄露情况,我们统计了 2020 年 79 起数据泄露事件,如下图:



(全部数据较长,仅展示部分)


通过对 79 起数据泄露事件进行分析,我们得出一些结论。



从数据泄露规模来看,差异巨大,最小的仅影响 150 名用户。在 49 起数据泄露事件中(去掉一些数据不完整的),我们发现有超过 50%的数据泄露规模影响百万到千万级的用户。



从数据泄露原因来看,在 59 起数据泄露事件中,恶意攻击占比最高,达到 64%,包括勒索软件、黑客入侵等;其次,云数据库配置错误则被视为第二大原因。同样,人为失误和软件 bug 也是造成数据泄露的原因之一。



从行业来看,科技行业的数据泄露事件发生最多,排名第一;其次是医疗、互联网,分别位居第二和第三。正如上文所述,2020 年与新冠疫情有关的数据泄露事件非常多,且多与医疗有关。而互联网行业,本身沉淀有大量的用户信息,因此是黑客攻击的主要目标之一。从行业维度看,数据泄露涉及十几个行业,与人们的生活和工作息息相关,比如教育、医疗、互联网和餐饮等等。


数据泄露的新变化


新冠疫情相关的数据泄露非常多


基于统计数据,我们发现与去年相比,2020 年与新冠疫情有关的数据泄露事件非常多。这些数据泄露大致可以分为三类:


第一类,公众对他人隐私信息的泄露,比如 2 月武汉返乡人员信息被泄露、12 月成都确诊女孩信息泄露等。


第二类,疫情中掌握大量个人信息的公共卫生机构和政府机构泄露数据,比如 11 月,巴西一名医院员工因操作不当导致超 1600 万巴西 COVID-19 患者的个人信息被泄露,包括患者姓名、地址、ID 信息和医疗记录等。一个月后,巴西卫生部官方网站因源代码漏洞导致 2.43 亿巴西公民个人信息遭泄露。


第三类,为窃取新冠情报,黑客攻击导致的数据泄露事件,比如政府机构、医药公司、疫苗研究机构等。例如,4 月,FireEye 发布一份研究报告称为收集 COVID-19(新型冠状病毒肺炎)的相关情报,至少从 2020 年 1 月至 4 月,越南黑客组织 APT32 针对中国目标开展持续的入侵活动。


勒索软件带来的数据泄露快速增加


除了新冠疫情有关的数据泄露,勒索软件带来的数据泄露事件快速增加。勒索软件是一种恶意软件,存在有几十年,它能获取文件或系统的控制权限,并阻止用户控制它们。然后,用户的电脑文件乃至整个设备都会被加密,除非受害者支付赎金换取解密密钥。密钥允许用户恢复被加密的文件或系统。


与以前不同的是,网络犯罪分子不仅加密数据,而且还窃取数据并威胁受害组织要在互联网上发布数据。这种勒索策略被称为“双重勒索”。泄露数据极大提高了受害组织承受的压力,因为一旦泄露数据,受害组织将面临更多的复杂事件,比如监管机构调查、处罚、客户压力和社会舆论。


例如,因未能勒索到赎金,勒索软件 Maze 背后的犯罪组织公开了 50.2 GB 的 LG 内部数据和 25.8 GB 的施乐内部数据。


在爱加密技术副总裁程智力看来,当今,各种 APT 攻击和勒索软件即服务(RaaS)的流行使攻击者对数据的窃取更加方便。同时,体系化或武器化的方式,也让其攻击更成体系。


“换句话说,黑客的攻击变得像正规军一样,形成体系。它的目标性更强,攻击者可能花费一个月或数月时间去窃取它需要的目标数据。并且,疫情带来的影响,让企业的网络全部打开,而在对员工的安全教育和网络架构没有到位的情况下可能导致大量的数据泄露。”他说。


此外,在这个全球化时代,企业会有上下游的产业链和供应链,而企业与供应链企业的协作是包括数据分享的。供应链企业可能跨云、跨行业,在监管水平不一样的情况下也会导致数据泄露事件的发生。


他说:”我们看到数据泄露的新特点是其定义更加广泛,攻击方式变得更加正规,更加集团化、武器化、隐秘化,而它的影响也变得更加严重。“


建议


针对数据泄露,企业可以从技术层面和非技术层面去应对。技术手段虽然看似很难,但是实际上相对简单,比如市面上已经有一些数据安全产品、服务或解决方案。我们在这里主要强调非技术手段,因为人往往是最大的漏洞,比如内鬼所为造成的数据泄露、员工操作不当所致的数据泄露。


在非技术手段层面,爱加密技术副总裁程智力提出了三点建议:


第一,企业相关人员仔细阅读从国家到行业层面所有跟数据安全相关的法律法规,务必做到合规;


第二,基于合规,企业要构建一个数据安全的整体防护体系。在这个体系中,有相关的目标,有管理的架构,有对应的流程、对应的策略以及对应的人员,比如针对每个人的职责都需要定义好。并且有相关的安全极限,每一个节点都必须明确其数据安全的极限是什么。


第三,做好安全意识的培训。事实上,很多数据泄露事件的发生源自内部员工有意或无意为之。因此,企业一定要做好员工安全意识的培训,让大家了解数据安全的重要性。

2020 年 12 月 28 日 14:011554
用户头像
万佳 InfoQ编辑

发布了 609 篇内容, 共 225.5 次阅读, 收获喜欢 1504 次。

关注

评论

发布
暂无评论
发现更多内容

架构师训练营 4 期 第12周

引花眠

架构师训练营 4 期

银行业只是开始,60个可以被区块链改变的行业

CECBC区块链专委会

数字技术

2021十大区块链领域即将起飞

CECBC区块链专委会

区块链 投资

控制台的安装与使用 | 联盟链开发(二)

李大狗

联盟链 FISCO BCOS 狗哥

科技强国的使命召唤中,百度AI埋下三根未来“引线”

脑极体

从Nacos客户端视角来分析配置中心原理

麦洛

nacos SpringCloud Alibaba 动态配置

行业“新基建”,AI+5G让数字户外被客户青睐

󠀛Ferry

七日更 3月日更

Vue3源码 | createApp都干了什么?

梁龙先森

源码分析 前端 Vue3

Docker 教程(三):Docker 命令

看山

Docker

hive数据倾斜解决办法

五分钟学大数据

大数据 hive 28天写作 3月日更

一文搞定Diff算法

执鸢者

Vue 前端 Diff

用户故事拆分速查手册(译)

Bruce Talk

敏捷 译文 Agile User Story

Java8中的 Stream 那么彪悍,你知道它的原理是什么吗?

Java小咖秀

Java stream java8 面试题 开发

产品训练营第八章作业

Arnold

IO 模型

无心

Netty

《青春有你3》的子弹时间舞台,凝筑了自由视角技术进化史

脑极体

传统IT部门为什么越来越不受欢迎?

boshi

数字化转型 IT职场 七日更

探索 Snabbdom 模块系统原理

pingan8787

JavaScript Vue Web Vue 3 Snabbdom

为何数字人民币要采用“小额匿名、大额可溯”的设计?

CECBC区块链专委会

数字货币

数据仓库设计

大数据技术指南

大数据 28天写作 3月日更

产品0期-第九周

Jxin

找到适合自己的睡眠方案

石云升

生活方式 28天写作 睡眠 3月日更

央行数字人民币“可控匿名”会侵犯隐私吗?最新解读来了

CECBC区块链专委会

数字货币

谈兼职创业

Ryan Zheng

产品训练营第八周作业——用户路径地图

innovator琳

用户研究 用户地图 用户数据 用户模型

Spark详细剖析

五分钟学大数据

大数据 spark 28天写作 3月日更

大数据中流量分析常见分类

大数据技术指南

大数据 28天写作 3月日更

工作多年后我更明白了UT的重要性

你呀不牛

OpenCV 写图像也有讲究,取经之路第 5 天

梦想橡皮擦

28天写作 3月日更

2.3 Go语言从入门到精通:数据类型

xcbeyond

go golang Go语言从入门到精通 3月日更

Go Channel源码分析

非晓为骁

go 源码分析 channel go语言

解读数据泄露的2020:疫情相关的数据泄露事件猛增,黑客攻击是主要原因-InfoQ