关于GDPR,数据科学家和数据工程师需要知道些什么

2018 年 2 月 08 日

本文要点

  • 即将于 2018 年 5 月生效的 GDPR 将会改变企业收集和管理数据的方式。
  • 违反条例可能遭到罚款,罚款最高相当于整个企业利润的 4%。
  • GDPR 主要围绕数据的收集、数据的可见性和数据的使用限制。
  • 新的工具、框架和数据管理方式需要通过最基本的“GDPR 测试”,以免违反条例。
  • GDPR 为数据管理策略的现代化和数据科学应用的强化带来了契机。

欧盟最新隐私条例的推出,给企业的数据管理带来了更多的挑战。新条例将会给所有使用数据的应用程序带来深远的影响。

欧盟的通用数据保护条例( General Data Protection Regulation ,GDPR)将会在 2018 年 5 月 25 日生效。如果企业违反条例,最高需要付出 4% 的利润作为罚款。因此,GDPR 可以说是世界上罚款最重的数据条例。

从理论上说,GDPR 只对欧盟地区的“个人数据”有效,但实际上,任何能够用于识别个人的数据都适用该条例。也就是说,任何欧盟地区的数据都在 GDPR 的管辖范围之内,因为研究表明,只要数据足够多,到最后都有可能关联到与数据主体。举个例子,最近有一组研究人员使用蜂窝位置数据(比如某一时间点某个信号塔覆盖到的用户数)——理论上这些数据都是匿名的——定位到个人的位置轨迹,准确率高达73% 到91%。

那么,那些在企业中负责收集、组织和使用数据的数据科学家和数据工程师们应该如何看待GDPR?他们应该如何调整他们的数据策略?

关于GDPR,你需要知道些什么

从高层面来看,GDPR 主要关注三个方面的问题:数据收集管理、数据可见性和数据使用限制。

收集管理涉及到如何管理数据和如何收集数据。GDPR 要求在进行数据收集时,隐私是首要的考虑因素。例如,条例中有很多限制条件与数据主体的授权有关,也就是说,企业在收集数据时,需要让数据主体知道,并获得他们的同意。换言之,在企业收集用户的数据时,用户需要知道企业为什么要收集数据,这一点是重中之重。

数据可见性是指了解企业持有哪些数据以及将持有多长时间。现如今,大多数企业都意识到数据就是“宝藏”,他们竭尽所能地收集数据。但大部分企业对他们所持有的数据并不了解,或者不知道该把它们存在哪里,或者在保存好以后不知道数据的来源是哪里。

在Immuta,我们通常把这看成是合规和IT 架构问题,我们有数据孤岛和不同的团队,数据库管理员负责管理各类数据。在GDPR 出台之后,这种方式就不符合规范了。如果有用户要求删除他们的数据(这个是经常被“遗忘”的用户权利),企业就要找到这些数据,并删除它们。GDPR 中例举了相关的例子。

最后,也是最重要的一点,数据使用限制指的是企业必须基于使用意图来使用数据。例如,如果一个用户只同意将数据用于“营销”,那么企业就必须遵循这样的限制。GDPR 列出了六个合理的使用意图,企业可以在GDPR 允许的范围内制定自己的使用意图。这个指南为企业提供了15 个使用数据的建议。对于企业来说,遵循数据使用意图是最为重要也是最大的挑战。

如果通过基本的GDPR 测试

我们先假设GDPR 已经生效,欧盟当局开始强制执行该条例。

实际上,在写这篇文章的时候,GDPR 还有很多模棱两可的地方,在接下来的几个月(甚至是几年),条例制定者还会对其进行调整。也就是说,在条例正式生效那天,条例制定者们并不会指望能够达到100% 的合规性。他们期待的是人们能够以一种合理、严肃的态度和努力来遵守条例。

通过基本的“GDPR 测试”意味着什么?

这意味着企业需要展示他们的合规性——了解收集的数据,了解数据的使用意图,并向条例制定者和数据主体证明自己能够做到这些。

更具体地说,企业收集的数据至少需要加入一些元数据,比如“意图”和“收集时间”。这样就可以更好地跟踪数据的使用,并严格遵守数据的保留时间。也就是说,在持有数据一段时间之后,需要删除或隐匿这些数据。

如果企业能够在这些方面展示他们的合规性,从数据收集、使用到删除,他们对数据有充分的了解,知道该持有数据多长时间,知道数据的使用意图,并且符合GDPR 的每一项要求,那么他们就可以顺利地通过基本的“GDPR 测试”。

GDPR 下的机遇

在聪明的企业看来,GDPR 不只是一组新准则而已。那些以数据为驱动的敏捷企业把 GDPR 看成是一种机遇,他们会重新思考他们的整体框架,以便更好地收集和使用数据。

以亚马逊和谷歌这样的科技巨头为例,他们的关键差异在于如何收集和使用数据。这些不是事后才来考虑的事情,而是需要进行谨慎的前期规划。拥有正确的数据才能让他们在营销、零售等方面无往不胜。

事实上,教科文献早就证实,好的监管会带来更好的产出,在数据管理方面也是如此。更好、更长远的数据洞见要求在数据的收集和销毁方面进行深思熟虑和谨慎的计划。

GDPR 让数据科学家明白了他们能够访问和使用哪些数据,这或许就是 GDPR 为我们带来的主要机遇之一。我一直觉得“数据科学家”更像是“数据清道夫”——大多数数据科学家大部分时间都是在查找他们需要的数据上,然后访问这些数据,把它们转换到恰当的状态,然后使用它们。

但这种状况会导致大量的时间和资源的浪费。数据科学家并不是被请来做数据清道夫的,也不是为企业的数据策略做一次性解决方案的。他们的职责应该是从数据中挖掘洞见,这也是他们擅长的事情,这也就是为什么企业高薪聘请他们。

在组织中制定全盘的数据策略,并集中管理数据,数据科学家们就可以脱身出来做他们擅长的事情,从而让公司发展得更快,变得更高效和灵活。

GDPR 实施之后会发生什么?

我们需要以全新的方式来看待数据,随着新规则的出现,它会变得越来越重要。事实上,不管是土耳其中国还是其他国家,数据变得越来越规范,对于以数据作为驱动的企业来说,数据管理变得越来越重要,也是最大的挑战之一。

以下是几点有关未来数据管理的洞见:

  • 数据湖不复存在。通常在说到数据管理时,企业的第一直觉是将所有数据放到一个地方,以此来解决所有的问题。如果是出于处理数据的目的(比如 Spark),这样做是可以的。但说到数据监管和数据发现,数据湖就会成为问题。随着数据的不断加入、数据存储工具的不断出现以及底层 IT 架构的演进,数据湖会变成数据池塘,然后是数据沼泽。在未来,你可能需要通过集中存储数据来解决数据管理问题。
  • 多元化是你的好朋友。在大型组织中,以标准化的方式来存储数据是几乎不可能的,我建议要长远地考虑数据管理问题。你将会拥有多元化的数据存储系统和数据工具——事实上,多元化是不可避免的。一旦你意识到标准化并非你的首选,就要想想多元化,它才是数据管理策略的核心。
  • 进行审计。如果你不进行审计,就无法向条例制定者证明你的数据管理框架符合条例的要求。所以,要确保自己具有集中式的审计能力,创建审计报告是数据管理策略的一个关键组件。另外,在必要时需要对审计进行测试。企业通常认为他们为审计所收集的数据是正确的,但经常会出现错误,而一旦发现出问题就为时已晚。

关于 GDPR 之下的未来数据管理框架还有很多可以说的。对于企业来说,最为关键的是,数据管理不再只是数据策略中可有可无的一个组件。数据科学在企业中的重要性与日俱增,随着数据条例的出台,企业需要越来越重视数据管理。

关于作者

Andrew Burt 是 Immuta 的首席隐私保密管及法务工程师,Immuta 是世界领先的数据管理平台。

查看英文原文 What Do Data Scientists and Data Engineers Need to Know about GDPR?

2018 年 2 月 08 日 16:521285
用户头像

发布了 321 篇内容, 共 107.7 次阅读, 收获喜欢 101 次。

关注

评论

发布
暂无评论
发现更多内容

万物互联的IoT时代,柔性电子会大行其道吗?

脑极体

独家!阿里技术人限产的MySQL高级笔记及面试宝典,学完简直开挂

Java架构追梦

Java MySQL 数据库 架构 面试

透视HTTPS建造固若金汤的堡垒

码哥字节

https 加密解密 HTTP

算法分析关键

Geek_0b8195

算法和数据结构

云原生在京东丨云原生时代下的监控:如何基于云原生进行指标采集?

京东智联云开发者

云原生

游戏数值策划之常用excel函数

吴优秀同学

Excel 游戏

分布式下,我想要一致性

架构师修行之路

分布式 微服务

华为云瑶光:打通云边端界限,为企业云上业务带来最优解

华为云开发者社区

华为 云服务

第四周作业

dll

架构训练营学习笔记之五技术选型(一)

于成龙

架构训练营

一套完整的后台管理系统(附源码),非常实用!

程序员生活志

管理系统

mongodb 源码实现、调优、最佳实践系列-百万级代码量mongodb内核源码阅读经验分享

杨亚洲(专注mongodb及高性能中间件)

MySQL mongodb 源码 中间件 分布式数据库mongodb

一个草根的日常杂碎(10月18日)

刘新吾

随笔杂谈 生活记录 社会百态

1分钟带你入门 Redux 中间件

Leo

前端 中间件 前端进阶训练营 Redux Redux中间件

美腻了!Java资深架构师带你深度学习字节跳动的亿级流量+高并发

Java架构追梦

Java 学习 架构 面试 微服务

膜拜!阿里技术总监纯手打的《MySQL笔记》内部资料限时分享

Java架构师迁哥

Nginx 在运维领域中的应用,看这一篇就够了

华章IT

nginx Linux 运维工程师

区块链交易所开发源码案例,区块链数字货币交易所

135深圳3055源中瑞8032

区块链钱包源码开发,深圳数字货币钱包开发

135深圳3055源中瑞8032

聊聊技术人员如何学习成长

flyer0126

职业成长

一个草根的日常杂碎(10月19日)

刘新吾

随笔杂谈 生活记录 社会百态

一个草根的日常杂碎(10月20日)

刘新吾

随笔杂谈 生活记录 社会百态

合约跟单源码,合约跟单模式系统软件开发

135深圳3055源中瑞8032

连续一个月每天加班到凌晨三点,终于把Java程序员必知必会的计算机底层操作系统知识和网络知识整理出来了,已整理成文档!

Java架构之路

Java 程序员 架构 编程语言 操作系统

基于注解的参数校验器Hibernate Validator

HelloLittleRain

Java springboot 参数校验 Hibernate-Validator

1分钟带你入门 React 公共逻辑抽离HOC...

Leo

React Hooks 前端进阶训练营 HOC Render Props

独角兽高级技术总监手写588页性能调优笔记,十年经验发人深省

周老师

Java 编程 程序员 架构 面试

利用区块链等技术,加强对交通运输信用信息的归集共享和分析应用

CECBC区块链专委会

区块链 交通运输

在网上被MG坑审过却一直延迟无法取出到账怎么解决 (LGF微7998)

Geek_db0f9e

解锁华为云AI如何助力无人车飞驰“新姿势”,大赛冠军有话说

华为云开发者社区

AI 无人驾驶

Java程序员还在为没有项目经验感到苦恼?快来看看GitHub上最火的SpringCloud微服务商城系统开源项目,附全套教程!

Java架构之路

Java 程序员 架构 面试 编程语言

关于GDPR,数据科学家和数据工程师需要知道些什么-InfoQ