【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

Martin Fowler 谈数据紧缩

  • 2013-12-20
  • 本文字数:929 字

    阅读完需:约 3 分钟

越来越多的企业正投资于大数据系统。由于这些系统设计用来存储和处理海量的信息,所以其建设和维护往往都极其复杂和昂贵。它们也非常容易受到攻击,但对于高额利润的预期,企业似乎无法抗拒。

Martin Fowler 写了一篇文章,关于与大数据截然相反的 Datensparsamkeit 。这是一个德语词,大致可以翻译成“数据紧缩(data austerity)”或者直白地译为“不存储不需要的数据”。其中一个原因是隐私。其实在爱德华·斯诺登泄密事件之前,人们就已经对 2001 年的美国爱国者法案和随后的未授权监控表示了担忧。Martin 写到:

“收集所有数据(capture-it-all)”的方式其问题在于会引发严重的隐私问题。即使我们相信自己不会滥用收集的数据,但每个数据存储都可能成为罪犯或者政府监控机构的目标。在德国,这个问题尤其令人担忧。历届政府均存在这一问题,为了控制国民,政府对他们进行了广泛地监控。德国因此具有了健全的数据隐私法。

Datensparsamkeit 是一个源于这些隐私法的概念,与“收集所有数据”的理念截然相反。对于这个词,英语中没有一个直截了当的译法(这就是为什么我在文中保留了这个德语词),但大致上可以将其翻译为“数据紧缩”、“数据最小化”、“吝惜数据(data parsimony)”或者“节省数据(data frugality)”。这意味着,企业应该总是问自己这样一个问题,为什么收集或者存储数据,并设法只处理达到目的所需的最小数据量。

当然,政府监控不是唯一的担忧。即使是最小的企业也会成为黑客设法获取密码和信用卡信息的目标。Martin 继续写到:

即使读者不同意我关于个人控制自己数据的观点,安全遭破坏的风险还是意味着 datensparsamkeit 是一个明智的做法。如果保存了并不需要的数据,而某个人窃取并造成了损失,难道保存数据的人就不需要为此承担责任吗?即使没有法律责任,公开传播也将产生严重的后果——因此,任何不践行 datensparsamkeit 的人都在冒险。

对于某些行业,这个问题的答案毫无疑问是肯定的。例如,任何储存了信用卡背面三位数代码的企业都要对来自 Visa 和 Mastercard 的巨额罚款负责,即使实际上并没有破坏安全的行为发生。如果信息遭到窃取并被使用,法庭判处的罚款、相关部门出具的罚款以及赔款会让一个小企业破产。

查看英文原文:**** Martin Fowler on Data Austerity

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2013-12-20 06:531576
用户头像

发布了 256 篇内容, 共 81.2 次阅读, 收获喜欢 11 次。

关注

评论

发布
暂无评论
发现更多内容

实战营第一战:FizzBuzz

escray

学习 CSD 认证实战营

花更多的时间在自己的优势上

Neco.W

创业 自我管理 重新理解创业

NIO看破也说破(一)—— Linux/IO基础

小眼睛聊技术

Linux 架构 后端 Netty nio

MySQL自增ID以及其他唯一ID方式分析

Bruce Duan

MySQL自增ID 唯一ID

python中的GIL锁和互斥锁问题

半面人

Python

Web3极客日报#135

谢锐 | Frozen

区块链 独立开发者 技术社区 Rebase Web3 Daily

Golang杂谈 - graceful shutdown为何离奇失效?

星语

后端 平滑重启 服务端 Go 语言

五十年前的一桩公案:数据库关系模型的流行史(上)

青菜年糕汤

数据库 分布式数据库 数据库规范 关系型数据库 数据库设计

Web3极客日报#134

谢锐 | Frozen

区块链 独立开发者 技术社区 Rebase Web3 Daily

笔记:《如何系统思考》之因果回路图

wiflish

思维方式

游戏夜读 | 工具游戏的辉煌

game1night

写在2020年五四青年节

耿老的竹林

个人成长

聊天机器人为什么这么难?

青菜年糕汤

人工智能 自然语言处理 搜索引擎 chatbot 聊天机器人

中台是为了复用?未必!浅谈产业中台建设的特点与误区

孤岛旭日

架构 中台 企业中台 企业架构 产业互联网

如何成为一个高效的问题解决者?

汪锋

五十年前的一桩公案:数据库关系模型的流行史(下)

青菜年糕汤

数据库 分布式数据库 数据库规范 关系型数据库 数据库设计

Java并发编程基础--线程

Java收录阁

Java 线程

leetcode141. 环形链表

Damien

算法 链表 LeetCode

哲少荐书:这才是心理学

Jackey

心理学 读书

人人都要有经营意识

Neco.W

创业 重新理解创业 公司管理

创投机会诞生在这四个核心变量中 | 2019年在某大学课堂做的一次讲演的实录

邓瑞恒Ryan

创业 管理 投资 行业资讯

python oop 指南

志学Python

Python python 爬虫 oop

基准测试神器JMH —— 详解36个官方例子

捉虫大师

Java 性能 JMH

leetcode8. 字符串转换整数 (atoi)

Damien

算法 数学

为什么厉害的人精力都那么好?

非著名程序员

程序员 程序人生 提升认知 精力管理

Redis学习笔记(安装)

编程随想曲

redis

Impala UDTF 功能实现

小鹏

大数据 hadoop cloudera 数据仓库

冥想与呼吸法之于情绪控制

树上

情绪 冥想 呼吸法 呼吸 自我

一文带你搞懂RPC核心原理

松花皮蛋me

微服务 RPC 远程调用

我在极客大学算法训练营的收获

熊斌

极客时间 极客大学

Java并发编程系列——分布式锁

孙苏勇

Java zookeeper 并发编程 多线程 分布式锁

Martin Fowler谈数据紧缩_大数据_Jonathan Allen_InfoQ精选文章