写点什么

我离开 Uber,开始自主创业后......

  • 2021-12-24
  • 本文字数:2729 字

    阅读完需:约 9 分钟

我离开Uber,开始自主创业后......

数据监管和用户数据保护可能会成为企业在这十年面临的最大挑战之一,越来越多的国家和地区正在考虑制定数据隐私法案。例如,2020 年美国有 30 个州考虑制定数据隐私法案,这个数字在 2021 年增加到了 38。这波由 GDPR 拉开序幕的立法浪潮始于 2016 年左右,当时世界进入了 Zettabyte(泽字节,相当于 1073741824 TB)时代。从那时起,组织和个人都更多地注意到他们可能会存储在云端的大量数据。到 2025 年,我们预计全球将有近 100 泽字节的云数据,大约是 1000 亿 TB,几乎等于银河系中的恒星数量。


云数据惊人的增长和随之而来的数据隐私法案并非彰显数据监管重要性的唯一征兆。在过去一年的 IPO 热季,随着越来越多公司上市,网络完全和数据保护逐渐成为公司董事会讨论的重要内容。


这意味着数据监管和数据保护成为所有利益相关者关心的领域:用户相信你能小心翼翼地处理好他们的数据以及保护好他们的隐私。董事会希望你避免发生数据泄露事故,因为这对于成长中的业务来说是毁灭性的打击。而归根结底,业务是否能够保持长青,取决于是否能够管理好用户数据以及其他各种敏感数据。


大家都知道,数据泄漏不是件好事。用户数据是神圣不可侵犯的,公司应该尽力保护好用户数据,避免数据泄漏。但是,数据安全问题一直以来都很棘手,特别是对于保存在云端的数据来说。那么,为什么会这样呢?

关于数据安全,我在 Uber 学到了什么


我从 2016 年就开始思考数据安全问题,那个时候我已经在 Uber 了。当时,随着 GDPR 的推出,以云计算为中心的合规环境才刚刚成形。Uber Eats 在短短的两年时间发展到了数十亿美元的规模。毫无疑问,服务数量激增,SaaS 系统和云端的用户数据也随之增长。随着业务的增长,数据增长问题就变得越来越严重,如果我们不及早处理,就越难以下手。


很显然,要解决这个问题,需要三个核心要素。


  • 提高数据可见性。我们要聚合的数据难以识别,在很多情况下,它们是半结构化的数据。我们只是粗略地知道我们想要什么,但不知道该从哪里获得。此外,我们的环境在持续地发生变化,我们知道,敏感数据的类别和存储数据的位置只会越来越多。

  • 改进数据的健康检查。随着团队加入越来越多的工程师,我们很难确保每个人都遵循了可以降低敏感数据泄漏可能性的最佳实践。

  • 纠正过去和未来的不合规行为。事实证明,创建标准化的报告系统用于发现和移除敏感数据是非常耗时的,这个过程需要一定程度的自动化。我们所知道的是,云计算工具的快速发展和采用导致我们很难知道它们是否有在遵循那些确保敏感数据安全性的最佳实践,以及在何时遵循。当我们意识到这个问题时,市场上并没有足够灵活的解决方案,于是我们需要自己构建解决方案来解决这个问题。


我意识到,对于大多数企业来说,我们在 Uber Eats 构建的解决方案并不适合它们,于是,创办 Nightfall 的想法开始在我的脑海里萌芽。

要解决云端数据安全问题需要做些什么


不管是从概念还是技术方面来看,要保护好用户数据(真正的业务敏感数据)是极具挑战性的。第一个障碍是理解数据可见性、数据健康检查和数据纠正之间的关系。除非这三个方面都同时进行,否则是不可能确保敏感数据得到了完整的保护。就像 CIA(Confidentiality、Integrity、Availability,即保密性、完整性和可用性)“铁三角”一样,这三个要素也是紧密相关的。


  • 可见性。获取数据可见性对于了解历史违规来说至关重要。这里指的是那些已经进入到你的环境但还未显现出来的敏感数据。

  • 健康检查。强制实施数据检查对于防止引入违反数据安全的内容来说至关重要。这可以确保以后不会发生违规行为。

  • 纠正。纠正敏感数据泄漏行为对于移除历史违规和确保未来的数据检查违规不会导致数据泄漏事件的发生来说至关重要。对于这个问题,想和做完全是两码事。技术方面的挑战性不容小觑。以上三个要素需要被融合在同一个解决方案当中,而且这个解决方案需要能够被应用到多种不同的云端环境。我和 Uber 的团队仔细思考了如何解决这个问题,但直到我离开 Uber 创办了 Nightfall,我才意识到这个问题的严重性和普遍性。

我为什么离开 Uber 创办了 Nightfall


离开 Uber Eats 后,我开始对云数据安全问题着迷。尽管这个问题涉及的范围很广,我和我的联合创始人还是找到了一个简单而优雅的解决方案:通过 API 进行云端身份验证,然后就可以查看敏感数据,并以一种类似于在本地操作的方式删除数据。这成为现在的 Nightfall 最重要的支柱想法。


发现和解决敏感数据泄露问题需要一个额外的解决方案。这是一个数据分类问题。如果数据能够被准确地检测和分类,安全团队就不需要在数千个表、应用程序和系统之间做繁重的数据映射工作。我和我的联合创始人意识到,监督机器学习可以帮助探测器捕捉到可能存在敏感数据的上下文,而不管它位于何处。


从机器学习和 API 这两个方面可以看到 Nightfall 是如何与 SaaS 应用程序(如 Slack、GitHub、谷歌、Atlassian)进行集成的。我认为这种方法在解决当今的数据管理问题上非常有效,但我认为未来的安全性和合规性要求公司变得更加积极主动。公司不仅要解决现有的敏感数据问题或管理好员工行为,还要从一开始就阻止用户提交某些敏感信息。我们已经看到像 Airbnb 这样的应用程序在其通信工具中自动编校电话号码和其他联系信息。这样的功能不仅保护了用户数据,还降低了公司的数据泄露风险。


我和我的联合创始人都明白这一点,所以一直在努力开发我们的 Nightfall Developer Platform。这个平台充分放开了我们的机器学习检测器,允许用户通过 API 直接将数据发送到我们的检测引擎。你可以使用我们的 API 来识别敏感数据,无论是文件中的字符串、消息还是图像中的内容。

数据安全 API 的“转移”


什么是 Nightfall Developer Platform?其想法很简单:Nightfall 将负责完成检测、分类和修复敏感数据的工作,让开发人员能够专注于构建安全且不会泄漏数据的应用程序。这意味着开发人员可以在他们的应用程序或自定义环境工作流中识别和分类敏感数据,从而删除或以其他方式修复这些数据。


我们的客户已经开始使用我们的 API 在他们的应用程序中构建功能。一些客户正在利用我们的平台来发现和删除日志中的 PII(个人识别信息),还有一些客户使用我们的平台来标记和删除用户通过文本框输入的不恰当的 PII。


因为所有这些都是通过 API 完成的,所以接入是很容易的。你所要做的就是注册一个帐户并创建一个 API 密钥,这可以在几秒钟内完成。然后,你通过网络发送的任何文件或内容都将被解析和分类,并返回 JSON,其中包含了被触发的敏感数据检测器和置信度阈值。你还可以通过多种技术(包括通过 API 替换和加密)识别和编校数据。


想了解更多关于开发者平台的信息,请访问:https://docs.nightfall.ai/


原文链接:https://nightfall.ai/nightfall-ai-developer-platform-history

2021-12-24 19:244560
用户头像
李冬梅 加V:busulishang4668

发布了 1208 篇内容, 共 832.8 次阅读, 收获喜欢 1313 次。

关注

评论

发布
暂无评论
发现更多内容

操作系统跻身国家战略,中国操作系统开源社区走向何方?

OpenCloudOS

Linux 操作系统 DPU 大禹智芯 opencloudOS

面试官:给你一段SQL,你会如何优化?

Java MySQL 数据库 sql 性能优化

面试官:kafka分布式消息系统,你真的了解吗?

Java kafka 消息队列 消息系统 消息中间件

可观测性之谷歌性能主管最新的有关LCP的文章

Yestodorrow

性能 可观测性 用户体验

【v6 认证】PCTA/PCTP/PCSD 我的备考经验

TiDB 社区干货传送门

社区活动 新版本/特性发布 TUG 话题探讨 6.x 实践

MobPush iOS SDK API

MobTech袤博科技

如何在树莓派上使用MQTT协议

EMQ映云科技

树莓派 物联网 IoT mqtt 企业号 3 月 PK 榜

硬核!最全“Java面试宝典+Java核心知识集”,一箭双雕杠春招

Java java面试 Java八股文 Java面试题 Java面试八股文

Chaosd 模拟两地三中心集群的网络环境

TiDB 社区干货传送门

实践案例 管理与运维 故障排查/诊断 安装 & 部署

Visio 绘图注释工具:VSDX Annotator 激活版

真大的脸盆

Mac Mac 软件 注释工具

JVM超神之路:金三银四跳槽需要的JVM知识点,都给你整理好了

Java你猿哥

Java 面试 JVM 面经 Java工程师

mysql-online-ddl是否需要rebuild

TiDB 社区干货传送门

保姆级教程!玩转 ChunJun 详细指南

袋鼠云数栈

大数据 开源

深入理解Spring注解机制:注解的搜索与处理机制

Java你猿哥

Java spring Spring Boot ssm Spring注解

BGA焊接问题解析,华秋一文带你读懂

华秋电子

从反脆弱角度说一说:技术系统高可用性策略

小小怪下士

Java 程序员 系统设计 后端 秒杀

实用性好的云管平台有哪些?咨询电话多少?

行云管家

云计算 云资源 云管理

接招吧!最强“高并发”系统设计 46 连问,分分钟秒杀一众面试者

Java 系统设计 高并发

二本4年Java经验,五面阿里艰苦经历(定薪45K),回馈一波心得体会

Java你猿哥

Java redis 面试 Spring Boot 面经

SSO认证是什么意思?有哪些优势?

行云管家

SSO认证

夺冠在即!2022 OceanBase数据库大赛12强集结

OceanBase 数据库

数据库 oceanbase

从零开始自己动手写阻塞队列

Java你猿哥

Java 线程 阻塞队列 实战

对tidb-lightning导入机制的一点点研究

TiDB 社区干货传送门

故障排查/诊断 TiDB 源码解读

中国音乐市场增长超28%,首次成为全球第五大市场

曲多多(嗨翻屋)版权音乐

知识产权 娱乐 音乐 版权 娱乐产业

阿里面试:100个高频Spring面试题,助你一臂之力

Java你猿哥

Java spring 面试 Spring Boot 面经

Nautilus Chain主网上线在即空投规则公布,如何获得更多的空投?

西柚子

如何使用ShareSDK快速实现Android APP的社会化分享登录功能

MobTech袤博科技

TiCDC+Confluent同步数据到Oracle

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 安装 & 部署 数据库架构设计

重磅消息!ChatGPT 联网,Milvus & Zilliz 正式嵌入用于向量检索!

Zilliz

非结构化数据 Milvus Zilliz 向量数据库 ChatGPT

我离开Uber,开始自主创业后......_文化 & 方法_Rohan Sathe_InfoQ精选文章