东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

新机器学习库 TensorFlow Privacy 问世:旨在保护敏感数据

  • 2019-04-03
  • 本文字数:1252 字

    阅读完需:约 4 分钟

新机器学习库TensorFlow Privacy问世:旨在保护敏感数据

在最近的一篇博文中,TensorFlow 宣布推出TensorFlow Privacy。这是一个开源库,它允许研究人员和开发人员构建具有强大隐私保护功能的机器学习模型。基于强大的数学确定性(mathematical guarantees),使用本库可以确保用户数据无法通过训练过程被记住。


机器学习在如今的在线产品和服务中非常普遍。谷歌认为,为了保护用户隐私,把强大的隐私保护功能嵌入 TensorFlow 是非常重要的。为什么那么重要呢?谷歌大脑(Google Brain)的产品经理Carey Radebaugh对此进行了解释:


现代机器学习正越来越多地用于创造令人惊叹的新技术和用户体验,其中很多需要让训练机器负责地从敏感数据(例如个人照片或电邮)中学习。理想情况下,受过训练的机器学习模型的参数应该编码一般模式,而不是关于特定训练示例的事实。


TensorFlow Privacy 的引入符合谷歌去年发布的负责的AI实践承诺(Responsible AI Practices commitment),旨在“在这些[AI]系统中建立公平性、可解释性、隐私和安全性”。谷歌除了遵循负责的 AI 实践外,他们还希望让外部开发人员在其构建的应用程序和产品中应用同样的实践。


TensorFlow Privacy 的技术实现建立在差异化隐私理论(differentail privacy theory)之上,该理论通过提供一个衡量隐私保障的框架,以确保模型不会学习或记住用户的详细信息。


为了证明 TensorFlow Privacy 的有效性,谷歌提供了一个训练两个模型的例子,其中一个模型具有基于 TensorFlow Privacy 库的差异化隐私功能,而另一个没有。这两个模型是在标准 Penn Treebank 训练数据集上训练的。这两个模型在对英语建模中都表现良好。如对于以下的财经新闻句子,二者都能够获得好分数。


There was little turnover and nothing to stimulate the market

South korea and japan continue to be profitable

Merchant banks were stronger across the board


但是,在某些领域,这两个模型的得分天差地别。例如,使用传统的训练方法,以下这三个句子的得分都很高,也就是“在标准训练过程中,有效地记住了内容”。相反,差异性隐私模型在这些句子上的得分很低,并被拒绝了。


Aer banknote berlitz calloway … ssangyong swapo wachter

The naczelnik stands too

My god and i know i am correct and innocent


在财经新闻的语境中,这三个句子似乎不常见。因此,这三个罕见的句子可以用来识别或揭示个人信息,因而使用敏感数据训练就被拒绝了。Radebaugh 进行了额外的解释:


这两个模型的差异在于,有隐私保护的模型不能记住异常的罕见序列。我们可以利用我们先前在神经网络中测量无意识记忆的工作来量化这种影响。我们故意在训练数据中插入独特的、随机的罕见句子,并评估罕见句子对训练模型的影响。在这种情况下,单个随机罕见句子的插入就足够让无隐私保护模型完全记住它了。


TensorFlow Privacy 库和示例可以在它们的GitHub存储库中找到。此外,TensorFlow技术白皮书已经更新,包含了这些新隐私机制的详细信息。


阅读英文原文:Introducing TensorFlow Privacy, a New Machine Learning Library for Protecting Sensitive Data


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-04-03 08:002142
用户头像

发布了 199 篇内容, 共 81.6 次阅读, 收获喜欢 293 次。

关注

评论

发布
暂无评论
发现更多内容

多领域应用落地,火山引擎ByteHouse加速云数仓升级

字节跳动数据平台

构建学生数据库

猫九

数据库·

实例讲解看nsenter带你“上帝视角”看网络

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 7 月 PK 榜

CST电磁仿真软件配置的CPU、内存、显卡显存越大越好吗?

思茂信息

cst cst使用教程 cst操作 cst电磁仿真 cst仿真软件

SolidUI AI生成可视化,开创性开源项目,版本0.1.0 功能讲解

李孟聊AI

Web 2D 3D AIGC ChatGPT

DataBuff 如何结合 Opentelemetry 监控 golang 应用

乘云 DataBuff

云原生 APM 可观测性 应用性能监控 智能运维AIOps

持续推进平台化、生态化用友助力数智化安全有效落地

用友BIP

信创 国产替代

网心科技入选2023年“边缘计算技术创新先锋案例”

网心科技

边缘计算 边缘云 AIGC

掌握 Dubbo:入门教程

Apifox

程序员 gRPC dubbo RPC 开发

APP流水线测试领域探索与最佳实践 | 京东物流技术团队

京东科技开发者

测试 app测试 app自动化测试 企业号 7 月 PK 榜

Kubernetes云原生实战:分布式GeaFlow实现图研发,构建第一个商业智能应用

TuGraphAnalytics

Kubernetes 云原生 k8s BI 商业智能

怎样实现纯前端百万行数据秒级响应

EquatorCoco

前端 表格控件

SpringIoc容器之Aware | 京东云技术团队

京东科技开发者

spring aware springloc Aware 接口 企业号 7 月 PK 榜

从混沌到秩序的蜕变,SRE解码云计算运维奥秘

鲸品堂

云计算 SRE SRE实践 企业号 7 月 PK 榜

体系完整的数智化底座支撑企业创新发展,实现国产替代

用友BIP

国产替代

企业如何落地DevOps(下)

老张

DevOps 软件工程

从大数据到图计算-Graph On BigData

TuGraphAnalytics

GitHub 大数据 开源 图计算 GeaFlow

Unity JobSystem使用及技巧

快乐非自愿限量之名

Unity 教程

全新技术驱动预算管理全面升级

用友BIP

全面预算

使用第一性原理思维思考如何打造提高生产力的平台 | 京东云技术团队

京东科技开发者

数字化转型 平台工程 企业号 7 月 PK 榜

一文搞懂Git,掌握日常命令和基本操作

互联网工科生

git 知识

TDengine“露面”中国油气田企业智慧油田技术交流大会,为时序数据处理带来全新思路

爱倒腾的程序员

涛思数据 时序数据库 ​TDengine

论文解读|TuGraph Analytics 流式图计算论文入选国际顶会 SIGMOD

TuGraphAnalytics

大数据 论文 图计算 SIGMOD GeaFlow

如果我是一个小白,怎么开发网页

猫九

前端

我感兴趣的技术四剑客 | 社区征文

法医

前端 年中技术盘点

Mybatis-SQL分析组件 | 京东云技术团队

京东科技开发者

mybatis sql mybatis入门 企业号 7 月 PK 榜

华为云GaussDB亮相2023可信数据库发展大会,荣获三项评测证书!

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

Pytorch: autograd与逻辑回归的实现

timerring

人工智能

2023开放原子全球开源峰会,蚂蚁图计算平台开源业内首个工业级流图计算引擎

TuGraphAnalytics

GitHub 开源 图计算 蚂蚁 GeaFlow

谁在以太坊区块链上循环交易?GeaFlow+Kafka的0元流图解决方案

TuGraphAnalytics

区块链 以太坊 kafka 图计算 GeaFlow

数智化底座正在成为当前竞争的焦点

用友BIP

数智底座

新机器学习库TensorFlow Privacy问世:旨在保护敏感数据_AI&大模型_Kent Weare_InfoQ精选文章