速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

新机器学习库 TensorFlow Privacy 问世:旨在保护敏感数据

  • 2019-04-03
  • 本文字数:1252 字

    阅读完需:约 4 分钟

新机器学习库TensorFlow Privacy问世:旨在保护敏感数据

在最近的一篇博文中,TensorFlow 宣布推出TensorFlow Privacy。这是一个开源库,它允许研究人员和开发人员构建具有强大隐私保护功能的机器学习模型。基于强大的数学确定性(mathematical guarantees),使用本库可以确保用户数据无法通过训练过程被记住。


机器学习在如今的在线产品和服务中非常普遍。谷歌认为,为了保护用户隐私,把强大的隐私保护功能嵌入 TensorFlow 是非常重要的。为什么那么重要呢?谷歌大脑(Google Brain)的产品经理Carey Radebaugh对此进行了解释:


现代机器学习正越来越多地用于创造令人惊叹的新技术和用户体验,其中很多需要让训练机器负责地从敏感数据(例如个人照片或电邮)中学习。理想情况下,受过训练的机器学习模型的参数应该编码一般模式,而不是关于特定训练示例的事实。


TensorFlow Privacy 的引入符合谷歌去年发布的负责的AI实践承诺(Responsible AI Practices commitment),旨在“在这些[AI]系统中建立公平性、可解释性、隐私和安全性”。谷歌除了遵循负责的 AI 实践外,他们还希望让外部开发人员在其构建的应用程序和产品中应用同样的实践。


TensorFlow Privacy 的技术实现建立在差异化隐私理论(differentail privacy theory)之上,该理论通过提供一个衡量隐私保障的框架,以确保模型不会学习或记住用户的详细信息。


为了证明 TensorFlow Privacy 的有效性,谷歌提供了一个训练两个模型的例子,其中一个模型具有基于 TensorFlow Privacy 库的差异化隐私功能,而另一个没有。这两个模型是在标准 Penn Treebank 训练数据集上训练的。这两个模型在对英语建模中都表现良好。如对于以下的财经新闻句子,二者都能够获得好分数。


There was little turnover and nothing to stimulate the market

South korea and japan continue to be profitable

Merchant banks were stronger across the board


但是,在某些领域,这两个模型的得分天差地别。例如,使用传统的训练方法,以下这三个句子的得分都很高,也就是“在标准训练过程中,有效地记住了内容”。相反,差异性隐私模型在这些句子上的得分很低,并被拒绝了。


Aer banknote berlitz calloway … ssangyong swapo wachter

The naczelnik stands too

My god and i know i am correct and innocent


在财经新闻的语境中,这三个句子似乎不常见。因此,这三个罕见的句子可以用来识别或揭示个人信息,因而使用敏感数据训练就被拒绝了。Radebaugh 进行了额外的解释:


这两个模型的差异在于,有隐私保护的模型不能记住异常的罕见序列。我们可以利用我们先前在神经网络中测量无意识记忆的工作来量化这种影响。我们故意在训练数据中插入独特的、随机的罕见句子,并评估罕见句子对训练模型的影响。在这种情况下,单个随机罕见句子的插入就足够让无隐私保护模型完全记住它了。


TensorFlow Privacy 库和示例可以在它们的GitHub存储库中找到。此外,TensorFlow技术白皮书已经更新,包含了这些新隐私机制的详细信息。


阅读英文原文:Introducing TensorFlow Privacy, a New Machine Learning Library for Protecting Sensitive Data


2019-04-03 08:002318
用户头像

发布了 199 篇内容, 共 85.7 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

解决网络协议服务器问题的关键:定位能力与抓包技术

华为云开发者联盟

网络协议 开发 华为云 华为云开发者联盟

【AI趋势发展】 主赛道:技术人的 2023 总结

雪奈椰子

大模型加持下,AI招聘的“下一站”

用友BIP

AI招聘

数仓调优实践丨SQL改写消除相关子查询

华为云开发者联盟

数据库 大数据 华为云 华为云开发者联盟 华为云GaussDB(DWS)

2024年 Kubernetes 四大趋势预测

SEAL安全

Kubernetes 企业号12月PK榜 12 月 PK 榜

利用Prompt学习更多示例,提高大模型性能

百度开发者中心

人工智能 模型

反向 Debug 了解一下?揭秘 Java DEBUG 的基本原理 | 京东云技术团队

京东科技开发者

Java debug 后端

DDD学习与感悟——向屎山冲锋 | 京东云技术团队

京东科技开发者

架构 DDD 六边形

IntelliJ IDEA安装教程

小魏写代码

用友BIP国资云赋能国资监管迈入智能化新局面

用友BIP

国资监管

企业门户平台全功能解析:从界面到集成,一站式管理与整合

天津汇柏科技有限公司

企业 统一门户

技术译文 | 微服务测试——契约测试

AREX 中文社区

微服务 测试 契约测试

「模问题」AI原生小游戏强势来袭,一起为AI失眠吧!

飞桨PaddlePaddle

人工智能 游戏 文心大模型 AI原生应用

【奶奶看了都会】ComfyUI+SVD制作AI视频教程,附效果演示

卷福同学

AIGC AI绘画 Stable Diffusion AI视频 ComfyUI

共建共享,创新同行!飞桨星河社区助力大模型时代开发者砥砺前行

飞桨PaddlePaddle

人工智能 开发者 WAVE SUMMIT

大数据从业者必知必会的Hive SQL调优技巧 | 京东云技术团队

京东科技开发者

制造业进项税额转出全场景数智化管理

用友BIP

从容器的发展历史理解容器的本质

华为云开发者联盟

云计算 云原生 后端 华为云 华为云开发者联盟

重塑招聘的价值,AI能扮演好企业的“人才捕手”吗?

用友BIP

AI招聘

文心一言 VS 讯飞星火 VS chatgpt (164)-- 算法导论13.1 4题

福大大架构师每日一题

福大大架构师每日一题

中国机械总院:大型集团视角下的智能费控与支出管理

用友BIP

业财融合

Prompt Tuning:大模型微调的实战技巧

百度开发者中心

深度学习 大模型 Prompt

【收藏】法律人办案必备检索网站最新汇总!附检索技巧

科技汇

《2023 中国信通院IOMM企业数字化转型发展双象限洞察》发布,转型者象限&赋能者象限各有40+企业上榜

信通院IOMM数字化转型团队

数字化转型 IOMM ICT深度观察

UltraEdit for Mac(超好用的高级文本编辑器) v22.0.0.19激活破解版

mac

UltraEdit 文本编辑器 苹果mac Windows软件

主馆位置即将售罄“2024北京信息通信展会”众多知名企聚京城

AIOTE智博会

通信展 信息通信展

生成式 AI 的下一阶段将走向何方?

Baihai IDP

深度学习 程序员 AI 白海科技 GenAI

2023年度总结:嵌入式边缘计算与大模型学习的进展与应用 主赛道 | 社区征文

雪奈椰子

新机器学习库TensorFlow Privacy问世:旨在保护敏感数据_AI&大模型_Kent Weare_InfoQ精选文章