写点什么

新机器学习库 TensorFlow Privacy 问世:旨在保护敏感数据

  • 2019-04-03
  • 本文字数:1252 字

    阅读完需:约 4 分钟

新机器学习库TensorFlow Privacy问世:旨在保护敏感数据

在最近的一篇博文中,TensorFlow 宣布推出TensorFlow Privacy。这是一个开源库,它允许研究人员和开发人员构建具有强大隐私保护功能的机器学习模型。基于强大的数学确定性(mathematical guarantees),使用本库可以确保用户数据无法通过训练过程被记住。


机器学习在如今的在线产品和服务中非常普遍。谷歌认为,为了保护用户隐私,把强大的隐私保护功能嵌入 TensorFlow 是非常重要的。为什么那么重要呢?谷歌大脑(Google Brain)的产品经理Carey Radebaugh对此进行了解释:


现代机器学习正越来越多地用于创造令人惊叹的新技术和用户体验,其中很多需要让训练机器负责地从敏感数据(例如个人照片或电邮)中学习。理想情况下,受过训练的机器学习模型的参数应该编码一般模式,而不是关于特定训练示例的事实。


TensorFlow Privacy 的引入符合谷歌去年发布的负责的AI实践承诺(Responsible AI Practices commitment),旨在“在这些[AI]系统中建立公平性、可解释性、隐私和安全性”。谷歌除了遵循负责的 AI 实践外,他们还希望让外部开发人员在其构建的应用程序和产品中应用同样的实践。


TensorFlow Privacy 的技术实现建立在差异化隐私理论(differentail privacy theory)之上,该理论通过提供一个衡量隐私保障的框架,以确保模型不会学习或记住用户的详细信息。


为了证明 TensorFlow Privacy 的有效性,谷歌提供了一个训练两个模型的例子,其中一个模型具有基于 TensorFlow Privacy 库的差异化隐私功能,而另一个没有。这两个模型是在标准 Penn Treebank 训练数据集上训练的。这两个模型在对英语建模中都表现良好。如对于以下的财经新闻句子,二者都能够获得好分数。


There was little turnover and nothing to stimulate the market

South korea and japan continue to be profitable

Merchant banks were stronger across the board


但是,在某些领域,这两个模型的得分天差地别。例如,使用传统的训练方法,以下这三个句子的得分都很高,也就是“在标准训练过程中,有效地记住了内容”。相反,差异性隐私模型在这些句子上的得分很低,并被拒绝了。


Aer banknote berlitz calloway … ssangyong swapo wachter

The naczelnik stands too

My god and i know i am correct and innocent


在财经新闻的语境中,这三个句子似乎不常见。因此,这三个罕见的句子可以用来识别或揭示个人信息,因而使用敏感数据训练就被拒绝了。Radebaugh 进行了额外的解释:


这两个模型的差异在于,有隐私保护的模型不能记住异常的罕见序列。我们可以利用我们先前在神经网络中测量无意识记忆的工作来量化这种影响。我们故意在训练数据中插入独特的、随机的罕见句子,并评估罕见句子对训练模型的影响。在这种情况下,单个随机罕见句子的插入就足够让无隐私保护模型完全记住它了。


TensorFlow Privacy 库和示例可以在它们的GitHub存储库中找到。此外,TensorFlow技术白皮书已经更新,包含了这些新隐私机制的详细信息。


阅读英文原文:Introducing TensorFlow Privacy, a New Machine Learning Library for Protecting Sensitive Data


2019-04-03 08:002542
用户头像

发布了 199 篇内容, 共 93.0 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

本地(或自下载)浏览器插件 安装指南

京东科技开发者

供应链计划性能优化解决方案-Clickhouse本地Join

京东科技开发者

鸿蒙NEXT使用request模块实现本地文件上传

威哥爱编程

鸿蒙 HarmonyOS ArkTS HarmonyOS NEXT HarmonyOS5.0

kookeey功能上新 | 动态线路美国新增51个二级地区

kookeey代理严选

亚马逊 海外直播专线 tiktok直播 跨境电商运营 海外网络连接

AI技术在评估英语学习的应用

北京木奇移动技术有限公司

AI技术 AI教育 软件外包公司

数造科技荣获2024年“年度数据资源创新开发企业”

数造万象

数据 数据治理 数据开发 政府积极推进 科技

国家大力推进车联网信息安全体系建设

芯盾时代

车联网 物联网 电动汽车

架构提效的矛盾和矛盾的主要方面

京东科技开发者

警务协同办公系统(源码+文档+部署+讲解)

深圳亥时科技

商机信息平台(源码+文档+部署+讲解)

深圳亥时科技

镜舟科技荣登《2024 中国大数据产业年度「国产化」优秀代表厂商》榜单!

镜舟科技

开源 数据分析 分析型数据库 StarRocks 湖仓

使用火语言RPA批量创建指纹浏览器

火语言RPA

AI技术在英语发音纠正中的应用

北京木奇移动技术有限公司

英语学习 AI技术 软件外包公司

智慧党建系统(源码+文档+部署+讲解)

深圳亥时科技

京东商品视频数据接口(JD.item_video)丨京东API接口指南

tbapi

京东API接口 京东商品视频接口

镜舟科技2024年度回顾,坚持长期价值,进一步实现商业突破

镜舟科技

开源 数据分析 StarRocks 镜舟科技

AI技术在英语学习中的应用

北京木奇移动技术有限公司

英语学习 AI技术 软件外包公司

面试必问!项目高频面试题解析

王中阳Go

面试 后端

一位海外开发者的 OpenSPG KAG 实践分享

可信AI进展

知识图谱 大模型 rag RAG搭建

京东JD商品详情原数据API接口的开发、运用与收益

科普小能手

数据挖掘 数据分析 电商 京东 API 接口

25年你还不知道什么是云管平台吗?来这里看看!

行云管家

云计算 云服务 云管平台

新机器学习库TensorFlow Privacy问世:旨在保护敏感数据_AI&大模型_Kent Weare_InfoQ精选文章