在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

新机器学习库 TensorFlow Privacy 问世:旨在保护敏感数据

  • 2019-04-03
  • 本文字数:1252 字

    阅读完需:约 4 分钟

新机器学习库TensorFlow Privacy问世:旨在保护敏感数据

在最近的一篇博文中,TensorFlow 宣布推出TensorFlow Privacy。这是一个开源库,它允许研究人员和开发人员构建具有强大隐私保护功能的机器学习模型。基于强大的数学确定性(mathematical guarantees),使用本库可以确保用户数据无法通过训练过程被记住。


机器学习在如今的在线产品和服务中非常普遍。谷歌认为,为了保护用户隐私,把强大的隐私保护功能嵌入 TensorFlow 是非常重要的。为什么那么重要呢?谷歌大脑(Google Brain)的产品经理Carey Radebaugh对此进行了解释:


现代机器学习正越来越多地用于创造令人惊叹的新技术和用户体验,其中很多需要让训练机器负责地从敏感数据(例如个人照片或电邮)中学习。理想情况下,受过训练的机器学习模型的参数应该编码一般模式,而不是关于特定训练示例的事实。


TensorFlow Privacy 的引入符合谷歌去年发布的负责的AI实践承诺(Responsible AI Practices commitment),旨在“在这些[AI]系统中建立公平性、可解释性、隐私和安全性”。谷歌除了遵循负责的 AI 实践外,他们还希望让外部开发人员在其构建的应用程序和产品中应用同样的实践。


TensorFlow Privacy 的技术实现建立在差异化隐私理论(differentail privacy theory)之上,该理论通过提供一个衡量隐私保障的框架,以确保模型不会学习或记住用户的详细信息。


为了证明 TensorFlow Privacy 的有效性,谷歌提供了一个训练两个模型的例子,其中一个模型具有基于 TensorFlow Privacy 库的差异化隐私功能,而另一个没有。这两个模型是在标准 Penn Treebank 训练数据集上训练的。这两个模型在对英语建模中都表现良好。如对于以下的财经新闻句子,二者都能够获得好分数。


There was little turnover and nothing to stimulate the market

South korea and japan continue to be profitable

Merchant banks were stronger across the board


但是,在某些领域,这两个模型的得分天差地别。例如,使用传统的训练方法,以下这三个句子的得分都很高,也就是“在标准训练过程中,有效地记住了内容”。相反,差异性隐私模型在这些句子上的得分很低,并被拒绝了。


Aer banknote berlitz calloway … ssangyong swapo wachter

The naczelnik stands too

My god and i know i am correct and innocent


在财经新闻的语境中,这三个句子似乎不常见。因此,这三个罕见的句子可以用来识别或揭示个人信息,因而使用敏感数据训练就被拒绝了。Radebaugh 进行了额外的解释:


这两个模型的差异在于,有隐私保护的模型不能记住异常的罕见序列。我们可以利用我们先前在神经网络中测量无意识记忆的工作来量化这种影响。我们故意在训练数据中插入独特的、随机的罕见句子,并评估罕见句子对训练模型的影响。在这种情况下,单个随机罕见句子的插入就足够让无隐私保护模型完全记住它了。


TensorFlow Privacy 库和示例可以在它们的GitHub存储库中找到。此外,TensorFlow技术白皮书已经更新,包含了这些新隐私机制的详细信息。


阅读英文原文:Introducing TensorFlow Privacy, a New Machine Learning Library for Protecting Sensitive Data


2019-04-03 08:002608
用户头像

发布了 199 篇内容, 共 94.9 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

K8s进阶之一文搞懂PV,PVC及SC

电子尖叫食人鱼

Kubernetes 容器

大型网站架构实战!

程序员高级码农

Java 程序员 架构师

集成指南:如何基于融云 Flutter IMKit 实现双端丝滑社交体验

融云 RongCloud

【免费开源】积木报表MongoDB数据集使用实战

JEECG低代码

mongodb 数据可视化 报表 报表工具

【免费开源】积木报表文件数据集使用实战

JEECG低代码

数据可视化 报表 报表工具

重磅预告|开源鸿蒙开发者大会2025举办在即

最新动态

十年一诺:一张SPN获奖证书背后的技术征途

脑极体

通信

遭遇DDoS攻击为什么不能反击回去?

网络安全服务

CDN 服务器 DDoS 带宽 高防IP

YashanDB 知识库|内存参数这么多,Share Pool 怎么配才不会报错?

数据库砖家

数据库

【浪潮海岳inDatax数据中台专栏】海岳inDataX“易宝特”流程自动化平台建设与实践

inBuilder低代码平台

如何在通义灵码里使用 MCP 能力?

阿里巴巴云原生

阿里云 云原生 通义灵码 MCP

React-native脚手架探索

溪抱鱼

typescript html React

YashanDB 知识库|insert 写入乱码字符,CPU 占满、线程卡死?你可能踩到了 lex 死循环的坑

数据库砖家

数据库

CodeBuddy 助力小程序开发,搓了一款面试刷题小程序

悟空聊架构

小程序 人工智能 AI 代码助手 CodeBuddy首席试玩官

「智元机器人」“稚晖君”彭志辉:机器人不玩“后空翻”,选择实用主义优先路线!

机器人头条

科技 大模型 人形机器人 具身智能

如何在通义灵码里使用 MCP 能力?

阿里云云效

阿里云 通义灵码 MCP

YashanDB 知识库|IMP 跨网络导入太慢?一文看懂原因与优化建议

数据库砖家

数据库

CodeBuddy + MCP 实现一个炫酷的贪吃蛇

悟空聊架构

人工智能 AI 代码助手 MCP CodeBuddy首席试玩官

混合编程会是软件产业发展的必然选择吗?

代码制造者

混合编程

按钮导航组件 | 纯血鸿蒙组件库AUI

华哥的全栈次元舱

鸿蒙开发 纯血鸿蒙 ArkUI / eTS 鸿蒙组件库AUI AI极客

YashanDB 知识库|主备切换怎么做?一主一备 & 一主两备完整操作指引

数据库砖家

数据库

一分钟用 MCP 上线一个 2048 小游戏(CodeBuddy版)

悟空聊架构

人工智能 编程 AI 代码助手 CodeBuddy首席试玩官

CodeBuddy 接入 MCP,一键生成网站!

悟空聊架构

人工智能 编程 AI 代码助手 CodeBuddy首席试玩官

Python 3.14 新特性盘点,更新了些什么?

不在线第一只蜗牛

Python

热点追踪+精准解读——火山引擎 AI 域名推荐上线!

火山引擎边缘云

域名解析 域名 域名备案 域名系统 AI Agent,

2025年PM产品力领航者大会 | 上海巅峰论道

新消费日报

微服务架构原理与开发实战!

程序员高级码农

程序员 微服务 架构师

YashanDB 知识库|删除用户组后 yasql 免密登录失效?问题可能出在这儿

数据库砖家

数据库

YashanDB 知识库|GBK 库插入生僻字乱码?别忽视编码转换这一环

数据库砖家

数据库

CodeBuddy Craft,我的编程搭子

悟空聊架构

【免费开源】积木报表ElasticSearch数据集使用实战

JEECG低代码

elasticsearch 数据可视化 报表 报表工具

新机器学习库TensorFlow Privacy问世:旨在保护敏感数据_AI&大模型_Kent Weare_InfoQ精选文章