2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

新机器学习库 TensorFlow Privacy 问世:旨在保护敏感数据

  • 2019-04-03
  • 本文字数:1252 字

    阅读完需:约 4 分钟

新机器学习库TensorFlow Privacy问世:旨在保护敏感数据

在最近的一篇博文中,TensorFlow 宣布推出TensorFlow Privacy。这是一个开源库,它允许研究人员和开发人员构建具有强大隐私保护功能的机器学习模型。基于强大的数学确定性(mathematical guarantees),使用本库可以确保用户数据无法通过训练过程被记住。


机器学习在如今的在线产品和服务中非常普遍。谷歌认为,为了保护用户隐私,把强大的隐私保护功能嵌入 TensorFlow 是非常重要的。为什么那么重要呢?谷歌大脑(Google Brain)的产品经理Carey Radebaugh对此进行了解释:


现代机器学习正越来越多地用于创造令人惊叹的新技术和用户体验,其中很多需要让训练机器负责地从敏感数据(例如个人照片或电邮)中学习。理想情况下,受过训练的机器学习模型的参数应该编码一般模式,而不是关于特定训练示例的事实。


TensorFlow Privacy 的引入符合谷歌去年发布的负责的AI实践承诺(Responsible AI Practices commitment),旨在“在这些[AI]系统中建立公平性、可解释性、隐私和安全性”。谷歌除了遵循负责的 AI 实践外,他们还希望让外部开发人员在其构建的应用程序和产品中应用同样的实践。


TensorFlow Privacy 的技术实现建立在差异化隐私理论(differentail privacy theory)之上,该理论通过提供一个衡量隐私保障的框架,以确保模型不会学习或记住用户的详细信息。


为了证明 TensorFlow Privacy 的有效性,谷歌提供了一个训练两个模型的例子,其中一个模型具有基于 TensorFlow Privacy 库的差异化隐私功能,而另一个没有。这两个模型是在标准 Penn Treebank 训练数据集上训练的。这两个模型在对英语建模中都表现良好。如对于以下的财经新闻句子,二者都能够获得好分数。


There was little turnover and nothing to stimulate the market

South korea and japan continue to be profitable

Merchant banks were stronger across the board


但是,在某些领域,这两个模型的得分天差地别。例如,使用传统的训练方法,以下这三个句子的得分都很高,也就是“在标准训练过程中,有效地记住了内容”。相反,差异性隐私模型在这些句子上的得分很低,并被拒绝了。


Aer banknote berlitz calloway … ssangyong swapo wachter

The naczelnik stands too

My god and i know i am correct and innocent


在财经新闻的语境中,这三个句子似乎不常见。因此,这三个罕见的句子可以用来识别或揭示个人信息,因而使用敏感数据训练就被拒绝了。Radebaugh 进行了额外的解释:


这两个模型的差异在于,有隐私保护的模型不能记住异常的罕见序列。我们可以利用我们先前在神经网络中测量无意识记忆的工作来量化这种影响。我们故意在训练数据中插入独特的、随机的罕见句子,并评估罕见句子对训练模型的影响。在这种情况下,单个随机罕见句子的插入就足够让无隐私保护模型完全记住它了。


TensorFlow Privacy 库和示例可以在它们的GitHub存储库中找到。此外,TensorFlow技术白皮书已经更新,包含了这些新隐私机制的详细信息。


阅读英文原文:Introducing TensorFlow Privacy, a New Machine Learning Library for Protecting Sensitive Data


2019-04-03 08:002549
用户头像

发布了 199 篇内容, 共 93.4 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

动态更新技术重构中国互联网:前端热更新的效率革命与生态演进

xuyinyin

赋能车联网 | 智能地铁物联系统,让出行更顺畅

KaiwuDB

数据库 赋能 kwdb

什么是商业分析报告,怎么制作?AI智能体使用攻略盘点!

职场工具箱

人工智能 项目分析报告 AIGC AI智能体 AI 智能体

新加坡见!快手11篇论文入选人工智能领域顶会ICLR 2025

快手技术

人工智能 Iclr

开发认为测试不及时,测试吐槽工作量太大?

禅道项目管理

DevOps 软件开发 效能管理 测试人员 测试效率

马蹄链DAPP代币合约流动性挖矿分红系统开发详细及方案

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

如何做到供应链的协同管理?

积木链小链

数字化转型 智能制造 供应链管理

企业AI成功落地的关键:生产级AI应用背后的“脏活累活”

UniverAI智宇苍穹

开发平台 企业 AI 应用 AI落地 AI 大模型 企业级AI工程化

与智者同行:京东零售技术人的成长书单

京东零售技术

高防IP是如何防护DDoS攻击和CC攻击的

网络安全服务

IP 带宽 高防服务器 高防IP DDoS 攻击

什么是公链?公链项目有哪些?公链项目开发

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

Java 开发玩转 MCP:从 Claude 自动化到 Spring AI Alibaba 生态整合

阿里巴巴云原生

阿里云 云原生 MCP

生成式 AI 引爆广告效率革命,揭秘京东大模型应用架构的实践之道

京东零售技术

业内首次! 全面复现DeepSeek-R1-Zero 数学、代码能力,训练步数仅需R1-Zero 1/10

快手技术

LLM

Markdown 所见即所得(WYSIWYG)编辑器的研究

yuanyxh

前端 Typora Markdown 编辑器

企业为什么要用私有化的视频会议软件?BeeWorks Meet支持私有化

BeeWorks

即时通讯 IM 私有化部署 企业级应用

意图框架事件推荐方案,精准匹配用户需求

HarmonyOS SDK

harmoyos

代币经济学赋能社区自运营:构建Web3时代的永动飞轮

区块链软件开发推广运营

dapp 交易所开发 链游开发 公链开发 代币开发

通过阿里云Milvus与通义千问VL大模型,快速实现多模态搜索

阿里云大数据AI技术

大数据 阿里云 向量检索 多模态 Milvus

《重塑AI应用架构》系列: Serverless与MCP融合创新,构建AI应用全新智能中枢

华为云开发者联盟

,华为云 华为开发者空间

打破"沙漏“现象→提高生成式搜索/推荐的上限

京东零售技术

深入研究:Shopee商品详情API接口详解

tbapi

Shopee shopee API shopee商品详情接口

埋点系统技术选型-自研还是开源?

ClkLog

开源 数据分析 埋点 用户行为分析 客户画像

浅析金仓数据库KingbaseES的Query Mapping:无需改代码的 SQL 优化神器

金仓技术

KingBase 金仓数据库

加密叙事危机:当「传说」构建让位于营销狂欢

TechubNews

企业办公即时通讯软件BeeWorks,私有化安全防泄密

BeeWorks

IM 即时通讯IM 私有化部署 企业级应用

吼吼科技:在智能制造领域的合作与创新之路

极客天地

从 “码农” 到 “架构师”:AI 工具如何助力职业跃迁?

飞算JavaAI开发助手

NetScaler 13.1 Build 58.21 发布 - 混合多云应用交付控制器

sysin

NetScaler

新机器学习库TensorFlow Privacy问世:旨在保护敏感数据_AI&大模型_Kent Weare_InfoQ精选文章