阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

苹果研究人员提出集成反演技术,可从不同机器学习模型中重建训练数据

  • 2021-12-07
  • 本文字数:1473 字

    阅读完需:约 5 分钟

苹果研究人员提出集成反演技术,可从不同机器学习模型中重建训练数据

MI 攻击


近几年,模型反演(Model inversion, MI)攻击备受关注。MI 攻击是指滥用经过训练的机器学习(ML)模型,并借此推断模型原始训练数据中的敏感信息。遭受攻击的模型经常会在反演期间被冻结,从而被攻击者用于引导训练生成对抗网络之类的生成器,最终重建模型原始训练数据的分布。


因此,审查 MI 技术对正确建立模型保护机制至关重要。


借助单一模型高质量地重建训练数据的过程非常复杂,然而,现有的 MI 相关文献并没有考虑到多个模型同时被攻击的可能性,这类情况中攻击者可以找到额外的信息和切入点。


如果攻击成功,原始训练样本泄露,而其训练数据中如果包含个人的身份信息,那么数据集中的数据本体的隐私将会受到威胁。

集成反演技术


苹果的研究人员提出了一种集成反演的技术,借助生成器来估计模型原始训练数据的分布,而该生成器则被限制在一系列共享对象或实体的训练模型之中。


对比使用单一机器学习模型的 MI,使用该技术生成的样本质量得到了显著的提升,并具备了区分数据集实体间属性的能力。这证明了如果借助与预期训练结果相类似的辅助数据集,可以在不使用任何数据集的情况下依旧可以得到高质量结果,改善反演的结果。通过深入研究集成中模型多样性对结果的影响,并添加多重限制以激励重建样本获得高精确度和高激活度,训练图片的重建准确程度得到了提升。


对比针对单一模型的 MI 攻击,该研究所提出的模型在重建性能上展现了明显的提升。该研究不仅利用最远模型采样法(FMS)进行集成中模型多样性的优化,还创建了一个模型间等级对应关系明确的反演集成,模型的输出向量中的增强信息也被用来生成更优的限制条件,以更好地确定目标质量的高低。


通过随机训练的形式,小批量随机梯度下降(SGD)这类的主流动态卷积神经网络(DCNN),可以使用任意的大型数据集进行训练。DCNN 模型对训练数据集中最初的随机权重和统计上的噪音非常敏感,而由于学习算法的随机性,同一训练集可能会生成侧重特征不同的模型。因此,为减少差异性,研究者一般会使用集成学习,一种简单的技巧来提升 DCNN 辨别式训练的性能。



虽然这篇论文是以集成学习为基础进行的研究,但论文对“集成”一词却有不同的定义。


若想成功对模型进行反演,攻击者不能假定目标模型一定是通过集成学习进行训练的,但他们却可以通过搜集有关联的模型搭建一个攻击模型的集成。换句话来说,在“集成反演攻击”这个语境下,“集成”不是要求模型一定要经过集成训练,而是指攻击者从各种来源所收集到相关模型的集合。


举例来说,研究者可以通过不断收集新的训练数据,对当前模型进行训练并更新结果,而攻击者则可以将这些模型收集为一个集合并加以利用。


借助该策略,无数据的 MNIST 手写数字的反演准确率提升了 70.9%,而基于辅助数据的试验准确率则提高了 17.9%;对比基准实验,人脸反演的准确率提升了 21.1%。论文的目标是,以更系统的方式对现有模型反演策略进行评估。在未来的研究中,需以针对这类集成的模型反演攻击开发相应的保护机制为重点。

结论


论文中提出的集合反演技术,可以利用机器学习模型集合中的多样性特质提升模型反演的性能表现;通过结合 one-hot 损失和最大化输出激活损失函数,让样本质量得到了更进一层的提升。除此之外,过滤掉攻击模型中含有较小最大化激活的生成样本也可以让反演表现更加突出。同时,为确定目标模型的多样性对集合反演性能的影响,研究者深入探索研究了各种差异下目标模型的表现情况。


论文原文:利用集成反演从各类机器学习模型中重建训练数据


英文原文Apple Researchers Propose A Method For Reconstructing Training Data From Diverse Machine Learning Models By Ensemble Inversion

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-12-07 10:261323

评论

发布
暂无评论
发现更多内容

路由器的后台管理界面的IP地址为什么都是192.168开头?

wljslmz

网络 三周年连更

如何利用 AREX 在本地快速复现线上问题

AREX 中文社区

自动化测试 接口测试 代码复现

2023年免费堡垒机排行榜(仅供参考)

行云管家

安全运维 运维安全 免费堡垒机

SpringBoot集成ElasticSearch

做梦都在改BUG

Java elasticsearch Spring Boot

看华为云Serverless 4大特性如何让软件架构更丝滑

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

去哪儿网企业级监控平台-Watcher

Qunar技术沙龙

去哪儿网 监控平台

软件测试/测试开发丨Pytest 参数化用例

测试人

软件测试 自动化测试 测试开发 pytest

机器人SLAM,三维人工智能的核心技术!

博文视点Broadview

Istio数据面新模式:Ambient Mesh技术解析

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

以最大速度将数据迁移至AWS S3存储

镭速

前端配置化表单组件设计方法 | 京东云技术团队

京东科技开发者

前端 表单设计 配置化 企业号 5 月 PK 榜

深入理解shims-vue.d.ts和declare module

Lee Chen

JavaScript

ShareSDK 钉钉平台注册指南

MobTech袤博科技

细节爆炸!腾讯用13个案例实战讲明白MySQL,没想到这么全

做梦都在改BUG

Java MySQL 数据库

景区共享电动车合作找厂家要注意什么

共享电单车厂家

共享电动车厂家 校园共享电单车 景区共享电动车 共享电动车合作

字节Java程序性能优化宝典开源,原来这才叫性能优化

做梦都在改BUG

Java 性能优化 性能调优

谁说前端已死,低代码没干掉我,chatGPT又如何!| 社区征文

花花

三周年征文

美团架构师熬夜整理:Netty权威指南2.0版+英雄传说项目

做梦都在改BUG

Java Netty

GaussDB(DWS)字符串处理函数返回错误结果集排查

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

IM开发者的零基础通信技术入门(十二):上网卡顿?网络掉线?一文即懂!

JackJiang

网络编程 即时通讯 IM

一文详解如何在 ChengYing 中通过产品线部署一键提升效率

袋鼠云数栈

开源

阿里巴巴最新SpringCloudAlibaba学习笔记,全程通俗易懂,一套搞懂!

采菊东篱下

编程 微服务

数据导向下制造业的生产效率、交易效率提升办法

镭速

SpringBoot 中操作 Redis 及工具类的封装

做梦都在改BUG

Java redis spring Spring Boot

顶象uni-app版设备指纹上线,满足企业多平台服务需求

Geek_2d6073

面向万物智联的应用框架的思考和探索(下)

HarmonyOS开发者

HarmonyOS

分布式场景下,如何对外提供易变的服务,打造可靠的注册中心?

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

完美!华为爆出Redis宝典,原来Redis性能可压榨到极致

做梦都在改BUG

Java 数据库 nosql redis 缓存

惊艳!阿里自爆用480页讲清楚了44种微服务架构设计模式

做梦都在改BUG

Java 架构 微服务 设计模式

【等保一级】等保一级一般适用于哪些信息系统?

行云管家

等保 等级保护 等保一级

揭秘镭速传输点对点传输技术,NAT+Raysync强强组合

镭速

苹果研究人员提出集成反演技术,可从不同机器学习模型中重建训练数据_文化 & 方法_Nitish Kumar_InfoQ精选文章