“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

苹果研究人员提出集成反演技术,可从不同机器学习模型中重建训练数据

  • 2021-12-07
  • 本文字数:1473 字

    阅读完需:约 5 分钟

苹果研究人员提出集成反演技术,可从不同机器学习模型中重建训练数据

MI 攻击


近几年,模型反演(Model inversion, MI)攻击备受关注。MI 攻击是指滥用经过训练的机器学习(ML)模型,并借此推断模型原始训练数据中的敏感信息。遭受攻击的模型经常会在反演期间被冻结,从而被攻击者用于引导训练生成对抗网络之类的生成器,最终重建模型原始训练数据的分布。


因此,审查 MI 技术对正确建立模型保护机制至关重要。


借助单一模型高质量地重建训练数据的过程非常复杂,然而,现有的 MI 相关文献并没有考虑到多个模型同时被攻击的可能性,这类情况中攻击者可以找到额外的信息和切入点。


如果攻击成功,原始训练样本泄露,而其训练数据中如果包含个人的身份信息,那么数据集中的数据本体的隐私将会受到威胁。

集成反演技术


苹果的研究人员提出了一种集成反演的技术,借助生成器来估计模型原始训练数据的分布,而该生成器则被限制在一系列共享对象或实体的训练模型之中。


对比使用单一机器学习模型的 MI,使用该技术生成的样本质量得到了显著的提升,并具备了区分数据集实体间属性的能力。这证明了如果借助与预期训练结果相类似的辅助数据集,可以在不使用任何数据集的情况下依旧可以得到高质量结果,改善反演的结果。通过深入研究集成中模型多样性对结果的影响,并添加多重限制以激励重建样本获得高精确度和高激活度,训练图片的重建准确程度得到了提升。


对比针对单一模型的 MI 攻击,该研究所提出的模型在重建性能上展现了明显的提升。该研究不仅利用最远模型采样法(FMS)进行集成中模型多样性的优化,还创建了一个模型间等级对应关系明确的反演集成,模型的输出向量中的增强信息也被用来生成更优的限制条件,以更好地确定目标质量的高低。


通过随机训练的形式,小批量随机梯度下降(SGD)这类的主流动态卷积神经网络(DCNN),可以使用任意的大型数据集进行训练。DCNN 模型对训练数据集中最初的随机权重和统计上的噪音非常敏感,而由于学习算法的随机性,同一训练集可能会生成侧重特征不同的模型。因此,为减少差异性,研究者一般会使用集成学习,一种简单的技巧来提升 DCNN 辨别式训练的性能。



虽然这篇论文是以集成学习为基础进行的研究,但论文对“集成”一词却有不同的定义。


若想成功对模型进行反演,攻击者不能假定目标模型一定是通过集成学习进行训练的,但他们却可以通过搜集有关联的模型搭建一个攻击模型的集成。换句话来说,在“集成反演攻击”这个语境下,“集成”不是要求模型一定要经过集成训练,而是指攻击者从各种来源所收集到相关模型的集合。


举例来说,研究者可以通过不断收集新的训练数据,对当前模型进行训练并更新结果,而攻击者则可以将这些模型收集为一个集合并加以利用。


借助该策略,无数据的 MNIST 手写数字的反演准确率提升了 70.9%,而基于辅助数据的试验准确率则提高了 17.9%;对比基准实验,人脸反演的准确率提升了 21.1%。论文的目标是,以更系统的方式对现有模型反演策略进行评估。在未来的研究中,需以针对这类集成的模型反演攻击开发相应的保护机制为重点。

结论


论文中提出的集合反演技术,可以利用机器学习模型集合中的多样性特质提升模型反演的性能表现;通过结合 one-hot 损失和最大化输出激活损失函数,让样本质量得到了更进一层的提升。除此之外,过滤掉攻击模型中含有较小最大化激活的生成样本也可以让反演表现更加突出。同时,为确定目标模型的多样性对集合反演性能的影响,研究者深入探索研究了各种差异下目标模型的表现情况。


论文原文:利用集成反演从各类机器学习模型中重建训练数据


英文原文Apple Researchers Propose A Method For Reconstructing Training Data From Diverse Machine Learning Models By Ensemble Inversion

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-12-07 10:261304

评论

发布
暂无评论
发现更多内容

房产|1月全国70城房价出炉!疫情放开后你关心的城市房价有何变化

前嗅大数据

大数据 数据分析 房产

渲染农场优势是什么_云渲染农场怎么用?

Renderbus瑞云渲染农场

云渲染 云渲染农场 Renderbus云渲染农场

参加java培训学习怎么样

小谷哥

Web前端开发最好用的几个WebGL框架

2D3D前端可视化开发

JavaScript 前端开发 WebGL webgl框架

避坑指南|监控宝网站监控的常见问题及解决方法

云智慧AIOps社区

监控 告警 监控宝 监控告警 监控指标

一款好的低代码开发平台应该是什么样?

YonBuilder低代码开发平台

IDC发布《2022中国大模型发展白皮书》,文心大模型能力全面领先

飞桨PaddlePaddle

大模型 文心

接口调试时如何请求一个需要登录才能访问的接口

代码没有BUG

接口调试 API测试 apipost

UI 自动化中的分层设计

霍格沃兹测试开发学社

Python获取磁盘、文件夹大小信息(一)

Python 文件夹数据获取

实力见“证”:Tapdata 技术创新与发展潜力广受认可

tapdata

测试开发之路--UI 自动化设计军规

霍格沃兹测试开发学社

测试开发之路--UI 自动化常用设计模式

霍格沃兹测试开发学社

Python+Opencv读取高帧率USB摄像头问题

Python 数据读取 摄像头

零基础学习前端培训需要多久

小谷哥

大数据培训需要注意哪些方面

小谷哥

软件测试 | 参数化测试用例的使用

测吧(北京)科技有限公司

测试

Tapdata Connector 实用指南:数据入仓场景之数据实时同步到 BigQuery

tapdata

项目管理软件 Worktile 和 Teambitiom 哪个更好?优劣势对比

PingCode

Worktile 项目管理软件 Teambitiom

热点面试题: 常用位运算方法

控心つcrazy

JavaScript 前端面试题 #热点问题 前端javascript

【Unity 3D游戏开发】在Unity使用NoSQL数据库方法介绍

3DCAT实时渲染

Unity Unity3D 游戏开发引擎

测试开发之路--UI 自动化常用设计模式 (二)

霍格沃兹测试开发学社

Python获取磁盘、文件夹大小信息(附邮件发送)(二)

Python 文件夹数据获取

使用大恒USB工业相机PythonSDK进行逐帧率图片采集

Python 数据采集 摄像头 大恒SDK

关于工具软件:Apipost和Apifox哪个更好用看这篇就够了

代码没有BUG

Apifox 接口调试 API测试 apipost

虚幻引擎UE4如何实现打包后播放片头?其实超简单!

3DCAT实时渲染

虚幻引擎 ue

软件测试 | 属性获取与断言

测吧(北京)科技有限公司

测试

软件测试 | Capability使用进阶

测吧(北京)科技有限公司

测试

Migrate your data into databend with DataX

Databend

分享7个刺激的老司机网站,别轻易点开

引迈信息

程序员 面试 前端 摸鱼

多云和混合云场景下的 API 管理:挑战与选择

API7.ai 技术团队

api 网关 APISIX

苹果研究人员提出集成反演技术,可从不同机器学习模型中重建训练数据_文化 & 方法_Nitish Kumar_InfoQ精选文章