亮网络解锁器,解锁网络数据的无限可能 了解详情
写点什么

以大模型“对抗”大模型,2023WAIC 专家热议大模型时代如何保护隐私和安全

  • 2023-07-07
    北京
  • 本文字数:1946 字

    阅读完需:约 6 分钟

以大模型“对抗”大模型,2023WAIC 专家热议大模型时代如何保护隐私和安全

凭借大数据、大算力的“大力出奇迹”, AI 大模型带来的“智能涌现”,让人类又一次站在了技术革命的转折点。与之伴生的用户隐私泄漏、数据滥用等问题被敲响了警钟。作为平衡数据使用与隐私安全的关键技术,隐私计算面临新的机遇和挑战。

 

2023 世界人工智能大会( WAIC )“数据要素与隐私计算高峰论坛”上,复旦大学教授、上海市数据科学重点实验室主任肖仰华与中国信通院云大所大数据与区块链部副主任闫树展开高端对话,深入研讨了大模型时代隐私计算研究发展。


“数据要素与隐私计算高峰论坛”对话大模型时代的隐私计算


两位专家共同认为,总体上大模型是先进生产力,不能因为隐私等的顾虑放弃对大模型的应用。某种程度上,大模型是一种不确定市场,要正面正视隐私等问题,积极应用大模型。

 

但大模型的破坏性已经显化,要兼顾安全,不能盲目发展。要建立大模型安全底线和合规规范,从数据源头把关,加快大模型语料合规性认证等。非常重要的一点是,要用大模型“对抗”大模型,如利用大模型对生成内容的评估,用大模型自身的能力来保护我们的隐私。要用隐私计算的随机性、匿名化等方法,优化大模型数据分层,同时提升隐私计算本身的性能。


“隐私安全是老问题,但是在大模型时代变得特别突出”


“对于 AI 的发展来说,今年可能是比较特殊的一年。各类大模型‘智能涌现’,再一次诠释了数据的重要价值。然而 AI 大模型是把双刃剑,带来了突出的隐私和安全问题,隐私计算作为保护数据安全的技术可以做什么?”闫树强调了加速隐私计算研究的必要性。

 

肖仰华认为,大模型对隐私保护问题带来了前所未有的挑战,主要表现在侵权识别和保护两个层面,比如隐私泄露、版权侵犯。首先,大模型是一个大规模参数化的模型,训练数据来源多样,隐私保护非常困难。其次,生成式大模型往往是一种概率化的生产,是一种海量拼接式的生产,大模型是否侵犯隐私的识别本身很困难。所以传统意义上的隐私侵犯认定,在大模型时代往往会失效。另外,从保护角度来说更困难。大模型是基于深度神经网络的架构,本质上是黑盒模式。它的不同的参数到底习得了什么样的知识或能力我们无从得知。“问题是老问题,但是在大模型时代这些问题变得特别突出”。


解决使用大模型时的隐私安全问题,隐私计算技术已有探索


不止训练大模型带来隐私安全问题,大模型使用的安全问题也是当前的重点。隐私计算如何保证大模型使用的隐私安全?当前业界已经有了一些探索。

 

闫树介绍,现在隐私计算各种各样的路线,包括可信执行环境 TEE 、多方安全计算 MPC 等都有与大模型结合的探索,比如在云端部署 TEE ,用户在推理时将输入数据加密传输至云端,在其内部解密然后进行推理;还有在模型推理阶段使用多方安全计算来提升隐私保护能力,但不可避免地会对模型训练和推理的性能造成影响。

 

肖仰华认为,一是要建立系统性防范体系。从用户角度讲,要建立大模型隐私安全意识,充分意识到使用过中数据有可能被服务方收集;从提供服务的厂商来看,要提升服务的规范性,在用户完全授权的情况下收集用户相关的使用数据,不能超出用户授权范畴。二是从技术本身做创新,比如通过设置网络中间层,在中间层来自很多用户的查询或者使用可以混淆打乱,这时平台方就无法知道哪个用户在查哪个数据。所以传统的随机化匿名化,在大模型时代仍然还是有一定的适用性。

 

大模型时代隐私计算研究的机遇与挑战

 

大模型一定程度上也会改变隐私计算技术的发展和研究,那么该如何更好地适用与大模型?

 

闫树认为,首先可以重点关注隐私计算的可用性研究。就是目前来讲,隐私计算用于大部分训练时,性能是主要问题。另外合规性的探讨也是需要各界携手来,加强技术和法律领域的联合研究,共同探讨隐私计算技术的应用场景和效果,明确隐私计算技术的合规性。

 

肖仰华认为,大模型时代隐私计算迎来全新机遇。传统的隐私计算如差分隐私、联邦学习多是算法层开展工作。但算法工作前提是保护对象是明确的,协作机制清晰。但大模型时代是海量参数化的模型,不透明、无边界、不可解释,对于以前的基于可解释、清晰、可控的技术路线的隐私计算方法提供了全新挑战。包括上升到技术架构层面,大模型的隐私保护,要分层分级保护数据,大模型做基本的智能能力,要保护的数据还是在传统的加密数据库,二者如何协同,这个是从架构层面要研究的。

 

行业已有很多动作助力隐私计算未来更复杂更高要求的应用。在本次论坛上蚂蚁就开源了自研隐语技术栈中的隐语框架 1.0 版,和国产金融安全级 TEE 方案“ HyperEnclave ”,将为行业提供易用通用的技术方案。


2023WAIC,业内首个金融安全级国产 TEE 方案 HyperEnclave 正式开源


由蚂蚁牵头的行业首个“可信执行环境安全”国际标准 IEEE2952-2023 在论坛上正式发布,制定了基于 TEE 技术的安全计算系统的技术框架,为将为业界提供有效指导。

2023-07-07 16:588141
用户头像
鲁冬雪 InfoQ 策划主编

发布了 340 篇内容, 共 200.6 次阅读, 收获喜欢 274 次。

关注

评论

发布
暂无评论
发现更多内容

如何高效交付专有云?百度智能云有妙招

百度开发者中心

【网络安全】Agent内存马的自动分析与查杀

H

网络安全 WEB安全

建木持续集成平台v2.2.3发布

Jianmu

DevOps CI/CD 开源项目

Hoo 交易所虎符研究院 ∣ 如何对NFT进行估值

区块链前沿News

NFT 虎符 Hoo 虎符交易所 虎符研究院

这么写简历,offer拿到手软,从业5年的软件测试工程师手把手教你写出满分简历

程序员暴龙

软件测试 简历优化 简历 就业 软件测试工程师

异步请求积压可视化|如何 1 分钟内快速定位函数计算积压问题

阿里巴巴云原生

阿里云 Serverless 云原生 函数计算 FC

阿里云资深专家李国强:云原生的一些趋势和新方向

阿里巴巴云原生

阿里云 容器 微服务 云原生 趋势

要做需求管理?看这篇就够了。

石云升

产品经理 需求管理 需求分析 2月月更

系统学习 TypeScript(四)——变量声明的初步学习

编程三昧

typescript 前端 2月月更

关于SaaS的内容营销策略(15/100)

hackstoic

营销 SaaS平台

面试官:linux零拷贝的原理是什么?

CRMEB

【Python】第三章(string)

謓泽

Python 2月月更

| 从DevOps到BizDevOps, 研发效能提升的系统方法

阿里云云效

云计算 阿里云 DevOps 云原生 研发

2022中国化妆品行业发展趋势洞察

易观分析

化妆品行业

微服务用户为什么要用云原生网关

阿里巴巴云原生

阿里云 Kubernetes 微服务 云原生网关

几纳米间风云:手机摄影的制高点争夺战

脑极体

回声嘹亮 之 Go 的 Echo 框架 —— 上手初体验

宇宙之一粟

Go web Go 语言 2月月更

保证业务高效运营 专有云虚拟网络是关键

百度开发者中心

资本热衷的垂直SaaS,如何能大有作为?

ToB行业头条

网络安全kali渗透学习 web渗透入门 Metasploit基本使用方法

学神来啦

视频图像色彩增强的主要方法与落地实践

声网

Dev for Dev 视频技术 色彩增强

全球首个开源车路协同数据集发布,促进学界业界跨界融合

百度开发者中心

网络安全必学渗透测试流程

网络安全学海

黑客 网络安全 信息安全 渗透测试 安全漏洞

OpenHarmony移植:如何适配utils子系统之KV存储部件

华为云开发者联盟

LiteOS OpenHarmony utils KV存储部件

Python代码阅读(第76篇):摄氏温度与华氏温度互转

Felix

Python 编程 阅读代码 Python初学者

存储高性能、传输如闪电,焱融科技携手瑞云科技给你带来不一样的体验

焱融科技

云计算 分布式 云原生 高性能 文件存储

java商城源码(servlet,springboot,html,vue,uniapp,小程序,android)一套任意组合

清风

计算机毕业设计 java商城 java商城源码 商城毕业设计源码

如何防止Arp攻击

喀拉峻

网络安全

MySQL是怎么保证redo log和binlog是完整的?

华为云开发者联盟

MySQL Binlog Redo Log WAL机制 日志逻辑序列号

详解基于机器学习的恶意代码检测技术

华为云开发者联盟

机器学习 深度学习 静态分析 恶意代码 恶意代码检测

安全开采数据“富矿”:隐私计算基建的融合与进击

脑极体

以大模型“对抗”大模型,2023WAIC 专家热议大模型时代如何保护隐私和安全_阿里巴巴_鲁冬雪_InfoQ精选文章