NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

以大模型“对抗”大模型,2023WAIC 专家热议大模型时代如何保护隐私和安全

  • 2023-07-07
    北京
  • 本文字数:1946 字

    阅读完需:约 6 分钟

以大模型“对抗”大模型,2023WAIC 专家热议大模型时代如何保护隐私和安全

凭借大数据、大算力的“大力出奇迹”, AI 大模型带来的“智能涌现”,让人类又一次站在了技术革命的转折点。与之伴生的用户隐私泄漏、数据滥用等问题被敲响了警钟。作为平衡数据使用与隐私安全的关键技术,隐私计算面临新的机遇和挑战。

 

2023 世界人工智能大会( WAIC )“数据要素与隐私计算高峰论坛”上,复旦大学教授、上海市数据科学重点实验室主任肖仰华与中国信通院云大所大数据与区块链部副主任闫树展开高端对话,深入研讨了大模型时代隐私计算研究发展。


“数据要素与隐私计算高峰论坛”对话大模型时代的隐私计算


两位专家共同认为,总体上大模型是先进生产力,不能因为隐私等的顾虑放弃对大模型的应用。某种程度上,大模型是一种不确定市场,要正面正视隐私等问题,积极应用大模型。

 

但大模型的破坏性已经显化,要兼顾安全,不能盲目发展。要建立大模型安全底线和合规规范,从数据源头把关,加快大模型语料合规性认证等。非常重要的一点是,要用大模型“对抗”大模型,如利用大模型对生成内容的评估,用大模型自身的能力来保护我们的隐私。要用隐私计算的随机性、匿名化等方法,优化大模型数据分层,同时提升隐私计算本身的性能。


“隐私安全是老问题,但是在大模型时代变得特别突出”


“对于 AI 的发展来说,今年可能是比较特殊的一年。各类大模型‘智能涌现’,再一次诠释了数据的重要价值。然而 AI 大模型是把双刃剑,带来了突出的隐私和安全问题,隐私计算作为保护数据安全的技术可以做什么?”闫树强调了加速隐私计算研究的必要性。

 

肖仰华认为,大模型对隐私保护问题带来了前所未有的挑战,主要表现在侵权识别和保护两个层面,比如隐私泄露、版权侵犯。首先,大模型是一个大规模参数化的模型,训练数据来源多样,隐私保护非常困难。其次,生成式大模型往往是一种概率化的生产,是一种海量拼接式的生产,大模型是否侵犯隐私的识别本身很困难。所以传统意义上的隐私侵犯认定,在大模型时代往往会失效。另外,从保护角度来说更困难。大模型是基于深度神经网络的架构,本质上是黑盒模式。它的不同的参数到底习得了什么样的知识或能力我们无从得知。“问题是老问题,但是在大模型时代这些问题变得特别突出”。


解决使用大模型时的隐私安全问题,隐私计算技术已有探索


不止训练大模型带来隐私安全问题,大模型使用的安全问题也是当前的重点。隐私计算如何保证大模型使用的隐私安全?当前业界已经有了一些探索。

 

闫树介绍,现在隐私计算各种各样的路线,包括可信执行环境 TEE 、多方安全计算 MPC 等都有与大模型结合的探索,比如在云端部署 TEE ,用户在推理时将输入数据加密传输至云端,在其内部解密然后进行推理;还有在模型推理阶段使用多方安全计算来提升隐私保护能力,但不可避免地会对模型训练和推理的性能造成影响。

 

肖仰华认为,一是要建立系统性防范体系。从用户角度讲,要建立大模型隐私安全意识,充分意识到使用过中数据有可能被服务方收集;从提供服务的厂商来看,要提升服务的规范性,在用户完全授权的情况下收集用户相关的使用数据,不能超出用户授权范畴。二是从技术本身做创新,比如通过设置网络中间层,在中间层来自很多用户的查询或者使用可以混淆打乱,这时平台方就无法知道哪个用户在查哪个数据。所以传统的随机化匿名化,在大模型时代仍然还是有一定的适用性。

 

大模型时代隐私计算研究的机遇与挑战

 

大模型一定程度上也会改变隐私计算技术的发展和研究,那么该如何更好地适用与大模型?

 

闫树认为,首先可以重点关注隐私计算的可用性研究。就是目前来讲,隐私计算用于大部分训练时,性能是主要问题。另外合规性的探讨也是需要各界携手来,加强技术和法律领域的联合研究,共同探讨隐私计算技术的应用场景和效果,明确隐私计算技术的合规性。

 

肖仰华认为,大模型时代隐私计算迎来全新机遇。传统的隐私计算如差分隐私、联邦学习多是算法层开展工作。但算法工作前提是保护对象是明确的,协作机制清晰。但大模型时代是海量参数化的模型,不透明、无边界、不可解释,对于以前的基于可解释、清晰、可控的技术路线的隐私计算方法提供了全新挑战。包括上升到技术架构层面,大模型的隐私保护,要分层分级保护数据,大模型做基本的智能能力,要保护的数据还是在传统的加密数据库,二者如何协同,这个是从架构层面要研究的。

 

行业已有很多动作助力隐私计算未来更复杂更高要求的应用。在本次论坛上蚂蚁就开源了自研隐语技术栈中的隐语框架 1.0 版,和国产金融安全级 TEE 方案“ HyperEnclave ”,将为行业提供易用通用的技术方案。


2023WAIC,业内首个金融安全级国产 TEE 方案 HyperEnclave 正式开源


由蚂蚁牵头的行业首个“可信执行环境安全”国际标准 IEEE2952-2023 在论坛上正式发布,制定了基于 TEE 技术的安全计算系统的技术框架,为将为业界提供有效指导。

2023-07-07 16:588012
用户头像
鲁冬雪 InfoQ 策划主编

发布了 338 篇内容, 共 197.0 次阅读, 收获喜欢 270 次。

关注

评论

发布
暂无评论
发现更多内容

从零开始配置Jenkins与GitLab集成:一步步实现持续集成

百度搜索:蓝易云

云计算 Linux gitlab 运维 jenkins

为了跳槽或提升自己,你会先学习哪一门编程语言?

小齐写代码

移动App开发常见的三种模式(原生应用、H5移动应用、混合模式应用)

天津汇柏科技有限公司

软件开发 APP开发 软件定制开发

简单了解不同行业下4a的定义

行云管家

网络安全

大模型训练中的Prompt Learning

百度开发者中心

人工智能 自然语言处理 大模型

探索大模型提示词

百度开发者中心

人工智能 自然语言处理 图像识别 大模型

科技越发展普通人会越限制还是越free?

算法的秘密

Amazon SageMaker 机器学习之旅的助推器

亚马逊云科技 (Amazon Web Services)

CCE集群VPC网络模式下几种访问场景

华为云开发者联盟

后端 开发 华为云 华为云开发者联盟

南开大学OpenHarmony技术俱乐部揭牌成立

科技热闻

再聊对架构决策记录的一些思考

京东科技开发者

MySQL 8.0.26版本升级32版本查询数据为空的跟踪

GreatSQL

当AI“复刻术”照进现实我们离“数字永生”还有多远?

青否数字人

HarmonyOS-安装篇(DevEco Studio)

京东科技开发者

游戏行业需要堡垒机吗?用哪款堡垒机好?

行云管家

网络安全 游戏 数据安全 堡垒机

基于 Sass 的架构之 redis多租户

智慧源点

PostgreSQL数据库连接数设置的越大越好吗

张文平

数据库 postgresql 连接数 数据库配置

借助 Terraform 功能协调部署 CI/CD 流水线-Part 2

SEAL安全

运维 云原生 CI/CD Terraform

开源无代码 / 低代码平台 NocoBase 0.20:支持多数据源

NocoBase

开源 低代码 低代码开发 低代码平台 无代码平台

京东API赋能电商生态,商品详情随时掌握

技术冰糖葫芦

API 接口 API 文档 API 策略

电动车窗开关中MOS管的应用解析

智趣匠

汽车电子 芯片技术 MOS管

掌握提示词工程与大模型多场景实战

百度开发者中心

人工智能 自动驾驶 大模型 Prompt

组团上车游百度,爱采购财富游学团助推中小企业开年抢跑!

科技热闻

实时工业控制系统的创新整合:PLC4X与CnosDB的高效数据采集与存储

CnosDB

开源 时序数据库 tsdb CnosDB

目前人工智能的发展,未来对人类的就业有那些影响?

算法的秘密

GaussDB(DWS)集群通信:详解pooler连接池

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 华为云GaussDB(DWS)

虚拟人直播狂潮来袭看点在哪?

青否数字人

数字人

利用1688商品详情API:打造高效的电商解决方案

技术冰糖葫芦

API Explorer API 接口 API 策略 pinduoduo API

跨境电商三大趋势

api开发

华为云亮相LEAP科技展,携手沙特共创智能新高度

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟

震惊:苹果手机电池栏“黑白无常”

京东科技开发者

以大模型“对抗”大模型,2023WAIC 专家热议大模型时代如何保护隐私和安全_阿里巴巴_鲁冬雪_InfoQ精选文章