写点什么

腾讯安全推出大模型隐私保护脱敏技术

  • 2023-12-05
    北京
  • 本文字数:1085 字

    阅读完需:约 4 分钟

大小:584.76K时长:03:19
腾讯安全推出大模型隐私保护脱敏技术

大模型已经被广泛应用在各类场景,帮助人们进行报告摘要、文本翻译、数据分析、业务风控等各项工作,极大地提升了工作效率,但同时公众对于大模型带来的数据泄露的隐忧也从未停止。

 

近日,腾讯安全玄武实验室披露了一项关于大模型隐私保护的安全脱敏与还原(Hide and Seek, HaS)技术,有望帮助大模型产品使用者从本地终端侧防范隐私数据泄露。

 

HaS 为业内首个支持信息还原的自由文本脱敏技术,通过对用户上传给大模型的 prompt(提示词)进行隐私信息脱敏,并在大模型返回计算结果后进行恢复,该方案兼顾了隐私安全和计算资源消耗:脱敏与还原算法经过 4bit 量化后权重文件仅 500MB,可在手机、 PC 等终端上部署。

 

这是业内首个公开发布的、能被大模型用户部署于终端侧的隐私保护脱敏技术。借助这一技术,用户可以从“源头”免除使用云端大模型带来的数据泄露方面的担忧。

 

据悉,这个模型主要适用于典型的 NLP 任务场景,例如机器翻译、文本摘要,文本润色、阅读理解、文本分类、情感分析等,其主要的技术难点在于如何解决实体识别与替换、实体指代消解、多义词识别、自纠错鲁棒性还原、实体翻译等。此前,不少大模型提供方以及专业安全厂商均在积极进行相关的尝试,但目前尚未有理想的解决方案。

 

“在大模型应用中提示词是一种自由文本,而针对自由文本的隐私保护问题,一种全密态的解决方案是通过安全多方计算(Multi-Party Computation, MPC)协议实现安全推理。然而,MPC 协议在计算成本和通信量上的高需求严重限制了其在大模型应用中的落地。”腾讯安全玄武实验室高级安全工程师陈昱表示,“实际上,多数场景下用户并不需要保护整句的信息不泄漏,而仅需要保护其中的隐私实体不泄漏。”玄武实验室经过正则匹配、近义词向量、BERT NER+CR 等方法的不断探索试错后,最终提出了这项技术。

 

实验表明,HaS 的数据脱敏处理并不会对任务造成影响。在使用模型进行隐私保护与直接调用大模型相比“分类任务”与“翻译任务”两个场景的性能对比,在使用 560M 生成式方案下,文本分类任务的性能不仅没有下降,反而增加了 0.14%;在 1.7B 标签式方案下,机器翻译任务性能仅下降了 0.85%。

 

腾讯安全玄武实验室将上述研究发现以论文形式发布,更多技术细节可参考玄武官方博客(https://xlab.tencent.com/cn/2023/12/05/hide_and_seek/)。

 

“一些企业或者个人用户开发者通过部署本地大模型来规避隐私数据泄露,但这要求一定的技术门槛,对于重度隐私需求的用户来说,通过本地安全模型/算法来实现数据保护,可能是更可行的办法。”玄武实验室正在逐步丰富这一模型的应用覆盖面,并完善其部署和交付方式,以供企业用户和个人用户在未来能够便捷使用。

 

2023-12-05 18:496826

评论

发布
暂无评论
发现更多内容

【面试必问】Spring中的事务管理详解

只喝纯牛奶

JVM参数手册

Rayjun

JVM GC

什么是算法的大O表示法

码农神说

算法 时间复杂度 Java算法 大O

微碳系:我心中的宇宙

Geek_116789

Dockerfile你值得拥有

北漂码农有话说

Docker

LeetCode题解:70. 爬楼梯,递归+哈希表,JavaScript,详细注释

Lee Chen

大前端 LeetCode

RRedis系列(八):缓存到底该如何做到高可用?

z小赵

redis 分布式系统 高并发系统设计

别在网上乱找代码了,找了一段代码突然爆了!!!

导导

Java

今天你内卷了吗?

池建强

个人成长 内卷化

搭乘政策红利“快车” 欧科云链助力区块链人才培养

CECBC

Docker 网络

北漂码农有话说

Docker

新生必备清单:不想成为虚度青春的“小透明”,手机应该怎样选?

脑极体

架构师训练营第九周作业

张明森

刘华:事实证明,假敏捷都比瀑布优秀

刘华Kenneth

DevOps 敏捷 软件开发

无意中参加了infoQ的一期活动,获得了所有奖项,哈哈哈。。。

诸葛小猿

InfoQ 奖品

这16道Redis最常见面试问题,你能回答上来几个?

火羊哥

Java

格一格你的情欲念

王进行

金融行业区块链技术应用有了“安全符”

CECBC

nginx配置文件

张明森

最牛逼的Java框架,没有之一

我是苞谷

“PlusToken”跨国网络传销案告破,涉案400亿元!

CECBC

敏捷教练和Scrum Master - 敏捷转型中的两个重要角色的对比

Bob Jiang

Scrum 敏捷教练 ScrumMaster

F5G+X:给5G一个伙伴,给千行百业一个拥抱

脑极体

谈谈敏捷中的那些模式

Bob Jiang

敏捷 敏捷开发 敏捷教练

Scrum Master是否需要懂技术

Bob Jiang

敏捷 敏捷开发 敏捷教练 ScrumMaster

来了来了!Docker安装及运行原理

程序员的时光

Java Docker 微服务

JVM详解之:类的加载链接和初始化

程序那些事

Java JVM GC 加载

稳定匹配:幸福不靠等,脱单要主动

KAMI

生活 算法 方法论

架构师训练营第九周学习总结

张明森

小伙伴想写个 IDEA 插件么?这些 API 了解一下!

程序员小航

IDEA idea插件 教程 API IntelliJ IDEA

30岁的二三事

大唐小生

总结 个人感悟

腾讯安全推出大模型隐私保护脱敏技术_生成式 AI_Tina_InfoQ精选文章