写点什么

腾讯安全推出大模型隐私保护脱敏技术

  • 2023-12-05
    北京
  • 本文字数:1085 字

    阅读完需:约 4 分钟

大小:584.76K时长:03:19
腾讯安全推出大模型隐私保护脱敏技术

大模型已经被广泛应用在各类场景,帮助人们进行报告摘要、文本翻译、数据分析、业务风控等各项工作,极大地提升了工作效率,但同时公众对于大模型带来的数据泄露的隐忧也从未停止。

 

近日,腾讯安全玄武实验室披露了一项关于大模型隐私保护的安全脱敏与还原(Hide and Seek, HaS)技术,有望帮助大模型产品使用者从本地终端侧防范隐私数据泄露。

 

HaS 为业内首个支持信息还原的自由文本脱敏技术,通过对用户上传给大模型的 prompt(提示词)进行隐私信息脱敏,并在大模型返回计算结果后进行恢复,该方案兼顾了隐私安全和计算资源消耗:脱敏与还原算法经过 4bit 量化后权重文件仅 500MB,可在手机、 PC 等终端上部署。

 

这是业内首个公开发布的、能被大模型用户部署于终端侧的隐私保护脱敏技术。借助这一技术,用户可以从“源头”免除使用云端大模型带来的数据泄露方面的担忧。

 

据悉,这个模型主要适用于典型的 NLP 任务场景,例如机器翻译、文本摘要,文本润色、阅读理解、文本分类、情感分析等,其主要的技术难点在于如何解决实体识别与替换、实体指代消解、多义词识别、自纠错鲁棒性还原、实体翻译等。此前,不少大模型提供方以及专业安全厂商均在积极进行相关的尝试,但目前尚未有理想的解决方案。

 

“在大模型应用中提示词是一种自由文本,而针对自由文本的隐私保护问题,一种全密态的解决方案是通过安全多方计算(Multi-Party Computation, MPC)协议实现安全推理。然而,MPC 协议在计算成本和通信量上的高需求严重限制了其在大模型应用中的落地。”腾讯安全玄武实验室高级安全工程师陈昱表示,“实际上,多数场景下用户并不需要保护整句的信息不泄漏,而仅需要保护其中的隐私实体不泄漏。”玄武实验室经过正则匹配、近义词向量、BERT NER+CR 等方法的不断探索试错后,最终提出了这项技术。

 

实验表明,HaS 的数据脱敏处理并不会对任务造成影响。在使用模型进行隐私保护与直接调用大模型相比“分类任务”与“翻译任务”两个场景的性能对比,在使用 560M 生成式方案下,文本分类任务的性能不仅没有下降,反而增加了 0.14%;在 1.7B 标签式方案下,机器翻译任务性能仅下降了 0.85%。

 

腾讯安全玄武实验室将上述研究发现以论文形式发布,更多技术细节可参考玄武官方博客(https://xlab.tencent.com/cn/2023/12/05/hide_and_seek/)。

 

“一些企业或者个人用户开发者通过部署本地大模型来规避隐私数据泄露,但这要求一定的技术门槛,对于重度隐私需求的用户来说,通过本地安全模型/算法来实现数据保护,可能是更可行的办法。”玄武实验室正在逐步丰富这一模型的应用覆盖面,并完善其部署和交付方式,以供企业用户和个人用户在未来能够便捷使用。

 

2023-12-05 18:496355

评论

发布
暂无评论
发现更多内容

@Entity 里面的 JPA 注解

Damon

7月月更

深入浅出边缘云 | 1. 概述

俞凡

架构 边缘计算 网络 深入浅出边缘云

基于 Web SDK 实现视频通话场景 | 声网 SDK 教程

声网

视频 SDK 教程

查策,查策,python字体反爬再一次实践

梦想橡皮擦

Python 爬虫 7月月更

参与开源社区还有证书拿?

玩转Devop和研发效能DevStream/DevLake

GitHub 开源 开发者 证书

界面设计四大原则

空城机

设计模式 7月月更

OSI模型第一层:物理层,基石般的存在!

wljslmz

物理层 网络技术 OSI模型 7月月更

Docker安装Elasticsearch、ik分词器、可视化工具

宁在春

Docker Elastic Stack 7月月更

mysql进阶(十九)SQL语句如何精准查找某一时间段的数据

No Silver Bullet

MySQL 7月月更 精确查找

springMvc参数获取

沃德

Java 7月月更

图的存储结构与方法(二)

乔乔

7月月更

做一个有职业操守的软件匠人

Bruce Talk

技术 敏捷 TDD Agile

接口测试

Xd

接口测试工具

IntelliJ IDEA使用

GalaxyCreater

Java IDEA

MySQL数据库索引

技术小生

索引 7月月更

李宏毅《机器学习》丨7. Conclusion(总结)

AXYZdong

7月月更

作为一名后台开发人员,你必须知道的两种过滤器

C++后台开发

后台开发 后端开发 Linux服务器开发 C/C++后台开发 C/C++开发

类的基础

GalaxyCreater

多线程&高并发(全网最新:面试题+导图+笔记)面试手稳心不慌

冉然学Java

Java 编程 多线程并发 高并发系统 资料分享

一时跳槽一时爽,一直跳槽一直爽?

KEY.L

7月月更

Vue Router 守卫

程序员海军

Vue 7月月更

节流和防抖的说明和实现

南极一块修炼千年的大冰块

7月月更

Java开发环境配置 / Vscode搭建

攻城狮杰森

Java jdk 7月月更

阿里onedate分层思想

奔向架构师

数据中台 7月月更

7大专题详解SpringBoot,阿里这套SpringBoot全栈笔记真香

Java永远的神

Java 程序员 面试 程序人生 springboot

自动驾驶产品化竞备开启:百度Apollo如何定义量产车?

脑极体

全新出品!Github总榜排行第七的SpringCloud生态全栈笔记我粉了

Java全栈架构师

Java 程序员 面试 微服务 SpringCloud

python小知识-代码规范最佳实践

AIWeker

7月月更 pyhon小知识

【Go实现】实践GoF的23种设计模式:观察者模式

元闰子

Go 设计模式 观察者模式 Go 语言

Protocol buffers 的问题和滥用

HoneyMoose

开源分布式链路追踪对比

穿过生命散发芬芳

链路追踪 7月月更

腾讯安全推出大模型隐私保护脱敏技术_生成式 AI_Tina_InfoQ精选文章