写点什么

腾讯安全推出大模型隐私保护脱敏技术

  • 2023-12-05
    北京
  • 本文字数:1085 字

    阅读完需:约 4 分钟

大小:584.76K时长:03:19
腾讯安全推出大模型隐私保护脱敏技术

大模型已经被广泛应用在各类场景,帮助人们进行报告摘要、文本翻译、数据分析、业务风控等各项工作,极大地提升了工作效率,但同时公众对于大模型带来的数据泄露的隐忧也从未停止。

 

近日,腾讯安全玄武实验室披露了一项关于大模型隐私保护的安全脱敏与还原(Hide and Seek, HaS)技术,有望帮助大模型产品使用者从本地终端侧防范隐私数据泄露。

 

HaS 为业内首个支持信息还原的自由文本脱敏技术,通过对用户上传给大模型的 prompt(提示词)进行隐私信息脱敏,并在大模型返回计算结果后进行恢复,该方案兼顾了隐私安全和计算资源消耗:脱敏与还原算法经过 4bit 量化后权重文件仅 500MB,可在手机、 PC 等终端上部署。

 

这是业内首个公开发布的、能被大模型用户部署于终端侧的隐私保护脱敏技术。借助这一技术,用户可以从“源头”免除使用云端大模型带来的数据泄露方面的担忧。

 

据悉,这个模型主要适用于典型的 NLP 任务场景,例如机器翻译、文本摘要,文本润色、阅读理解、文本分类、情感分析等,其主要的技术难点在于如何解决实体识别与替换、实体指代消解、多义词识别、自纠错鲁棒性还原、实体翻译等。此前,不少大模型提供方以及专业安全厂商均在积极进行相关的尝试,但目前尚未有理想的解决方案。

 

“在大模型应用中提示词是一种自由文本,而针对自由文本的隐私保护问题,一种全密态的解决方案是通过安全多方计算(Multi-Party Computation, MPC)协议实现安全推理。然而,MPC 协议在计算成本和通信量上的高需求严重限制了其在大模型应用中的落地。”腾讯安全玄武实验室高级安全工程师陈昱表示,“实际上,多数场景下用户并不需要保护整句的信息不泄漏,而仅需要保护其中的隐私实体不泄漏。”玄武实验室经过正则匹配、近义词向量、BERT NER+CR 等方法的不断探索试错后,最终提出了这项技术。

 

实验表明,HaS 的数据脱敏处理并不会对任务造成影响。在使用模型进行隐私保护与直接调用大模型相比“分类任务”与“翻译任务”两个场景的性能对比,在使用 560M 生成式方案下,文本分类任务的性能不仅没有下降,反而增加了 0.14%;在 1.7B 标签式方案下,机器翻译任务性能仅下降了 0.85%。

 

腾讯安全玄武实验室将上述研究发现以论文形式发布,更多技术细节可参考玄武官方博客(https://xlab.tencent.com/cn/2023/12/05/hide_and_seek/)。

 

“一些企业或者个人用户开发者通过部署本地大模型来规避隐私数据泄露,但这要求一定的技术门槛,对于重度隐私需求的用户来说,通过本地安全模型/算法来实现数据保护,可能是更可行的办法。”玄武实验室正在逐步丰富这一模型的应用覆盖面,并完善其部署和交付方式,以供企业用户和个人用户在未来能够便捷使用。

 

2023-12-05 18:496437

评论

发布
暂无评论
发现更多内容

“智启新机 云驱增长”——2024腾讯全球数字生态大会

ToB行业头条

一文揭秘:火山引擎云基础设施如何支撑大模型应用落地

极客天地

API集成的未来:行业级解决方案的发展趋势

幂简集成

API API集成

聚道云软件连接器8月新增应用合集(3)

聚道云软件连接器

功能更新

Monorepo:让你的项目脱胎换骨,既能代码复用,又能独立部署!

OpenTiny社区

开源 前端 组件库 OpenTiny

使用poetry来更优雅的管理 python 包

我再BUG界嘎嘎乱杀

Python 编程 后端 开发语言 Poetry

Michael Rey谈质押的未来:“节点切片是流动性的关键”

股市老人

2025年中国(成都)国际航空航天及无人机展会

秋硕展览

你敢在大学本科期间创办一家属于自己的公司吗?WTEAM 2024 年度大会,广州,9.10丨伙伴活动推荐

声网

2021全国数字生态创新大赛-智能算法赛季军方案 乘风破浪的炼丹师队

阿里云天池

释放生产力:JNPF低代码开发平台的五大优势

不在线第一只蜗牛

低代码 数字化

赛题解析 | 初赛赛道三:服务网格控制面分治体系构建

阿里云天池

云原生

智扣物联,“论剑”长沙!2024全国大学生物联网竞赛火山引擎赛道获奖名单重磅揭晓

火山引擎边缘云

物联网 边缘计算 AIOT 智能IoT边缘服务 人工智能’

Python进行Socket接口测试的实现

我再BUG界嘎嘎乱杀

Python 编程 后端 socket 接口测试

Manulife IM发布自然资本、TCFD和SRI报告

财见

智能弹性实践:Kubernetes HPA 与观测云的自定义指标集成

观测云

k8s

怎么制作韦恩图?用这款在线白板绘制简单又漂亮!

职场工具箱

效率工具 职场 在线白板 办公软件 绘图工具

AutoGPT理念与应用

霍格沃兹测试开发学社

机器学习算法常用指标总结

阿里云天池

Match与RFG:颠覆传统社交,开启价值社交新时代

股市老人

袋鼠云产品功能更新报告11期|能力AI+,实力拿捏!

袋鼠云数栈

9k star 监控系统,100% 国产,推荐了解

巴辉特

Prometheus Nightingale

豆瓣评分9.4!最适合Python入门后进阶的Python食谱!

我再BUG界嘎嘎乱杀

Python 编程 后端 开发语言

第三期安全AI挑战者计划-文本分类对抗攻击 第十名「你钉起来真好听」技术总结

阿里云天池

如何实现持续、主动、长效的数据治理?主动元数据或是最佳答案

Aloudata

数据治理 元数据 全链路数据血缘 数据血缘 数据链路

活动报名:从手搓 AI bot 到多模态 AI agent+TEN 框架丨 RTE Meetup,上海,8.31

声网

调试理解 NodeJS 模块机制sh

yuanyxh

node.js js Node

人社大赛算法赛题解题思路分享+第五名

阿里云天池

#大数据

2024第35届中国(广州)国际大健康产业博览会

秋硕展览

腾讯安全推出大模型隐私保护脱敏技术_生成式 AI_Tina_InfoQ精选文章