50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

谷歌推出实验性私有模型 VaultGemma:主打差分隐私技术

  • 2025-09-29
    北京
  • 本文字数:1115 字

    阅读完需:约 4 分钟

大小:527.60K时长:03:00
谷歌推出实验性私有模型 VaultGemma:主打差分隐私技术

VaultGemma 是一款拥有十亿参数、基于 Gemma 2 架构的大语言模型。谷歌从头开始训练该模型时,就采用了差分隐私技术,是为防止模型记住并在后续泄露训练数据内容。虽然该模型目前仍属研究性质,但 VaultGemma 未来有望在医疗、金融、法律等受严格监管的领域找到用武之地。

 

差分隐私是一种数学技术,其核心目标是:在发布从数据集中提取的统计信息时,确保不会泄露其中任何单个样本的具体信息。这一目标通常是通过向训练数据注入专门校准的噪声来实现——这些噪声能保持数据的整体统计特性,同时让模型难以推断出特定样本的细节。

 

要让这种方法有效,一个关键前提是:所添加的用于保护隐私的噪声,需要显著超过原始数据本身固有的随机性。这实际上意味着要增加批量的大小,也就是一次性发送给模型进行训练的样本数量,从而才能降低计算的成本。

 

在大语言模型的场景下,差分隐私能确保:从统计角度看,该模型的输出与另一个模型的输出没有区别;假设另一个模型是在排除了原始数据中任意一个特定样本后的数据集上训练的。这进而意味着,攻击者无法根据模型的输出而确定某个特定样本是否曾被用于训练。

 

虽然差分隐私提供了严格且可量化的隐私保证,但这并非没有代价。添加的噪声可能会降低模型的准确性,并使得训练过程需要更多的计算资源。事实上,谷歌在研发 VaultGemma 的过程中,主要精力就集中在平衡这二者上,试图为差分隐私模型找到一个“缩放定律”。换句话说,就是在给定的隐私保障和计算预算下,找到能实现最小性能损失的最佳训练配置。

我们利用缩放的定律,确定了两个关键问题:第一,训练一个计算最优的、具备差分隐私的十亿参数 Gemma 2 模型需要多少计算量;第二,如何将这些计算资源在批量大小、训练迭代次数和序列长度之间进行分配,以达到最佳的效果。

 

此外,谷歌的研究人员还设计了一种新的训练算法,采用泊松采样而非传统的均匀批量采样。这种方法能在达到同等隐私保障水平时,减少需要注入的噪声量。

 

谷歌将 VaultGemma 与 Gemma 3 1B 和 GPT-2 1.5B 等一些非差分隐私模型进行了性能对比,发现在 HellaSwag、BoolQ、PIQA、SocialIQA、TriviaQA 和 ARC-C/E 等多个测试基准上,VaultGemma 的表现与 GPT-2 相当。这一比较为差分隐私所带来的性能成本提供了一个相对客观的估计。

 

VaultGemma 的模型权重已在 Hugging Face 和 Kaggle 平台上发布,使用者需要同意谷歌的相关条款。

 

尽管 VaultGemma 并非业界首款差分隐私大模型,但谷歌研究人员坚持认为,它是迄今为止参数规模最大的一款。更常见的应用案例是,差分隐私技术被用于对大语言模型进行微调,目的是在不暴露用户数据的前提下优化模型。


原文链接:

https://www.infoq.com/news/2025/09/google-differential-privacy-llm/

2025-09-29 12:003985

评论

发布
暂无评论

梯度下降,原来如此?

蛋先生DX

神经网络 机器学习 深度学习 梯度下降

华为视频鸿蒙原生版三大体验全面升级,重新定义影院级体验

最新动态

最佳实践:通义灵码生成单元测试,让单测更简单

阿里云云效

阿里云 云原生 通义灵码

家政管理系统

深圳亥时科技

IDM下载器使用教程,idm正版破解永久激活码

阿拉灯神丁

IDM idm下载 下载网站工具

电脑录屏杂音太大怎么办 电脑录屏杂音去除办法有哪些 解决录屏电流声等问题技巧与工具推荐

阿拉灯神丁

Camtasia 录屏软件 视频后期制作 Camtasia Studio2024 视频剪辑工具

走出软件作坊,数睿数据打造智能软件工厂,提高软件生产力

财见

2024-10-26:最长公共后缀查询。用go语言,给定两个字符串数组 wordsContainer 和 wordsQuery,要对每个 wordsQuery[i] 找到一个与其有最长公共后缀的字符串

福大大架构师每日一题

福大大架构师每日一题

最佳实践:通义灵码生成单元测试,让单测更简单

阿里巴巴云原生

阿里云 云原生 通义灵码

《使用Gin框架构建分布式应用》阅读笔记:p208-p211

codists

Go golang gin 编程人 codists

商城小程序(源码+文档+部署+讲解)

深圳亥时科技

通义灵码上线一周年:超 600 万下载量,国内用户规模第一,新功能有奖测评

阿里巴巴云原生

阿里云 云原生 通义灵码

通义灵码上线一周年:超 600 万下载量,国内用户规模第一,新功能有奖测评

阿里云云效

阿里云 云原生 通义灵码

阿里云开源 AI 应用开发框架:Spring AI Alibaba

阿里巴巴云原生

阿里云 云原生

Golang Agent 可观测性的全面升级与新特性介绍

阿里巴巴云原生

golang 阿里云 云原生

IBM最新调研:主机如何成为企业级AI的"最佳搭档"?

财见

隧道养护设计系统(源码+文档+部署+讲解)

深圳亥时科技

谷歌推出实验性私有模型 VaultGemma:主打差分隐私技术_Google_Sergio De Simone_InfoQ精选文章