谷歌推出实验性私有模型 VaultGemma：主打差分隐私技术_Google_Sergio De Simone_InfoQ精选文章

10 月 23 - 25 日，QCon 上海站即将召开，9折优惠最后2天了解详情 



 写点什么

登录/注册



大小：527.60K时长：03:00

谷歌推出实验性私有模型 VaultGemma：主打差分隐私技术

VaultGemma 是一款拥有十亿参数、基于 Gemma 2 架构的大语言模型。谷歌从头开始训练该模型时，就采用了差分隐私技术，是为防止模型记住并在后续泄露训练数据内容。虽然该模型目前仍属研究性质，但 VaultGemma 未来有望在医疗、金融、法律等受严格监管的领域找到用武之地。

差分隐私是一种数学技术，其核心目标是：在发布从数据集中提取的统计信息时，确保不会泄露其中任何单个样本的具体信息。这一目标通常是通过向训练数据注入专门校准的噪声来实现——这些噪声能保持数据的整体统计特性，同时让模型难以推断出特定样本的细节。

要让这种方法有效，一个关键前提是：所添加的用于保护隐私的噪声，需要显著超过原始数据本身固有的随机性。这实际上意味着要增加批量的大小，也就是一次性发送给模型进行训练的样本数量，从而才能降低计算的成本。

在大语言模型的场景下，差分隐私能确保：从统计角度看，该模型的输出与另一个模型的输出没有区别；假设另一个模型是在排除了原始数据中任意一个特定样本后的数据集上训练的。这进而意味着，攻击者无法根据模型的输出而确定某个特定样本是否曾被用于训练。

虽然差分隐私提供了严格且可量化的隐私保证，但这并非没有代价。添加的噪声可能会降低模型的准确性，并使得训练过程需要更多的计算资源。事实上，谷歌在研发 VaultGemma 的过程中，主要精力就集中在平衡这二者上，试图为差分隐私模型找到一个“缩放定律”。换句话说，就是在给定的隐私保障和计算预算下，找到能实现最小性能损失的最佳训练配置。

我们利用缩放的定律，确定了两个关键问题：第一，训练一个计算最优的、具备差分隐私的十亿参数 Gemma 2 模型需要多少计算量；第二，如何将这些计算资源在批量大小、训练迭代次数和序列长度之间进行分配，以达到最佳的效果。

此外，谷歌的研究人员还设计了一种新的训练算法，采用泊松采样而非传统的均匀批量采样。这种方法能在达到同等隐私保障水平时，减少需要注入的噪声量。

谷歌将 VaultGemma 与 Gemma 3 1B 和 GPT-2 1.5B 等一些非差分隐私模型进行了性能对比，发现在 HellaSwag、BoolQ、PIQA、SocialIQA、TriviaQA 和 ARC-C/E 等多个测试基准上，VaultGemma 的表现与 GPT-2 相当。这一比较为差分隐私所带来的性能成本提供了一个相对客观的估计。

VaultGemma 的模型权重已在 Hugging Face 和 Kaggle 平台上发布，使用者需要同意谷歌的相关条款。

尽管 VaultGemma 并非业界首款差分隐私大模型，但谷歌研究人员坚持认为，它是迄今为止参数规模最大的一款。更常见的应用案例是，差分隐私技术被用于对大语言模型进行微调，目的是在不暴露用户数据的前提下优化模型。

原文链接：

https://www.infoq.com/news/2025/09/google-differential-privacy-llm/

评论

发布

暂无评论

单日30PB量级！火山引擎ByteHouse云原生的数据导入这么做

字节跳动数据平台

数据库大数据云原生数仓企业号12月PK榜

德语 Alt 代码表

HuggingFists-低代码玩转LLM RAG(2) Query

人工智能低代码数据科学 LLM rag

app开发

mac电脑强大的文件重命名工具A Better Finder Attributes 7注册激活版

胖墩儿不胖y

Mac软件文件重命名工具文件重命名软件批量重命名软件

万界星空科技MES系统中的生产调度流程

万界星空科技

数字化转型工业互联网 mes 云mes 万界星空科技mes

Hudi 在 vivo 湖仓一体的落地实践

vivo互联网技术

数据湖大数据计算与存储效率提升

云数据库RDS MySQL和ClickHouse 同步攻略

MySQL Clickhouse 数据复制数据转换 NineData

跨境电商通讯服务

cts喜友科技

西班牙语 Alt 代码表

群晖（Synology）新建存储池使用 Home 服务

极狐GitLab 镜像仓库使用技巧

DevOps gitlab 镜像 CI/CD 镜像仓库

聊点写作踩坑那点破事儿

6点无痛早起学习的和尚

写作 21 天技术人写作行动营

从 0 到 1 手动搭建 k8s 集群 - 添加 master 节点

云原生扩容 kubenetes

用友发布数据资产入表解决方案加速激发数据要素价值

数据资产入表

Caché/M 数据库上面的那个 é 怎么打

2024年高效远程协同运维工具推荐

IT运维远程协同协同运维

大型语言模型在实体关系提取中的应用探索(二)

知识图谱 ChatGPT LLM 实体抽取 Bard

软件测试/人工智能|Edge浏览器实用插件推荐

霍格沃兹测试开发学社

软件测试/人工智能|解决Selenium中的异常问题：“error sending request for url”

霍格沃兹测试开发学社

37 | 贪心算法：如何用贪心算法实现Huffman压缩编码

C/C++内存操作 | AI工程化部署

c AI AI工程化部署

万界星空科技电子电器装配行业MES解决方案

万界星空科技

mes 万界星空科技mes 电子mes 电子工厂电子电器制造业

无需专有硬件 XSKY星辰天合 XDcache 大幅提升文件写性能

XSKY星辰天合

数据中台的业务价值和技术价值