大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

谷歌推出实验性私有模型 VaultGemma:主打差分隐私技术

  • 2025-09-29
    北京
  • 本文字数:1115 字

    阅读完需:约 4 分钟

大小:527.60K时长:03:00
谷歌推出实验性私有模型 VaultGemma:主打差分隐私技术

VaultGemma 是一款拥有十亿参数、基于 Gemma 2 架构的大语言模型。谷歌从头开始训练该模型时,就采用了差分隐私技术,是为防止模型记住并在后续泄露训练数据内容。虽然该模型目前仍属研究性质,但 VaultGemma 未来有望在医疗、金融、法律等受严格监管的领域找到用武之地。

 

差分隐私是一种数学技术,其核心目标是:在发布从数据集中提取的统计信息时,确保不会泄露其中任何单个样本的具体信息。这一目标通常是通过向训练数据注入专门校准的噪声来实现——这些噪声能保持数据的整体统计特性,同时让模型难以推断出特定样本的细节。

 

要让这种方法有效,一个关键前提是:所添加的用于保护隐私的噪声,需要显著超过原始数据本身固有的随机性。这实际上意味着要增加批量的大小,也就是一次性发送给模型进行训练的样本数量,从而才能降低计算的成本。

 

在大语言模型的场景下,差分隐私能确保:从统计角度看,该模型的输出与另一个模型的输出没有区别;假设另一个模型是在排除了原始数据中任意一个特定样本后的数据集上训练的。这进而意味着,攻击者无法根据模型的输出而确定某个特定样本是否曾被用于训练。

 

虽然差分隐私提供了严格且可量化的隐私保证,但这并非没有代价。添加的噪声可能会降低模型的准确性,并使得训练过程需要更多的计算资源。事实上,谷歌在研发 VaultGemma 的过程中,主要精力就集中在平衡这二者上,试图为差分隐私模型找到一个“缩放定律”。换句话说,就是在给定的隐私保障和计算预算下,找到能实现最小性能损失的最佳训练配置。

我们利用缩放的定律,确定了两个关键问题:第一,训练一个计算最优的、具备差分隐私的十亿参数 Gemma 2 模型需要多少计算量;第二,如何将这些计算资源在批量大小、训练迭代次数和序列长度之间进行分配,以达到最佳的效果。

 

此外,谷歌的研究人员还设计了一种新的训练算法,采用泊松采样而非传统的均匀批量采样。这种方法能在达到同等隐私保障水平时,减少需要注入的噪声量。

 

谷歌将 VaultGemma 与 Gemma 3 1B 和 GPT-2 1.5B 等一些非差分隐私模型进行了性能对比,发现在 HellaSwag、BoolQ、PIQA、SocialIQA、TriviaQA 和 ARC-C/E 等多个测试基准上,VaultGemma 的表现与 GPT-2 相当。这一比较为差分隐私所带来的性能成本提供了一个相对客观的估计。

 

VaultGemma 的模型权重已在 Hugging Face 和 Kaggle 平台上发布,使用者需要同意谷歌的相关条款。

 

尽管 VaultGemma 并非业界首款差分隐私大模型,但谷歌研究人员坚持认为,它是迄今为止参数规模最大的一款。更常见的应用案例是,差分隐私技术被用于对大语言模型进行微调,目的是在不暴露用户数据的前提下优化模型。


原文链接:

https://www.infoq.com/news/2025/09/google-differential-privacy-llm/

2025-09-29 12:004001

评论

发布
暂无评论
发现更多内容

轻松实现数据库国产化!通过 NineData 完成到 GaussDB 的数据迁移

NineData

GaussDB 玖章算术 NineData 跨数据库 增量数据同步

DNS污染是怎么回事,怎么解决?

防火墙后吃泡面

飞算JavaAI:开辟 AI + 行业趋势的编程新范式

飞算JavaAI开发助手

人工智能丨利用人工智能与自动化实现高效运营推广

测试人

飞算JavaAI:颠覆传统!自动化接口设计,让编程效率飙升!

飞算JavaAI开发助手

飞算JavaAI:让编程小白也能轻松开发爆款应用的秘密武器!

飞算JavaAI开发助手

AI 场景下,函数计算 GPU 实例模型存储最佳实践

阿里巴巴云原生

阿里云 云原生

一键生成毛茸萌宠形象,基于函数计算极速部署 ComfyUI 生图系统

阿里巴巴云原生

阿里云 云原生

C++学习:CRTP 模式是什么

不在线第一只蜗牛

c++

亚马逊将发布新一代 Alexa,引入 Claude;顶尖 AI 科学家许主洪加入阿里,负责多模态基础模型丨RTE 开发者日报

声网

2024年8个强力替代MS Office Project的项目管理工具

易成研发中心

项目管理 项目管理工具

UU 跑腿云原生化,突围同城配送赛道

阿里巴巴云原生

阿里云 云原生

构建统一的指标体系,对企业业务决策和创新价值何在?

Aloudata

数据分析 指标体系 数据指标 指标平台 noetl

荣誉|奇点云获评晶科能源“2024最佳大数据服务商”并受邀演讲

奇点云

荣誉

iPaaS平台是什么?通过IDC报告推荐iPaaS排名靠前厂商!

谷云科技RestCloud

IDC 集成平台 ipaas 数据集成工具

Flow-CLI 全新升级,轻松对接 Sonar 实现代码扫描和红线卡点

阿里巴巴云原生

阿里云 云原生

【连载 15】线程池选择

FunTester

Infosys第二年位列《Gartner魔力象限2024年公共云IT转型服务》领导者

财见

DeepSeek服务器繁忙用不了?8个平替AI工具值得拥有!

职场工具箱

人工智能 AI 效率工具 AIGC DeepSeek

飞算JavaAI:让 AI 为 Java 工程师 “打工”!

飞算JavaAI开发助手

Project版本怎么选?6款高效替代工具推荐

易成研发中心

项目管理 项目软件管理 软件项目管理

IBM 发布 2024 年第四季度业绩报告:软件业务双位数增长,自由现金流超全年预期

财见

AI + 编程时代,飞算JavaAI如何引领行业趋势变革

飞算JavaAI开发助手

AI 短剧遇上函数计算,一键搭建内容创意平台

阿里巴巴云原生

阿里云 云原生

两步构建 AI 总结助手,实现智能文档摘要

阿里巴巴云原生

阿里云 云原生

视频点播业务过载保护方案的测试实践

优测云服务平台

性能测试 压力测试 测试工具

谷歌推出实验性私有模型 VaultGemma:主打差分隐私技术_Google_Sergio De Simone_InfoQ精选文章