Microsoft Research 的一支 AI 研究团队提出了两种用于在大语言模型中强化“情境完整性”(contextual integrity)的新方法:一是 PrivacyChecker,一个开源、轻量级的推理阶段模块,可在模型生成回答时充当隐私防护盾;二是 CI-CoT + CI-RL,一种先进的训练方法,旨在教会模型“思考隐私”,理解在不同情境下披露信息的合理性。
情境完整性将隐私定义为:信息流动是否符合特定社会情境中的规范。换言之,在完成某项任务(例如预约医疗服务)时,只披露完成该任务所必需的信息。Microsoft 的研究人员指出,当前的大语言模型普遍缺乏这种情境感知能力,可能在不恰当的情况下泄露敏感信息,从而削弱用户信任。
第一种方法聚焦推理阶段的检查机制,即在模型生成回复时施加保护措施。这些检查构成了一道防护屏障,会在智能体请求生命周期的多个阶段评估信息披露情况。研究团队提供了一个名为 PrivacyChecker 的参考实现,它可以与全局系统提示词及特定工具调用集成,并在调用外部 MCP 工具时充当“闸门”,防止敏感信息被不当共享。
PrivacyChecker 采用了一条相对简单的处理流程:首先,从用户请求中抽取相关信息;随后,根据隐私判断标准对信息进行分类;在必要时,还会向提示词中注入隐私处理指引,确保模型明确如何应对已识别的敏感信息。
PrivacyChecker 与具体模型无关,无需重新训练即可与现有模型配合使用。
在静态基准测试 PrivacyLens 上,PrivacyChecker 将 GPT4o 的信息泄露率从 33.06% 降至 8.32%,将 DeepSeekR1 的泄露率从 36.08% 降至 7.30%,同时仍能保持系统完成既定任务的能力。
Microsoft 研究人员探索的第二种方法,是通过“思维链提示”(chain-of-thought prompting)来增强模型的情境完整性,即 CI-CoT。传统上,思维链技术主要用于提升模型的推理与解题能力,而研究团队对其进行了新的改造:
我们重新利用 CoT,让模型在作答前先评估情境下的信息披露规范。提示词会引导模型识别哪些属性是完成任务所必需的,哪些信息应当被保留而不披露。
尽管 CI-CoT 在 PrivacyLens 基准上有效降低了信息泄露,但它也更容易生成偏保守的回答,偶尔会隐去完成任务所必需的信息。为解决这一问题,Microsoft 的研究人员进一步引入了强化学习阶段 CI-RL:
当模型仅使用符合情境规范的信息完成任务时,会获得奖励;当其披露了在当前情境下不恰当的信息时,则会受到惩罚。通过这种方式,模型不仅学会“如何回答”,还学会判断“哪些信息应当被包含在回答中”。
综合方法 CI-CoT + CI-RL 在降低信息泄露方面与单独使用 CI-CoT 同样有效,同时还能更好地保持原始模型的整体性能。
情境完整性是 Google DeepMind 与 Microsoft 在大语言模型研究中共同推动的一项新概念。该理论最早由 Helen Nissenbaum 提出,其核心观点并非将隐私视为一种绝对的保密权利,而是将其定义为“信息在遵循特定情境规范下的恰当流动”。
原文链接:
https://www.infoq.com/news/2026/01/microsoft-llm-contextual-privacy/





