棒棒糖与螺旋：AI 安全分层架构探索

在 AI 原生开发时代，模型能力快速增长，但系统风险也呈非线性膨胀。如何在释放 AI 生产力的同时保持核心资产安全、控制复杂度，是每个工程团队必须面对的关键问题。本文提出“棒棒糖模型 + 螺旋演化”的分层安全架构，将人的操作、Guard 约束、测试计划与 AI 能力层级有机结合：

棒棒糖模型：核心资产是糖头，人的操作路径是棒身，贯穿系统各层，形成可控连接；AI 能力和外部工具是一层层糖衣，其能力释放受棒身约束。
螺旋演化：随着版本迭代和功能扩展，规则密度、测试覆盖率和异常处理能力沿螺旋递增，实现系统随时间动态可控。

这种设计不仅提供静态安全边界，也兼顾系统长期演化风险，确保 AI 能力在复杂环境中被安全、可验证地释放。本文将详细介绍 L0–L6 分层架构、Guard Layer 模块化、单人模式落地实践，以及动态自愈与监控机制，提供可落地的 AI 安全工程方案参考。

1 引言

在 AI 原生开发时代，模型能力迅速增强，但系统风险呈非线性上升。传统架构往往将 AI 置于系统核心，而忽视以下问题：

核心资产边界
权限收敛机制
运行期行为漂移
成本失控路径

当 Agent 或模型出现异常时，损失可能具有放大性与不可逆性。本方案基于 TPDD（Test Plan Driven Development） 方法论，结合：

能力暴露（Capability Exposure）
禁止空间（Forbidden Zone）
Failure Thinking
Zero Trust 思维

将 AI 系统安全抽象为分层圆 + 动态防御闭环，以在释放 AI 生产力的同时收敛失控风险。

核心原则

空间原则
越靠内层 → 资产价值越高 → 约束必须越强
越靠外层 → 不确定性越大 → 护栏必须越厚
控制权原则
系统核心是数据、权限与控制权
模型属于高风险计算外设，而非信任根
模型视角补充（静态 × 动态）
洋葱模型（Onion Model）：刻画任一时刻的信任边界与权限分层（空间视角）
Nautilus Spiral 模型：刻画系统随时间的复杂度、测试密度与约束增长（时间视角）

二者关系：

横截面安全边界 → 洋葱模型
生命周期演化 → 螺旋模型

该组合可同时解决：

静态安全收敛
动态复杂度膨胀
AI 系统长期演化风险

2 分层同心圆架构（由内向外）

🔴 L0 核心资产层（Core Assets）【最内圈】

目标：绝对保护区（Blast Radius Zero Zone） 典型资产：公司数据库、用户隐私、商业机密、源代码仓库、内部高敏知识库、密钥 / Token / 凭证

约束原则：

❌ 默认 AI 不可直接访问
❌ 默认 Agent 不可持久触达
❌ 严禁长生命周期凭证
✅ 仅允许 JIT（Just-in-Time）短时授权
✅ 全链路审计可追溯

落地措施：

API Gateway + RBAC + ABAC 组合授权
KMS + 短期凭证轮换
行为基线异常检测
访问风险评分（risk scoring）
自动权限回收

🟠 L1 人员操作层（Human Operators）

目标：管理和约束人为操作风险 涉及角色：开发、QA、BA/PM、运维、数据分析、Prompt 编写者

主要风险：

Prompt Injection、误操作、权限滥用
社工攻击、敏感数据误粘贴
长上下文污染

工程化约束：

权限校验 + 全审计
高危操作双人确认
隔离执行环境
输入脱敏与 DLP
Prompt 风险评分
主动攻击演练与异常注入

说明：人的操作从最外层一直贯穿到最内层，就像 棒棒糖模型的棒身。

🟡 L2 测试与约束层（TPDD Guard Layer）⭐ 核心护城河

目标：将系统从“能跑”变为“可控”

Guard 架构：

Entry Guards（入口收敛）
Runtime Guards（运行时持续约束）
Shadow Guards（旁路监控）

模块职责：

Contract Guard：schema 校验、工具调用白名单、权限契约检查 → 防止能力误用
Invariant Guard：系统永真条件（不删除文件、不外发敏感数据、不越权访问） → 异常报警
Test Guard（TPDD 核心）：边界测试、Failure 注入、对抗样本、回归测试、行为快照
Token / Cost Guard：context、steps、tool calls、成本限制 → 超额熔断策略、动态阈值与负载感知

落地措施：

自动化脚本执行 TPDD 测试计划并记录行为快照
异常行为触发内圈熔断、报警和自动回滚
多 Agent 调度系统联动实时限流
红队验证和主动攻击演练

🔵 L3 AI 能力外圈（Agent / Model Layer）

目标：能力释放层，风险最高包含：LLM、Agent、Skills/Tools、RAG、多步规划、自动代码生成

工程认知：

外圈不应被完全信任
假设可能犯错、被注入、产生幻觉、越界尝试、非线性成本

落地措施：

AI 执行必须经过 Guard Layer 审核
每次生成操作附带行为日志和审计记录
异常或超阈值行为自动熔断
动态阈值随负载和业务峰值调整

🟣 L4 代码生成层（AI + 人工生成代码）

职责：统一管理 AI 与人工生成代码

自动化回归测试与静态分析
动态安全测试与代码审核
依赖分析与冲突检测
多 Agent 并行生成调度与隔离
生成代码附带行为快照和版本追踪

⚫ L5 验证层（Verification Mesh）

系统级裁决层，三阶段验证：

生成前（静态风险预判）
生成中（运行监控）
生成后（功能 / 性能 / 安全验证）

职责：

功能安全验证、性能压测、异常检测
红队演练、非线性攻击模拟
发布阻断权归该层

🧠 L6 自愈与韧性层（Resilience & Self-Healing Layer）

目标：维持系统收敛能力

Incident Learning Loop：事故归因、策略回放、Guard 规则调优
Policy Auto-Tuning：动态调整阈值、限流、授权窗口
Self-Healing Flow：会话隔离、权限收缩、Agent 降级、沙盒重启、状态回滚
Guard 健康监控：持续监测漏检率、延迟、旁路风险

3 人的角色：贯穿全局的操作轴（棒棒糖模型）

人在 AI 安全架构中，不仅是使用者，更是安全闭环的中枢轴，贯穿 输入 → 约束 → 执行 → 验证 → 自愈：

L0 核心资产层：临时访问、JIT 授权、审计触发
L1 人员操作层：Prompt 编写、运维操作、敏感数据处理
L2 测试与约束层：执行 Contract / Invariant Guard、TPDD 测试计划
L3 AI 能力外圈：Agent / LLM 调用的审计、行为评分、异常触发
L4 代码生成层：生成代码回顾、版本追踪、多 Agent 隔离
L5 验证层：功能/性能/安全验证、红队演练、异常阻断
L6 自愈与韧性层：异常触发回滚、会话隔离、Agent 降级

可视化比喻：

棒头（Candy Head）：核心资产，保护最严格
棒身（Candy Stick）：人的操作路径，贯穿各层，形成受控连接
糖衣（Candy Coating）：AI 能力和外部工具，能力释放受棒身控制
动态演化（螺旋/TPDD）：沿棒身逐步增加规则密度、测试覆盖率和异常处理能力，实现系统随时间持续安全可控

通过这一设计，人的操作持续校准 Guard、TPDD 测试和异常监控，使 AI 能力在复杂系统中安全释放，同时保持核心资产的高度保护。

4 Nautilus Spiral 演化视角（动态复杂度增强）

同心圆模型刻画任意时刻的静态信任边界与权限层级，明确“当前可以访问什么、不能访问什么”，棒棒糖模型加入了人类可以介入的视角。

AI 系统随版本迭代、功能扩展而成长，代码量、复杂度和行为多样性逐步外扩，仅依赖静态洋葱无法完整描述长期演化风险。

螺旋模型要点：

螺旋对应版本沉积，每圈螺旋代表一次版本迭代
外圈规模更大、复杂度更高，但结构与内圈一致
动态规则与测试密度递增，Guard 规则、Failure 注入、监控指标随版本增长
TPDD 测试计划自动联动，覆盖率提升、异常注入增强

指标化落地：

测试密度（tests / KLOC）随版本递增
Guard 覆盖率逐步细化、自动化执行
行为异常率实时监控、阈值动态调整
Token / Cost 消耗斜率、风险评分动态计算

静态 + 动态结合：

同心圆：回答“当前边界在哪里”
Nautilus Spiral：回答“随时间边界如何膨胀、规则如何增强”

通过结合，两者确保系统长期安全可控。

5 安全执行流推荐路径（受控闭环）

Human / User

↓

L2 Entry Guards（Contract / Invariant / Token / Cost）

↓

Agent / Model (L3)

↕ 多轮受控交互

L2 Runtime Guards（Contract / Invariant / Cost）

↓

Code Generation Layer (L4)

↓

Verification Mesh (L5)

↓

Core Assets (L0, JIT 授权)

↓

L6 Resilience Loop

禁止路径：

User → Agent → DB
Agent → 高权限 Tool（无审计）
AI → 长生命周期凭证

关键工程语义：

Guard 双阶段：Entry + Runtime → 防止“一次放行，全程裸奔”
执行流受控，Agent 持续接受约束与异常监控
Verification 分布三阶段 → 目标尽早失败
Core Assets 默认不可达，临时授权、自动过期、全链路审计

6 OPC / 单人模式小型团队改进方案

核心目标：

单人或小团队环境，实现可控、安全闭环
阻止越界操作、实时监控异常、自动回滚、沙盒隔离、精细化成本/Token 管理

改进措施：

沙盒化执行：完全隔离、会话隔离、JIT Token、自动回滚、状态快照
自动化 Contract / Invariant Guard：契约检查 + Invariant 监控 + 规则自动升级
行为异常评分与阈值触发：异常评分、滑动窗口、自适应阈值
Token / Cost 精细化管理：按操作类型、上下文动态调整、超阈值自动熔断
简化自愈机制：会话隔离、沙盒重启、权限收缩、状态回滚
渐进式开发与定期 Review：每日/每周复盘 TPDD 测试计划、日志和 Guard 效能

核心架构：

Human / User

↓

L2 Entry Guards

↓

Agent / Model 执行层（沙盒 + 异常评分 + Token/Cost 精细化）

↓

L4 Code Generation Layer（自动回滚 + 多 Agent 隔离）

↓

L5 Verification Mesh（静态/动态/功能/性能验证）

↓

Core Assets / L0（JIT 授权 + 全链路审计）

↓

L6 Resilience & Self-Healing

7 整合三者

横截面：洋葱 → 当前边界
人的操作：棒棒糖 → 贯穿层级
纵向演化：螺旋 → 动态复杂度和规则增长
总结三者关系：静态 + 操作 + 动态 → 安全闭环

总结

核心资产永远在内圈，模型能力在外圈受控释放
Guard Layer 模块化、动态化、可反馈，是系统安全核心
单人模式仍可落地，但依赖最小可行安全套件
能力暴露 + 禁止空间 + Failure Thinking 架构落地，为 AI 工程提供可控、可验证、可维护的实践方法
动态量化阈值、负载感知、红队演练是改进后的关键增强点

作者介绍：

臧嘉玮，资深软件验证工程师与技术布道者，AI 探索者，曾贡献 1000+ 条维基百科与百度百科条目。精通自动化测试、开发策略优化及前沿测试技术，致力于将复杂系统验证经验与 AI 应用转化为可复用实战洞察。曾任 IBM 测试顾问、Siemens EDA 核心测试与自动化工程师，同时是 TPDD（Test Plan-Driven Development）方法布道者。

创作场景

棒棒糖与螺旋：AI 安全分层架构探索

1 引言

核心原则

2 分层同心圆架构（由内向外）

🔴 L0 核心资产层（Core Assets）【最内圈】

🟠 L1 人员操作层（Human Operators）

🟡 L2 测试与约束层（TPDD Guard Layer）⭐ 核心护城河

🔵 L3 AI 能力外圈（Agent / Model Layer）

🟣 L4 代码生成层（AI + 人工生成代码）

⚫ L5 验证层（Verification Mesh）

🧠 L6 自愈与韧性层（Resilience & Self-Healing Layer）

3 人的角色：贯穿全局的操作轴（棒棒糖模型）

4 Nautilus Spiral 演化视角（动态复杂度增强）

5 安全执行流推荐路径（受控闭环）

6 OPC / 单人模式小型团队改进方案

7 整合三者

总结

作者介绍：