写点什么

棒棒糖与螺旋:AI 安全分层架构探索

  • 2026-02-26
    北京
  • 本文字数:3972 字

    阅读完需:约 13 分钟

在 AI 原生开发时代,模型能力快速增长,但系统风险也呈非线性膨胀。如何在释放 AI 生产力的同时保持核心资产安全、控制复杂度,是每个工程团队必须面对的关键问题。本文提出“棒棒糖模型 + 螺旋演化”的分层安全架构,将人的操作、Guard 约束、测试计划与 AI 能力层级有机结合:

  • 棒棒糖模型:核心资产是糖头,人的操作路径是棒身,贯穿系统各层,形成可控连接;AI 能力和外部工具是一层层糖衣,其能力释放受棒身约束。

  • 螺旋演化:随着版本迭代和功能扩展,规则密度、测试覆盖率和异常处理能力沿螺旋递增,实现系统随时间动态可控。

这种设计不仅提供静态安全边界,也兼顾系统长期演化风险,确保 AI 能力在复杂环境中被安全、可验证地释放。本文将详细介绍 L0–L6 分层架构、Guard Layer 模块化、单人模式落地实践,以及动态自愈与监控机制,提供可落地的 AI 安全工程方案参考。

1 引言

在 AI 原生开发时代,模型能力迅速增强,但系统风险呈非线性上升。传统架构往往将 AI 置于系统核心,而忽视以下问题:

  • 核心资产边界

  • 权限收敛机制

  • 运行期行为漂移

  • 成本失控路径

当 Agent 或模型出现异常时,损失可能具有放大性与不可逆性。本方案基于 TPDD(Test Plan Driven Development) 方法论,结合:

  • 能力暴露(Capability Exposure)

  • 禁止空间(Forbidden Zone)

  • Failure Thinking

  • Zero Trust 思维

将 AI 系统安全抽象为分层圆 + 动态防御闭环,以在释放 AI 生产力的同时收敛失控风险。

核心原则

  • 空间原则

  • 越靠内层 → 资产价值越高 → 约束必须越强

  • 越靠外层 → 不确定性越大 → 护栏必须越厚

  • 控制权原则

  • 系统核心是数据、权限与控制权

  • 模型属于高风险计算外设,而非信任根

  • 模型视角补充(静态 × 动态)

  • 洋葱模型(Onion Model):刻画任一时刻的信任边界与权限分层(空间视角)

  • Nautilus Spiral 模型:刻画系统随时间的复杂度、测试密度与约束增长(时间视角)

二者关系

  • 横截面安全边界 → 洋葱模型

  • 生命周期演化 → 螺旋模型

该组合可同时解决:

  • 静态安全收敛

  • 动态复杂度膨胀

  • AI 系统长期演化风险

2 分层同心圆架构(由内向外)

🔴 L0 核心资产层(Core Assets)【最内圈】

目标:绝对保护区(Blast Radius Zero Zone) 典型资产:公司数据库、用户隐私、商业机密、源代码仓库、内部高敏知识库、密钥 / Token / 凭证

约束原则

  • ❌ 默认 AI 不可直接访问

  • ❌ 默认 Agent 不可持久触达

  • ❌ 严禁长生命周期凭证

  • ✅ 仅允许 JIT(Just-in-Time)短时授权

  • ✅ 全链路审计可追溯

落地措施

  • API Gateway + RBAC + ABAC 组合授权

  • KMS + 短期凭证轮换

  • 行为基线异常检测

  • 访问风险评分(risk scoring)

  • 自动权限回收

🟠 L1 人员操作层(Human Operators)

目标:管理和约束人为操作风险 涉及角色:开发、QA、BA/PM、运维、数据分析、Prompt 编写者 

主要风险

  • Prompt Injection、误操作、权限滥用

  • 社工攻击、敏感数据误粘贴

  • 长上下文污染

工程化约束

  • 权限校验 + 全审计

  • 高危操作双人确认

  • 隔离执行环境

  • 输入脱敏与 DLP

  • Prompt 风险评分

  • 主动攻击演练与异常注入

说明:人的操作从最外层一直贯穿到最内层,就像 棒棒糖模型的棒身

🟡 L2 测试与约束层(TPDD Guard Layer)⭐ 核心护城河

目标:将系统从“能跑”变为“可控”

Guard 架构

  • Entry Guards(入口收敛)

  • Runtime Guards(运行时持续约束)

  • Shadow Guards(旁路监控)

模块职责

  • Contract Guard:schema 校验、工具调用白名单、权限契约检查 → 防止能力误用

  • Invariant Guard:系统永真条件(不删除文件、不外发敏感数据、不越权访问) → 异常报警

  • Test Guard(TPDD 核心):边界测试、Failure 注入、对抗样本、回归测试、行为快照

  • Token / Cost Guard:context、steps、tool calls、成本限制 → 超额熔断策略、动态阈值与负载感知

落地措施

  • 自动化脚本执行 TPDD 测试计划并记录行为快照

  • 异常行为触发内圈熔断、报警和自动回滚

  • 多 Agent 调度系统联动实时限流

  • 红队验证和主动攻击演练

🔵 L3 AI 能力外圈(Agent / Model Layer)

目标:能力释放层,风险最高 包含:LLM、Agent、Skills/Tools、RAG、多步规划、自动代码生成

工程认知

  • 外圈不应被完全信任

  • 假设可能犯错、被注入、产生幻觉、越界尝试、非线性成本

落地措施

  • AI 执行必须经过 Guard Layer 审核

  • 每次生成操作附带行为日志和审计记录

  • 异常或超阈值行为自动熔断

  • 动态阈值随负载和业务峰值调整

🟣 L4 代码生成层(AI + 人工生成代码)

职责:统一管理 AI 与人工生成代码

  • 自动化回归测试与静态分析

  • 动态安全测试与代码审核

  • 依赖分析与冲突检测

  • 多 Agent 并行生成调度与隔离

  • 生成代码附带行为快照和版本追踪

⚫ L5 验证层(Verification Mesh)

系统级裁决层,三阶段验证

  1. 生成前(静态风险预判)

    生成中(运行监控)

  2. 生成后(功能 / 性能 / 安全验证)

职责

  • 功能安全验证、性能压测、异常检测

  • 红队演练、非线性攻击模拟

  • 发布阻断权归该层

🧠 L6 自愈与韧性层(Resilience & Self-Healing Layer)

目标:维持系统收敛能力

  • Incident Learning Loop:事故归因、策略回放、Guard 规则调优

  • Policy Auto-Tuning:动态调整阈值、限流、授权窗口

  • Self-Healing Flow:会话隔离、权限收缩、Agent 降级、沙盒重启、状态回滚

  • Guard 健康监控:持续监测漏检率、延迟、旁路风险

3 人的角色:贯穿全局的操作轴(棒棒糖模型)

人在 AI 安全架构中,不仅是使用者,更是安全闭环的中枢轴,贯穿 输入 → 约束 → 执行 → 验证 → 自愈

  • L0 核心资产层:临时访问、JIT 授权、审计触发

  • L1 人员操作层:Prompt 编写、运维操作、敏感数据处理

  • L2 测试与约束层:执行 Contract / Invariant Guard、TPDD 测试计划

  • L3 AI 能力外圈:Agent / LLM 调用的审计、行为评分、异常触发

  • L4 代码生成层:生成代码回顾、版本追踪、多 Agent 隔离

  • L5 验证层:功能/性能/安全验证、红队演练、异常阻断

  • L6 自愈与韧性层:异常触发回滚、会话隔离、Agent 降级

可视化比喻

  • 棒头(Candy Head):核心资产,保护最严格

  • 棒身(Candy Stick):人的操作路径,贯穿各层,形成受控连接

  • 糖衣(Candy Coating):AI 能力和外部工具,能力释放受棒身控制

  • 动态演化(螺旋/TPDD):沿棒身逐步增加规则密度、测试覆盖率和异常处理能力,实现系统随时间持续安全可控

通过这一设计,人的操作持续校准 Guard、TPDD 测试和异常监控,使 AI 能力在复杂系统中安全释放,同时保持核心资产的高度保护。

4 Nautilus Spiral 演化视角(动态复杂度增强)

同心圆模型刻画任意时刻的静态信任边界与权限层级,明确“当前可以访问什么、不能访问什么”,棒棒糖模型加入了人类可以介入的视角。

AI 系统随版本迭代、功能扩展而成长,代码量、复杂度和行为多样性逐步外扩,仅依赖静态洋葱无法完整描述长期演化风险。

螺旋模型要点

  • 螺旋对应版本沉积,每圈螺旋代表一次版本迭代

  • 外圈规模更大、复杂度更高,但结构与内圈一致

  • 动态规则与测试密度递增,Guard 规则、Failure 注入、监控指标随版本增长

  • TPDD 测试计划自动联动,覆盖率提升、异常注入增强

指标化落地

  • 测试密度(tests / KLOC)随版本递增

  • Guard 覆盖率逐步细化、自动化执行

  • 行为异常率实时监控、阈值动态调整

  • Token / Cost 消耗斜率、风险评分动态计算

静态 + 动态结合

  • 同心圆:回答“当前边界在哪里”

  • Nautilus Spiral:回答“随时间边界如何膨胀、规则如何增强”

通过结合,两者确保系统长期安全可控。

5 安全执行流推荐路径(受控闭环)

Human / User

L2 Entry Guards(Contract / Invariant / Token / Cost)

Agent / Model (L3)

↕ 多轮受控交互

L2 Runtime Guards(Contract / Invariant / Cost)

Code Generation Layer (L4)

Verification Mesh (L5)

Core Assets (L0, JIT 授权)

L6 Resilience Loop

禁止路径

  • User → Agent → DB

  • Agent → 高权限 Tool(无审计)

  • AI → 长生命周期凭证

关键工程语义

  • Guard 双阶段:Entry + Runtime → 防止“一次放行,全程裸奔”

  • 执行流受控,Agent 持续接受约束与异常监控

  • Verification 分布三阶段 → 目标尽早失败

  • Core Assets 默认不可达,临时授权、自动过期、全链路审计

6 OPC / 单人模式小型团队改进方案

核心目标: 

  • 单人或小团队环境,实现可控、安全闭环

  • 阻止越界操作、实时监控异常、自动回滚、沙盒隔离、精细化成本/Token 管理

改进措施

  • 沙盒化执行:完全隔离、会话隔离、JIT Token、自动回滚、状态快照

  • 自动化 Contract / Invariant Guard:契约检查 + Invariant 监控 + 规则自动升级

  • 行为异常评分与阈值触发:异常评分、滑动窗口、自适应阈值

  • Token / Cost 精细化管理:按操作类型、上下文动态调整、超阈值自动熔断

  • 简化自愈机制:会话隔离、沙盒重启、权限收缩、状态回滚

  • 渐进式开发与定期 Review:每日/每周复盘 TPDD 测试计划、日志和 Guard 效能

核心架构

Human / User

L2 Entry Guards

Agent / Model 执行层(沙盒 + 异常评分 + Token/Cost 精细化)

L4 Code Generation Layer(自动回滚 + 多 Agent 隔离)

L5 Verification Mesh(静态/动态/功能/性能验证)

Core Assets / L0(JIT 授权 + 全链路审计)

L6 Resilience & Self-Healing

7 整合三者

  • 横截面:洋葱 → 当前边界

  • 人的操作:棒棒糖 → 贯穿层级

  • 纵向演化:螺旋 → 动态复杂度和规则增长

  • 总结三者关系:静态 + 操作 + 动态 → 安全闭环

总结

  • 核心资产永远在内圈,模型能力在外圈受控释放

  • Guard Layer 模块化、动态化、可反馈,是系统安全核心

  • 单人模式仍可落地,但依赖最小可行安全套件

  • 能力暴露 + 禁止空间 + Failure Thinking 架构落地,为 AI 工程提供可控、可验证、可维护的实践方法

  • 动态量化阈值、负载感知、红队演练是改进后的关键增强点

作者介绍:

臧嘉玮,资深软件验证工程师与技术布道者,AI 探索者,曾贡献 1000+ 条维基百科与百度百科条目。精通自动化测试、开发策略优化及前沿测试技术,致力于将复杂系统验证经验与 AI 应用转化为可复用实战洞察。曾任 IBM 测试顾问、Siemens EDA 核心测试与自动化工程师,同时是 TPDD(Test Plan-Driven Development)方法布道者。