Token日生成数百万亿，传统负载均衡不够用了：F5 开始做Token级调度

过去谈到“应用”，更多指向一个 APP、一个网站、一个业务系统，或一组运行在服务器上的软件服务。但在 AI 时代，应用已经不再是单一入口、单一后端、单一部署环境的组合，而是由大模型、智能体、API、数据、算力集群、云平台、边缘节点和安全策略共同构成的复杂系统。

这也意味着，企业面临的核心问题正在发生变化。过去企业更关心“如何部署应用”、“如何保障访问稳定”；而现在，企业真正需要解决的是：在混合多云、AI 推理、智能体调用、异构算力和自动化攻击并存的环境下，如何对应用进行统一交付、持续安全和系统级治理。

作为应用交付领域的领导者，F5 认为，AI 时代企业竞争优势的关键，不再只取决于单一模型能力、某一个云平台，或者某一类安全产品，而在于企业能否在复杂、多云且高度动态的环境中，建立对应用、数据与流量的核心控制能力。

企业技术栈正变得越来越碎片化

F5 亚太区首席技术官 Mohan Veloo

F5 亚太区首席技术官 Mohan Veloo 表示，当前企业 IT 环境正在被三股力量重塑：混合多云常态化、AI 推理规模化，以及安全威胁智能化。

首先，混合多云已成为企业默认运行模式。根据 F5 2025 年《应用战略现状》报告研究数据显示，目前约 94%的企业在混合多云环境中运行，平均分布于约 19 个不同位置。这意味着，企业应用天然处于多环境、多平台、多位置的复杂状态中。未来企业架构的关键，不再是应用运行在哪一个云上，而是能否在不同环境中获得一致的交付、安全与治理能力。

其次，AI 正在从训练阶段加速进入推理阶段，并深度嵌入企业应用栈。F5 指出，目前已有 78%的企业具备自有推理能力，且平均同时使用约 7 种模型。AI 不再只是外围工具，而是进入业务核心场景。随着智能体开始调用 API、访问数据、执行任务，应用的“用户”也不再只包括人类，还可能是软件机器人、AI Agent，甚至是多个智能体协同组成的系统。这也对传统身份管理、访问控制和安全策略提出新挑战。

第三，安全威胁正在被 AI 重塑。F5 指出，当前网络攻击数量增长 77%，机器化活动增加 150%，CVE 漏洞持续攀升，大模型也在不断扩大新的攻击面。在 AI 加持下，攻击者能够更快生成攻击、更快变形载荷，并持续试探系统边界。F5 认为，这带来了明显的速度错位：攻击者正在以“机器速度”行动，而许多企业仍以“人工速度”防御，传统防御节奏已难以匹配风险变化。

在三重变化叠加下，企业技术栈正变得更加碎片化。一方面，企业需要 IAM、WAF、API 安全、负载均衡、可观测性等传统能力；另一方面，AI 应用又提出提示词安全、AI 护栏、智能体权限管理、Token 成本优化、多模型路由、异构算力调度、KV Cache 感知和合规策略编排等新需求。

如果这些能力继续以单点产品方式叠加，企业将面临新的复杂性：工具越来越多，但控制越来越分散；平台越来越多，但策略越来越难统一；数据越来越多，但决策越来越割裂。为此，F5 认为，AI 时代企业需要的不是更多孤立工具，而是能够贯穿不同环境、应用和安全场景的统一控制能力。

AI 应用的核心在于三个控制点

对于上述提到的问题，F5 也探索出了自己的一套解法。

F5 认为，企业 AI 应用的运行流程可以被概括为一条从提示词到 Token 的路径：用户或智能体首先输入提示词，请求经由统一入口进入系统；随后进入编排阶段，系统整合上下文，并按需调用内部 API、数据、工具、智能体或子智能体；增强后的提示词再进入模型层推理，并在这一过程中转化为 Token，最终形成输出结果。

基于这一流程，F5 将企业 AI 交付划分为三个关键控制点：统一入口、编排与调度、模型推理。三者分别对应三个核心问题：谁可以进入系统、进入后可以调用哪些资源，以及推理过程如何在性能、成本和安全之间实现动态平衡。

首先是统一入口。F5 认为，AI 应用中的提示词并不会直接进入模型，而是先到达应用程序或 API 层。发起请求的主体也不再仅限于人类用户，还可能是智能体、机器人或代理程序。因此，所有请求在进入系统之前，都需要先被识别、判断和治理。

长期以来，企业在这一层主要依赖 WAF，但传统 WAF 更多基于已知威胁和静态规则进行防护。面对实时生成、持续变化的攻击载荷，单纯依赖规则匹配已难以应对。为此，F5 重构了 WAF 架构，在特征匹配、攻击指标和外部威胁情报等传统能力之上，引入神经网络模型，形成新的智能安全层。

据介绍，这一神经网络能力基于 F5 自有数据体系构建，可对行为进行实时监测，并在微秒级完成安全决策。同时，该能力运行于 CPU 之上，无需依赖 GPU 资源，可部署在边缘节点并嵌入实时流量路径，在不明显增加延迟的前提下完成防护。

F5 给出的数据显示，在未进行特征匹配更新的情况下，相关 WAF 方案已成功捕获 10 类漏洞；引入新的特征机制后，误报率由 28%下降至 1%，检测准确率从 64%提升至 98%。这意味着，WAF 正在从基于规则匹配的防火墙，转向具备行为理解和动态判断能力的智能防护体系。F5 将其概括为“用 AI 对抗 AI”。

第二个控制点是编排与调度。F5 认为，AI 应用真正复杂的部分往往不在模型本身，而在模型周围的调用链路。一个用户请求可能要经过提示词增强、上下文拼接、API 调用、数据库检索、工具调用和智能体协作，最终才进入模型推理。因此，AI 系统风险也不只存在于模型输出，还贯穿整个编排链路。

为强化这一环节的安全能力，F5 收购了 CalypsoAI，并构建覆盖“发现—防护”的闭环体系，包括 AI 红队和 AI 护栏两大模块。其中，AI 红队负责主动发现和挖掘潜在风险，从攻击者视角测试模型、应用和调用链路中的漏洞；AI 护栏则负责将这些风险转化为实际防护策略，防止数据泄露、越权调用、违规输出或不安全行为发生。

F5 表示，基于现有能力，其每月可生成约 1 万个新的 AI 特征码，并构建了全球规模领先的 AI 攻击数据集之一，能够对开源和闭源模型行为进行检测与分析。F5 希望进一步把 AI 安全从“发现问题”推进到“自动修复”：AI 红队发现的风险可直接转化为 AI 护栏策略，并自动生成对应防护机制，使安全策略能够随攻击变化动态更新，减少对人工配置和人工响应的依赖。

第三个控制点是模型推理。F5 认为，推理是 AI 从概念走向业务落地的关键环节。相比“算力是否足够”，企业更需要关注如何以更低成本、更低延迟和更高效率完成模型调用。

Mohan 表示，AI 工厂可以被理解为一种能量转化系统：以电力为输入，以算力为输出，把物理资源转化为数字能力。而算力的产出，可以用 Token 来衡量。随着企业 AI 应用规模扩大，Token 正在成为衡量 AI 成本与价值的重要经济单位。

Mohan 指出，当前全球每天生成的 Token 规模已达数百万亿量级。他举例称，一句“Why Does F5 Have The Best Application Delivery And Security Platform？”在处理过程中可拆分为约 13 个输入 Token，并生成约 27 个输出 Token，总计约 40 个 Token。这意味着，AI 系统中的每一次交互都可以被量化为 Token 消耗。

围绕 Token 优化，F5 提出五个关键指标：Token 吞吐量、首 Token 响应时间、单 Token 成本、端到端延迟和每瓦 Token 产出数。其中，Token 吞吐量衡量系统处理能力，首 Token 响应时间直接影响用户体验，单 Token 成本决定 AI 应用能否规模化，端到端延迟反映整体应用响应效率，每瓦 Token 产出数则体现能源利用效率。这五项指标将共同构成 AI 推理优化的核心评价体系。

把交付、安全和 Token 调度整合起来

实践中，F5 围绕 AI 时代的应用交付与安全，形成了三条主要路径：以 ADSP 整合碎片化能力，以基于 Token 的负载均衡解决方案（TBLB）优化 AI 推理调度，并通过 DPU 将应用交付与安全能力前移至 GPU 之前。

其中，ADSP 是 F5 面向 AI 时代构建的统一应用交付与安全平台。该平台上层覆盖客户、员工、机器人、API 和 AI 智能体等多类访问主体；中间层提供 WAF、API 安全、机器人防护、DDoS 防护、AI 护栏等能力；底层则支持硬件、软件、SaaS、边缘、DPU 和容器等多种部署形态。

在 AI 推理调度层面，F5 提出 TBLB，即基于 Token 的负载均衡。传统负载均衡通常关注请求数量、连接数、服务器负载和响应时间，但 AI 推理请求之间差异极大。一个简单查询和一个复杂代码生成任务，在 Token 消耗、模型调用、计算成本和响应时间上可能完全不同。

因此，F5 认为，AI 时代的调度不能只看请求数量，而要综合考虑 Token 成本、任务复杂度、模型能力、算力状态、缓存命中、延迟要求和用户体验。

在实际部署过程中，企业通常同时运营多个算力集群，既包括基于 NVIDIA GPU 构建的通用算力平台，也包括基于国产芯片架构的异构算力资源；既承载轻量化模型，也运行高性能、大参数模型。如何将这些异构资源整合为统一、高效的推理服务体系，正成为 AI 基础设施建设的核心挑战之一。

在这一体系中，F5 位于推理服务入口层，能够在请求进入模型之前完成智能化决策，实时感知不同算力集群的负载状态、时延表现、资源利用率及潜在压力，并结合任务类型、Token 消耗成本等因素，将请求动态调度至最适配的算力资源，从而在性能、成本与稳定性之间实现更优平衡。

F5 中国区产品及解决方案总经理陈亮表示，TBLB 的能力并不局限于判断“哪块算力处于空闲状态”，还会考虑 KV Cache 等因素。当缓存得以有效复用时，可显著减少重复计算，从而提升推理效率并降低整体算力消耗。因此，TBLB 本质上是一个多因素感知、实时决策的智能调度系统。

在底层基础设施方面，F5 重点关注 DPU。按照 AI 工厂的架构分工，CPU 负责通用计算，GPU 负责训练和推理等高强度计算负载，DPU 则更适合承担网络、安全、负载均衡和数据处理任务。

F5 认为，AI 推理的成本和性能优化不能只依赖 GPU 本身。大量应用交付、安全检测、流量调度和可观测性工作，如果全部由 CPU 或 GPU 承担，会影响整体效率。更优路径是在流量进入 GPU 之前，就完成部分交付与安全处理。

基于这一思路，F5 发布了运行于 NVIDIA BlueField DPU 上的 BIG-IP 解决方案。该方案可在 DPU 层同时实现安全防护、负载均衡、大模型路由和可观测性等能力，将原本位于更高软件层级的处理能力前移到硬件层执行。F5 数据显示，将 BIG-IP 迁移至 DPU 后，Token 整体吞吐量提升约 40%，首 Token 响应延迟下降约 60%，端到端推理响应时间优化约 30%。

未来，F5 还计划将 iRules 能力引入 AI 工厂体系，进一步扩展 Token 维度的调度与治理能力，并推动将 AI 护栏能力下沉至 DPU 层，使安全防护能够在更底层、更前置的位置完成。不过，在中国市场，DPU 目前仍处于导入阶段。陈亮表示，当前 DPU 的应用主要集中于互联网企业等对高性能网络与算力调度需求较高的场景，对于更广泛的企业客户而言，其商业价值与落地模式仍处于持续验证过程中。

Mohan 提到，NVIDIA 在硬件能力、生态成熟度和标准制定方面具有领先优势，这是 F5 选择其作为重要合作伙伴的主要原因。在推理链路中，双方协同主要体现在两个层面：一是在入口层，NVIDIA 推理服务软件体系默认采用 F5 NGINX 作为前端接入组件，F5 由此参与推理请求的入口管理和流量调度；二是在推理决策层，NVIDIA 提供轻量级模型分类器，用于对请求复杂度进行预判，简单任务可路由至低成本轻量模型，复杂任务则调度至高性能模型，从而在用户体验与推理成本之间取得平衡。

不过，Mohan 强调，其并不采取单一生态绑定策略。随着多元算力生态发展，F5 也在与更多 GPU 和算力厂商合作，并逐步获得相关认证。

本地化重点：国产算力适配

在中国市场，F5 的本地化重点正在从产品适配延伸到服务体系建设。

随着企业 AI 基础设施部署加速，客户在选择基础设施和安全厂商时，不仅关注产品能力，也更加重视国产算力适配、本地化部署、合规支持和服务响应速度。陈亮表示，国内算力生态发展迅速，F5 已支持包括阿里平头哥、华为、NVIDIA、沐曦、寒武纪等在内的多类算力平台。目前，F5 对主流算力平台的适配工作已基本完成。

不过，陈亮也指出，国产算力适配仍需要一定工程工作。模型层需要调用，推理引擎层也需要对底层算力资源进行调度。部分芯片还需要适配对应的模型语言和规范。如果适配和“翻译”工作完成得好，整体接入会更加顺畅，适配成本也更低；如果适配不足，则需要通过额外转换来匹配底层能力。

从行业趋势看，AI 生态正在向统一规范演进。芯片、模型、接口和推理框架都在努力降低互操作成本。例如，越来越多模型侧接口开始兼容 OpenAI 调用方式，算力和模型也在向通用规范靠拢。这意味着，只要应用层采用统一接口，企业就可以在不同模型和算力环境之间实现更快适配。F5 在其中扮演的角色，是提供入口层和调度层的统一控制能力。

在 AI 安全部署方面，陈亮表示，F5 当前主要采用 SaaS 形态，同时也支持客户按需进行本地化部署，部署位置可以在边缘侧，也可以在数据中心。但从安全效果来看，最佳位置是尽可能接近模型侧。因为越靠近模型，能够观测和控制的流量信息越完整；如果部署过远，部分请求可能绕过安全控制。理想状态下，应将 F5 部署在模型前端，确保所有请求都经过统一安全管控。

针对性能与安全之间的平衡，陈亮表示，AI 安全并不是“越重越好”。越复杂的检测通常意味着越高的性能开销，企业真正需要的是根据业务场景、安全等级和成本要求进行灵活配置。

他介绍，F5 的 AI 防护能力可以分为三层：第一层基于静态规则，性能开销最低，仅需 CPU 即可运行，但防护能力相对有限；第二层引入机器学习，对请求进行评分和判断，安全性有所提升，但会带来一定算力消耗；第三层是基于模型驱动的智能防护，需要更高算力支持，但能够实现更高准确度和更强防护能力。客户可以根据自身场景选择不同策略。

Mohan 补充称，F5 平台支持通过编程方式进行策略管理，企业可以将合规要求直接写入规则体系。例如，在某些金融监管场景中，如果规定不能对不同银行产品进行横向比较，平台就可以在请求阶段识别并拦截相关问题，或按照客户设定方式处理。

服务能力也是 F5 中国本地化的重要投入方向。陈亮表示，目前 F5 在国内至少有 3 名成员属于 AI 应用工程部，同时正在扩充 Support Center 规模，并计划在上海和北京分别扩充 Support Center 架构，以更好服务中国客户。

此外，F5 新成立的 AI 应用工程部当前重点是先完善内部能力体系，例如利用 AI 模型主动检测自身产品代码中的潜在 CVE 漏洞，实现更早发现和更快修复。通过产品适配、本地部署、合规策略和服务体系建设，F5 希望进一步提升其在中国 AI 基础设施与安全市场中的本地化支撑能力。

创作场景

Token 日生成数百万亿，传统负载均衡不够用了：F5 开始做 Token 级调度

企业技术栈正变得越来越碎片化

AI 应用的核心在于三个控制点

把交付、安全和 Token 调度整合起来

本地化重点：国产算力适配