深信服发布AI算力网关，聚焦AI算力治理，让AI算力效能更高

中国 AI 产业正在全面爆发，各行业的 Agent 应用发展更是迅猛。对企业来说，管好这些 Agent 并不容易，首先难算清的就是“成本账”——算力使用情况看不清、Token 资源浪费管不住、AI 投入省不下。

为了帮助各行业用户实现 AI 模型和算力的高效治理，深信服发布 AI 算力网关，与用户共同应对 AI Agent 时代的算力挑战。

深信服 AI 算力网关，是用户自己的“AI 算力智能调度中枢”，能为用户实现 Token 治理、成本治理、安全治理。通过强大的可见性，以及“看到 - 管好 - 用好”的全生命周期护航，将 AI 能力转化为驱动业务持续增长的核心引擎，让用户的每一份算力都看得清、管得住、省得下、用得稳、更安全。

用深信服自己来举例，3000 人的研发团队，在用上 AI 算力网关之前，每个月 Token 花费上百万，AI Coding 本地算力成本上亿。现在，通过 AI 算力网关对算力的调度及一系列的优化手段，外部 Token 调度成本每月可节省 40 万+，本地算力成本直降数千万！

深信服 AI 算力网关从 3 个层面解决问题。

一、3 个角度，方方面面搞定 Token 治理

Token 用了多少、用在哪里，搞不清、管不住；模型频频卡顿出错，业务稳定性无从谈起。要让 AI 转型更高效，就得先治理好 Token 资源，在这方面，深信服能帮用户做到：看得清、管得住、用得稳。

1、看得清：强大的算力+模型可见性，提升 AI 落地效率

如果你还在经历：各种算力买了很多，使用量很大，但难以获知各部门 Token 的使用情况，有了深信服 AI 算力网关之后，一切状况都能看得清了。

（1）开放兼容、统一入口，所有算力及模型资源皆在眼前

通过统一的入口，我们可以看见各类云端模型、本地和租赁算力，在统一的管理界面里，用户可以直接完成模型和算力资源的接入。

各类模型接入兼容 OpenAI 和 Anthropic 等协议，各类算力的接入也不会被算力平台厂商绑定。当需要扩展更强大的模型服务时，无需改造 AI 应用即可快速获得最新模型能力，并由 AI 算力网关统一对接。

（2）可视可控，Token 用量一览无遗，加速 AI 转型

AI 算力网关可以进行精细化用量统计，用户可分别从业务组、应用等维度看见 Token 的调用量、消耗额度、成功率、配额等情况，从而有效推动各部门 AI 转型、推动明星 AI 应用的推广。

从业务组维度查看 Token 使用情况

从应用维度查看 Token 使用情况

通过打造强大的可见性，帮助用户以细颗粒度的 Token 治理，真正看清算力资源的状况，让 AI 创新在组织内的落地速度得到数倍提升。

2、管得住：AI 算力精准管理，让每一分算力用有所值

各部门都说算力不够用，但这些资源到底有没有用在真正有价值的场景？有了 AI 算力网关，AI 资源的管理和控制就有了科学手段，想知道算力用在哪、哪些业务需要重点保障，都没问题。

在 AI 算力网关里，我们可以按照组织架构和 API Key 进行配额管理，管理员可以为下属组织和员工设置 Token 费用配额。为保障重点业务的运行，还可以对不太关键的需求或异常请求进行精准限流，让算力优先流向更有需要的地方。

AI 算力网关通过对 Token 的精细管控，可以让全局 Token 消耗降低 50%，核心业务 AI 算力保障能力提升 2-3 倍。

管好算力资源之余，AI 算力网关还能帮助用户更好地管理显卡资源，将私有基础设施服务化，实现本地算力 API Key 的管理和限流，模型服务也可进行多 Key 精细化权限控制，满足不同部门的资源需求，显卡资源利用率倍增。

同时，面向所有算力建设，AI 算力网关提供 GPU 基础设施服务化能力，现在已经完成业界主流显卡的兼容适配，各类新卡新模型可快速适配。

3、用得稳：让 AI 业务运行更稳定、更可靠

把 AI 算力管好了、治好了，我们还需要关注 AI 业务的实际运行够不够稳定。在这方面，AI 算力网关主要从两个方面发力——

（1）创新技术模型聚合路由，让单点故障不再影响业务，敏态 AI 业务体验更流畅可靠。

模型服务一旦出现卡顿、异常，甚至宕机问题，就会严重影响业务的正常运转，带来业务损失。AI 算力网关通过配置跨本地资源池、跨模型供应商的轮询调度策略，来避免业务高峰单点模型服务过载故障，保障服务流畅稳定。

同时，还可以通过配置本地算力+云端模型优先级策略，让云上云下的模型弹性切换，自动分流，缓解高峰压力，从而保障 AI 业务的流畅运行。

（2）平台自身生产级可靠，匹配生产级核心业务需求

除了规避故障风险，AI 算力网关本身具备生产级可靠性，以极低开销时延、多实例热备能力和高可靠基础设施底座，保障用户的生产业务体验。

在看得清、管得住、用得稳之余，AI 算力网关还为 Token 治理配置原生 Agent，CEO、财务、HR、CIO、研发等各角色，只要向它提个问，就可以在此获取 Token 投入与业务成效的投入情况，一目了然。

二、关键技术加持，分分钟搞定成本治理

当用户的 AI 建设越来越深入，和成本挂钩的难题就会越来越多——云端各种 MaaS 模型如何选择？算力不够只好堆显卡？云端和本地哪个更划算？

深信服全力打造创新技术，为用户持续、大幅降低本地算力和模型费用。

省得下：创新技术加持，让 AI 越用越省钱

传统的模型调度方式基本是黑盒化，各类问题都可能去调用最贵的模型，导致企业成本居高不下。本地算力也存在类似问题，如异构品牌显卡算力不均，导致大参数资源池算力不够用，中小参数模型资源池却利用率低下。现在，AI 算力网关可以帮忙优化这类成本难题了。

深信服创新自研的智能路由引擎，就是 AI 算力网关实现成本优化的核心技术之一。

智能路由引擎有两个硬核的特点：

可解释性高：支持在页面端实时追溯不同场景下的决策因子，这种白盒化的调度机制，让用户对每一笔算力流向都心中有数。
准确率高：深度适配 OpenClaw 等典型 Agent 请求特征。通过对任务意图的精准分类，AI 算力网关能确保不同类型的 AI 诉求都能匹配到最合适的算力资源。

因此，AI 算力网关可以实现精准判断并将简单的问题调度到更简单的模型，将复杂问题调度到顶尖模型。保障效果的同时，用户每月可节省约 50%的成本！

而针对本地算力的使用，深信服也有创新技术突破，可实现大幅成本优化。

（1）对于大量大小模型混合使用的 Agent 构建场景

如 Embedding、Reranker、OCR、TTS 等，AI 算力网关支持算力 1%，256MB 级显卡资源切分，单卡承载模型数量可翻 8 倍以上，显卡越高端、模型使用越多，越省钱。

（2）对于重载 AI 应用场景

深信服 AI 算力网关通过自研的自适应架构层，提供工具、集成的监控等手段，来辅助定位应用场景的性能瓶颈，再结合自适应的原子优化能力，实现应用端到端承载的 ROI 提升。

如 AI Coding 场景，深信服 AI 算力网关可以实现本地算力的 ROI 提升 2~5 倍起！

三、告别翻车，轻松搞定安全治理

Agent 的大量落地本身会带来巨大的安全风险。应用隐私数据无管控造成核心资产泄露、智能体自行删光数据信息等等，“翻车”事件频频发生。

更安全：核心资产不泄密

深信服 AI 算力网关继承了深信服自身的安全基因，在这方面做了充足防护。

AI 算力网关集成深信服大模型安全护栏，对接简单，一键即可开启，应用端无需改造即可根据不同的路由灵活配置安全策略，保障核心资产不外泄，业务运行更安全。

AI 落地、算力爆发，深信服 AI 算力网关不同于业界通用 API Gateway、单一 MaaS 平台或单点优化工具，不是“替代一切”，而在于补齐各行业用户在 AI 供给侧最缺失的治理与调度中枢，助力各行业用户 AI 创新效率大幅提升，在 AI 转型中告别成本焦虑，轻装上阵，让每一笔投入都转化为实实在在的、安全可靠的 AI 生产力。

创作场景

深信服发布 AI 算力网关，聚焦 AI 算力治理，让 AI 算力效能更高

一、3 个角度，方方面面搞定 Token 治理

二、关键技术加持，分分钟搞定成本治理

三、告别翻车，轻松搞定安全治理