API 网关十五年演进：从微服务核心到 AI 时代的神经网络_生成式 AI_Tina

AICon 深圳站聚焦 Agent 技术、应用与生态，大咖分享实战干货了解详情 



 写点什么



大小：3.40M时长：19:47

2014 年，伴随全球科技公司涌现的“微服务化”浪潮，API 网关作为系统拆分的“守门人”（Facade Pattern）应运而生。它从最初简单的请求路由，逐步发展到处理身份验证、授权和速率限制等关键任务，如今更成为实时数据与 AI 模型交互的核心枢纽。这一演变历程，映照出传统技术架构从服务拆分走向大模型时代的深层逻辑。

我们所认知的 AI 和大模型，实际上背后都是由无数的 API 所驱动的。正如当 Kong 公司中国区负责人戴冠兰在采访中所说：“No AI without API”。大模型每一次智能应答、图像生成乃至决策推理，本质上都是无数 API 的精密协作，大模型技术的快速发展将带来 API 的指数级增长。

在 InfoQ 的专访中，戴冠兰回顾了 Kong 网关从 2015 年开源项目到如今演变为 API 和 AI 混合网关的历程。现在，通过 Kong AI 网关(AI Gateway)，我们能够屏蔽不同大语言模型（LLM）提供商之间的差异，为用户/客户端提供统一的 API 接口。此外，由于所有的请求和响应都经过 Kong AI 网关，这使得在其中实现可观测性、认证授权以及重试等治理能力变得非常便捷。未来，Kong AI 网关将持续集成与 AI 相关的核心能力，全面支持包括 MCP 协议、Google A2A 标准在内的新兴技术体系。

采访嘉宾简介：

戴冠兰，现任 Kong 中国区总裁，并兼任全球网关核心研发总监，全面负责 Kong Gateway、服务网格等核心产品的研发战略与全球技术布局。在加入 Kong 之前，戴冠兰曾在 Cloudflare 担任边缘计算、Web 应用防火墙（WAF）和内容分发网络（CDN）等关键技术的负责人，领导团队处理每日超过万亿级别的请求，积累了丰富的大规模分布式系统的架构与运营经验。

他拥有美国东北大学计算机科学硕士学位，具备坚实的技术背景和国际化视野。清华大学五道口金融学院、纪源资本创投研修班 OMEGA 项目的优秀学员。

2021 年主导成立 Kong 亚太区研发中心，从 0 到 1 搭建团队，覆盖多条产品线，如 API 网关、服务网格等。中国区研发团队贡献了超过半数的核心研发成果，显著提升了 Kong 应对高并发、复杂流量场景的技术能力。推动 Kong 从单一 API 网关（Kong Gateway）扩展至全生命周期微服务管理平台，形成“全家桶”式产品生态（如 Kong Mesh、Konnect 云服务等），支持企业在多云环境下的高效 API 管理。他在开源商业化、全球化产品战略、AI 网关演进等方面具有深刻见解，致力于将 Kong 打造成全球领先的 API 管理平台。

从微服务到大模型时代网关的演进

InfoQ：网关技术产生于微服务时代，那么它本身是如何随着时间的推移而发展的？

戴冠兰：API 网关技术经历了从支持微服务架构到适应 AI 应用的演进。以下是 Kong 在不同阶段的关键发展：

1. 微服务时代的起点（2015 年）：随着企业从单体架构转向微服务，Kong 于 2015 年推出了开源 API 网关，提供统一的流量入口、身份验证、限流和监控等功能，帮助企业顺利过渡到微服务架构。

2. 服务网格与 Serverless 的融合（2019 年）：微服务数量的增加带来了服务间通信的复杂性。为此，Kong 推出了 Kuma 服务网格，并在企业级产品中集成为 Kong Mesh，增强了服务间的通信管理和安全性。同时，Kong 还支持 Serverless 架构，适应了无服务器计算的需求。

3. 云原生控制平台的构建（2020 年）：为了统一管理南北向和东西向流量，Kong 推出了 Kong Konnect 云原生控制平台，提供统一的可视化管理、策略控制和数据洞察，提升了微服务治理的效率。

4. AI 网关的引入（2023 年）：面对生成式 AI 的兴起，Kong 于 2023 年推出了 AI 网关，支持多种大语言模型（LLMs）的集成，提供无代码插件、语义缓存、提示词防火墙等功能，帮助企业安全、高效地部署 AI 应用。

5. 持续的创新与发展（2024 年）：Kong 在 2024 年发布了 AI 网关 v3.8 版本，进一步增强了智能语义能力，引入了语义缓存、语义路由和语义提示词防护等功能，提升了 AI 应用的性能、安全性和用户体验。

InfoQ：当网关用于基于 AI 的交互时，它与我们传统的微服务程序交互有什么不同？

戴冠兰：当 API 网关用于 AI 驱动的交互场景时，其与传统微服务架构下的差异体现在计量方式、数据流处理和性能要求等方面：

1. 计量单位的转变：在传统微服务架构中，API 网关通常按请求次数进行计费和监控。然而，在 AI 应用中，尤其是涉及大型语言模型（如 OpenAI 的 GPT 系列）的场景中，计费和资源消耗的关键指标转向了“token”（标记）。每个请求的成本和资源使用量取决于输入和输出的 token 数量，而非仅仅是请求的次数。这种转变要求网关具备对 token 使用量的精确统计和控制能力，以实现成本管理和资源优化。

2. 数据流处理方式的变化：AI 应用，特别是生成式模型的交互，常常采用流式（streaming）响应方式，以提升用户体验。这意味着网关需要支持实时的数据流处理，能够在接收到部分响应数据时立即转发给客户端，而不是等待完整响应生成后再进行转发。这种处理方式对网关的并发处理能力和数据传输效率提出了更高要求。

3. 性能和稳定性的挑战：AI 模型的推理过程通常计算密集，响应时间可能较长，且对系统资源的消耗较大。网关在处理此类请求时，必须具备高并发处理能力和稳定性，以防止因单个请求的延迟或失败影响整体系统的性能。此外，网关还需具备智能的流量控制和异常检测机制，以应对可能的请求激增或异常行为。

4. 安全性和合规性的增强需求：AI 应用可能涉及敏感数据的处理和传输，网关需要提供更强的安全控制措施，如细粒度的访问控制、数据加密、敏感信息过滤等。同时，为满足不同行业的合规要求，网关应支持多种认证和审计机制，确保数据处理过程的可追溯性和合规性。

总的来说，AI 驱动的应用对 API 网关提出了新的挑战和要求，涉及计费方式的转变、数据流处理的复杂性、系统性能的提升以及安全合规性的加强。为应对这些挑战，API 网关需要不断演进，集成更多智能化和自动化的功能，以适应 AI 时代的需求。

AI 网关：大模型时代的工程化中枢

InfoQ: Kong 在 AI/LLM 网关场景中通常会遇到哪些客户需求？

戴冠兰：最为常见的需求是多 LLM provider 代理，当企业计划将 LLM 应用上线到生产环境时，一定是需要有 backup 的，这时候，很自然的就是当某一个 LLM provider 不可用的时候，能否在不做任何调整的时候，通过 Kong AI 网关继续将请求自动的转移到其他可用的 LLM provider。

其次就是基于 Token 的 ratelimit，这对于企业 LLM 应用控制成本等方面也是极其重要的。

当然除了这些，还有一些其他的，比如能否进行自动的 RAG，能否在 Kong AI 网关的层面进行 cache 以节约成本，以及是否可以通过 Kong AI 网关进行一些特定内容信息的过滤等。

InfoQ: 有很多工程师对 LLM 时代的网关会有疑问，比如“我为什么需要一个网关？我直接调用 API 就好了。”你如何解答这个问题？

戴冠兰：正如前面提到的，通过 Kong AI 网关主要完成的是对于 LLM 请求的治理，这其中不只是包括对多个 LLM provider 的 fallback，也包括认证授权等能力。很多 LLM provider 其实会限制用户可创建的认证密钥的数量，而大多数情况下，我们希望可以知道我的 token 到底消耗在了哪里，是哪个应用发起的，在什么时间，消耗了多少。

通过 Kong AI 网关就很容易做到这些了，将 LLM provider 的认证密钥进行中心化管理，然后为不同的用户/应用创建各自的独立的认证密钥，这样可以避免密钥泄露的风险。借助于 Kong AI 网关强大的可观测能力，还可以了解到这些用户/应用的 Token 消耗情况等，这样就会很方便。

此外，集成 Kong AI 网关的另一大优势就是不需要自己额外开发重复的逻辑，将这些基础能力都下沉到 Kong AI 网关中，开发者只需要专注于自己的业务逻辑即可。

InfoQ: 对于使用多个 LLM 提供商的企业，会有哪些技术挑战，Kong 是如何解决这些挑战的？

戴冠兰：首先是如何保障始终有可用的 LLM provider。Kong AI 网关通过实现多种重试和负载均衡策略，在保障可用性的同时，兼顾了企业复杂场景下的多样化需求，确保始终有可用的 LLM provider 提供服务。

其次，不同的 LLM provider 或者是不同的 LLM 尽管大体遵循统一的 API 接口格式，但也会有一些差异存在，通过使用 Kong AI 网关，我们在网关侧屏蔽了这些差异，用户可以使用无差别的统一接口进行连接，身份认证，以及通过 Kong AI 网关完成可观测性相关的需求。

InfoQ: 典型的 LLM 网关应该具备哪些关键功能？这些功能在企业的 AI 工程中能带来哪些具体优势？

戴冠兰：既然叫作 AI 网关，最典型的能力自然是连接不同的 LLM provider，其次也包含对密钥的中心化管理，分发给用户不同的虚拟密钥，以便实施不同的控制策略。

这样的功能，可以避免密钥的泄露，同时又可以根据企业的不同策略，来进行精准的控制。

还有，比如说基于 Prompt 对内容进行过滤的功能。对于企业而言，避免敏感数据泄露是很关键的，当然，另一方面是要避免企业 AI 应用返回“有害信息”，通过在 AI 网关上进行基于 Prompt 的内容过滤，就可以有效的保护数据安全，也可以避免影响企业形象或者避免一些安全合规问题。

InfoQ: 另外，网关是否会引入额外的延迟？如何保证网关既可靠又非常快速？

戴冠兰：由于在整体的链路上多了一层，自然会引入一些额外的延迟。

Kong AI 网关主要做了两方面的优化：一个是 Kong 本身就在持续的优化自身的性能，致力于打造高性能的网关；另一方面是 Kong AI 网关引入了语义化缓存的能力，通过 cache 来提升整体的性能，并降低 token 的消耗。

InfoQ: 举例来说，如果一个企业使用了 M 个大模型，以及有 N 个用户，同时会不同的任务指向不同的 LLM，那么这种情况下，其复杂性在哪里，Kong 如何简化其开发和管理工作？

戴冠兰：正如前面所说，这里的复杂性主要就是 LLM 治理和策略如何实施了。 Kong AI 网关提供了多种不同的配置策略，同时 Kong AI 网关也支持多样的 plugin 进行扩展，这样就可以灵活的满足企业多样化的需求。

InfoQ: Kong 提供了哪些机制来确保与外部 AI 服务交互的安全性和效率？

戴冠兰：提到安全性，首先就是密钥管理的安全性，Kong AI 网关允许进行密钥的中心化控制，这样可以使用不同的虚拟密钥分发给不同的用户/client，一次来确保其密钥的安全性。当然 Kong AI 网关也支持多种不同的认证策略，可以使用不同的认证策略来完成认证。

此外就是 Kong AI 网关提供的限流策略，无论是基于请求，还是基于 token 的，都可以很好的包括后端实际的 LLM provider，避免因为过量的请求导致 LLM provider 的性能或者安全问题。

InfoQ: 如今大模型爬虫给各网站带来了很大的负荷，防范机制经常失效，那么网关层面可以如何解决这个问题？实现原理是什么？

戴冠兰：对于 Kong AI 网关而言，由于我们已经在网关领域积累了很多经验，更多的还是基于原有的经验提供多种校验和限制策略。无论是基于用户身份，请求来源，或者是基于请求等要素，Kong AI 网关都有相关的 plugin 可以满足对应的需求。

同时 Kong AI 网关也有基于 token 的限流限速插件，当然 Kong 也有类似 Bot Detection 之类的 Plugin，我们维护了一套规则集合，同时也允许用户对该规则进行扩展，以此来防范一些爬虫的大量抓取请求。

当然，网络的攻防本就是此消彼长的一个过程，有时候我们也需要借助一些其他的手段才能更好的进行拦截，所以 Kong 也有很多合作方，同时 Kong 也有很好的扩展能力，这样就可以更加灵活的来满足客户的具体需求了。

InfoQ: AI 工程通常涉及大量 API 调用，Kong 是否支持动态限流和访问控制？这些功能如何帮助企业优化 API 使用？

戴冠兰：是的，Kong AI 网关支持动态的限流限速和访问控制。比如通过使用 Kong AI 网关的访问控制能力，用户可以为不同的应用分配各自专有的密钥，并将限流能力附加到这些专有密钥上，通过 Kong AI 网关提供的可观测能力，企业就可以更好的了解到不同的应用对于 LLM token 的消耗情况，当然可观测性也不仅仅是针对 LLM 而言的，对于一般的 API 请求， Kong 同样也提供了完备的可观测能力，让企业可以对这些 API 的调用情况有非常直观的了解，进而进行相对应的控制和处理。

InfoQ: Kong 如何帮助企业优化 LLM API 的调用成本和提升性能？你认为通过网关来管理 API 调用能够为企业节省多少成本？

戴冠兰：Kong AI 网关主要通过保护企业免受密钥泄露，或者超量调用等方面来尽可能的避免企业遭受损失。并且通过提供语义化缓存和可观测性来优化成本提升性能。

此外，由于通过 Kong AI 网关屏蔽了不同 LLM provider 的差异性，使得企业在开发 LLM 应用的过程中可以节约时间提升效率，以此来帮助企业节省成本。

InfoQ: Kong 产品在支持 LLM/AI 应用方面还有哪些特别的设计或新能力？这些功能的演进逻辑是什么？

戴冠兰：我来介绍一个我们的最新功能， AutoRAG 这个功能可以减少 LLM 幻觉，并且可以提升开发者的体验。通过 Kong AI 网关的 AutoRAG ，企业客户可以直接将自己的内容信息交给 Kong AI 网关处理，以此来自动的构建一个 RAG 应用，整体流程相比于使用 Kong AI 网关之前，会简化很多，能大大提升效率。

Kong AI Gateay 功能的整体演进逻辑，一方面来自于我们的全球客户，不同行业的客户会有不同的需求，我们需要持续满足用户的需求。另一方面来自于我们强力的产品和工程团队，我们可以积极的发现和了解技术趋势，并且将其转换为真正的产品功能。

Kong 的发展和未来展望

InfoQ：Kong 从最初专注 API 网关起步，如今在 AI 工程领域有哪些新的布局和投入？

戴冠兰：Kong 自成立以来一直专注于 API 管理领域，AI 时代下，尽管和之前存在一些差异，但终究还是以 API 作为核心。随着 AI 技术的迅猛发展，我们顺势推出了 Kong AI 网关，旨在为 AI 应用提供强大的基础设施支持。

Kong AI 网关的核心优势：

多模型支持与无代码集成： Kong AI 网关支持多种大型语言模型（LLM），包括 OpenAI、Anthropic、Cohere、Mistral 和 LLaMA 等。通过无代码插件，开发者可以轻松集成这些模型，加速 AI 功能的部署。
高级提示工程与安全控制： 我们提供了丰富的插件，如 AI 提示模板、提示装饰器和提示词防火墙，帮助开发者构建更安全、可控的 AI 应用，确保提示的合规性和一致性。
精细化资源管理： 引入基于 token 的限流机制，使企业能够更精确地管理和控制 AI 请求的资源消耗，优化成本结构。
流式响应与动态路由： 支持流式数据传输，提升用户交互体验；同时，基于 URL 的动态模型选择功能，使得在不同场景下灵活调用合适的模型成为可能。
与现有工具的无缝集成： Kong AI 网关与 OpenAI SDK 完全兼容，开发者可以无需修改现有代码，直接接入多种 LLM，简化了迁移和集成过程。

通过 Kong AI 网关，我们致力于为企业提供一个稳定、高效、安全的 AI 应用基础设施，助力客户在 AI 时代实现更快的创新和增长。

InfoQ：在你看来，Kong 在未来 AI 基础设施栈中最具战略意义的产品或能力是什么？为什么？

戴冠兰：我们将与 AI 相关的核心能力高度集成在 Kong AI 网关中。无论是当前热门的 MCP 协议，还是 Google 推出的 A2A 标准，都将在这一平台上得到全面支持和体现。

很难定义哪一项能力最具战略意义，一方面是因为 AI 技术迭代极快，新标准和新需求层出不穷；另一方面，不同行业和企业的 AI 应用场景高度多样化，对能力的侧重也有所不同。

因此，与其强调某一个具体功能，我们更看重的是 Kong AI 网关提供的可扩展性、开放性与演进能力 —— 这是在一个高速演变、标准未定的领域中，真正具备长期战略价值的能力。

InfoQ：Kong 网关在中国市场的应用情况如何？有没有一些本地化调整？

戴冠兰：Kong 在中国市场的应用呈现出强劲的增长势头，尤其是在开源社区的推动下，已成为众多企业的技术基石。根据 Kong 官方数据，其全球开源社区用户超过 16 万人，覆盖 46 个国家的 80 个用户组。在中国，Kong 社区的活跃度位居全球第二，显示出其在本地开发者中的广泛认可。

Kong 与本地云服务提供商和技术合作伙伴建立了紧密的合作关系，共同推动产品在中国市场的应用和发展。针对中国市场的特殊需求，在出海和国际公司在国内落地的场景，Kong 持续优化产品功能，增强对这些场景的支持。

InfoQ：如何看待 AI 网关的未来发展，有哪些计划来增强其在 AI 时代的竞争力？

戴冠兰：AI 网关正迅速成为大模型（LLM）和生成式 AI 系统中的关键基础设施。它不仅统一了流量入口，还在安全、合规、性能和可观察性方面提供了核心能力。Kong 正在积极推动这一演进，致力于打造一个高性能、可扩展且面向未来的 AI 网关平台。

增强竞争力的计划：

持续扩展模型支持： Kong 将根据用户需求，持续增加对更多 LLM 的支持，包括最新的 Claude 3.7 等，确保平台的前瞻性和兼容性。
更多语义智能驱动的功能：在 3.8 版本中，Kong 引入了语义缓存（Semantic Caching）和语义路由（Semantic Routing）等功能。这些功能通过理解用户请求的语义含义，实现更高效的响应和更智能的模型选择，提升了 AI 应用的性能和用户体验
优化开发者体验：推出如 Insomnia AI Runner 等工具，简化 AI 应用的开发、测试和部署流程，降低技术门槛，提升开发效率。
强化生态系统建设：通过开源社区的推动和与本地合作伙伴的协作，Kong 致力于构建一个开放、协同的 AI 网关生态系统，促进技术创新和应用落地。

发布

暂无评论

创作场景

API 网关十五年演进：从微服务核心到 AI 时代的神经网络

从微服务到大模型时代网关的演进

AI 网关：大模型时代的工程化中枢

Kong 的发展和未来展望

评论

一天梳理完React所有面试考察知识点

慧销平台ThreadPoolExecutor内存泄漏分析

你是如何使用React高阶组件的？

面试官：vue2和vue3的区别有哪些？

带你实现react源码的核心功能

KCL v0.4.5 发布 - 更好的编写便利性改进，稳定性，体验提升与多平台支持

Panda Farm：首个部署在 Arbitrum 上的轻量化 GameFi 游戏

为什么需要redolog与undolog

百度前端一面高频vue面试题汇总

说说你对Vue的keep-alive的理解

架构实战营-模块1作业

一百行代码实现简易版 ChatGPT | 社区征文

2022新消费趋势洞察—中国独角兽的诞生、成长与发展

Go 语言推荐书籍（2023）

一道React面试题把我整懵了

字节前端一面经典react面试题及答案

我如何看待爆火的 ChatGPT？| 社区征文

Tuxera Ntfs2023永久电脑版下载

inline函数的基本应用讨论

C++中的显式类型转换操作符总结

手写一个Redux,深入理解其原理-面试进阶

京东前端二面高频手写面试题（持续更新中）

自媒体行业苦流量久矣，行业迫切需要整顿

5G商业价值谜题：MWC 2023向世界揭开确定性答案

前端react面试题（边面边更）

阿里前端二面react面试题

从零开始实现一个Promise

2023前端二面必会react面试题合集

2023前端vue面试题及答案

滴滴前端一面高频手写面试题汇总

从零到一手写迷你版Vue

创作场景

API 网关十五年演进：从微服务核心到 AI 时代的神经网络

从微服务到大模型时代网关的演进

AI 网关：大模型时代的工程化中枢

Kong 的发展和未来展望

评论

推荐阅读

电子书

大厂实战PPT下载