2026 年 3 月 18 日,Akamai 宣布在人工智能演进过程中达成的一个重要里程碑:发布首个全球规模的 NVIDIA® AI Grid 参考设计实施方案 。通过将 NVIDIA AI 基础设施集成到 Akamai 的架构中,并利用网络层面的智能工作负载编排,Akamai 旨在推动行业从孤立的 AI 工厂迈向统一、分布式的 AI 推理网格 。
此举标志着去年底推出的Akamai Inference Cloud 在演进中迈出重要一步。作为首家实现 AI 网格运营化的公司,Akamai 正部署数千个基于NVIDIA RTX PRO 6000 Blackwell服务器版GPU的平台,为企业提供能够运行智能体和物理 AI 的解决方案,同时兼具本地计算的响应速度和全球网络的规模优势。
“AI 工厂是为训练和前沿模型工作负载而构建的,中心化基础设施将继续为这些场景提供最佳的‘Token 经济’ (tokenomics),”Akamai 云技术事业部首席运营官兼总经理 Adam Karon 表示 。“但实时视频、物理 AI 和高并发个性化体验要求推理需要在接触点进行,而不是往返中心化集群。我们的 AI Grid 智能编排为 AI 工厂提供了一种向外扩展推理的方式——利用革新了内容分发的分布式架构,在 4400 个站点以合适的成本和时间路由 AI 工作负载”。
“Token 经济”的架构
AI Grid 的核心是一个智能编排器,充当 AI 请求的实时代理 。通过将 Akamai 在应用性能优化方面的专业知识应用于 AI,这个具备工作负载感知能力的控制平面可以通过显著改善每个 Token 的成本、首个 Token 时间和吞吐量来优化“Token 经济”。
Akamai 的主要优势在于,客户可以通过其庞大的全球边缘节点网络,访问经过微调或稀疏化的模型,这为长尾 AI 工作负载提供了巨大的成本和性能优势 。例如:
规模化成本效率:企业可以通过自动将工作负载与合适的计算层匹配,大幅降低推理成本。编排器应用语义缓存和智能路由技术,将请求导向规模合适的资源,为高端任务保留优质 GPU 周期 。Akamai Cloud 基于开源架构,提供慷慨的出站流量额度,以支持大规模数据密集型 AI 操作。
实时响应能力:游戏工作室可以提供毫秒级延迟的 AI 驱动型 NPC 交互,维持玩家沉浸感 。金融机构可以在登录到首屏之间的瞬间,执行个性化欺诈检测和营销推荐 。广播公司可以为全球观众实时转码和配音 。这些成果得益于 Akamai 覆盖 4,400 多个站点的分布式边缘网络,通过集成缓存、无服务器边缘计算和高性能连接,在用户接触点处理请求,绕过了中心云的往返延迟 。
核心节点的生产级 AI:大型语言模型、持续后训练和多模态推理工作负载需要专用基础设施提供的持续高密度计算。Akamai 拥有数千个基于 NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU 的集群,为最重的工作负载提供集中算力,与分布式边缘形成补充 。
基于NVIDIA AI Enterprise、Blackwell架构和NVIDIA BlueField DPU,Akamai 能够管理跨边缘和核心位置的复杂服务等级协议 :
边缘(4,400+个站点):为物理 AI 和自主智能体提供极速响应 。它利用语义缓存和 WebAssembly 等服务器端功能(Akamai Functions 和 EdgeWorkers)提供模型亲和性和稳定的性能 。
Akamai Cloud IaaS 与专用 GPU 集群:核心公有云基础设施支持大规模负载的迁移与成本节约,而 Blackwell GPU 阵列则助力繁重的后训练和多模态推理 。
NVIDIA 电信业务发展全球副总裁 Chris Penrose 表示:“新型 AI 原生应用要求在全球范围内实现可预测的延迟和更高的成本效率 。通过将 NVIDIA AI Grid 投入运营,Akamai 正在构建生成式、代理式和物理 AI 的连接纽带,将智能直接带到数据所在地,开启下一波实时应用潮”。
第一波 AI 基础设施由少数几个中心化地点的海量 GPU 集群定义,旨在优化训练 。但随着推理成为主导负载,且企业专注于构建 AI 代理,中心化模型面临着与早期互联网基础设施在媒体交付、在线游戏和金融交易中遇到的相同的扩展约束 。
Akamai 正通过相同的基本方法解决这些挑战:分布式网络、智能编排和专用系统,使内容和上下文尽可能靠近数字触点。其结果是改善了用户体验并增强了投资回报率。Akamai Inference Cloud 将这一成熟架构应用于 AI 工厂,通过将高密度计算从核心分发到边缘,开启下一波增长。





