国内首个国产AI推理千卡集群落地梁文锋家乡，采用云天励飞全自研AI推理芯片

3 月 12 日，云天励飞中标湛江市 AI 渗透支撑新质生产力基础设施建设项目，中标金额 4.2 亿元。项目将基于云天励飞自研的国产 AI 推理加速卡，建设国产 AI 推理千卡集群。

该集群将搭载 DeepSeek 等国产大模型，为政务、产业及各类应用场景提供更加便捷、低成本的 AI 能力，探索打造“国模国芯”的 AI 生态样板。

AI 算力从“训练优先”走向“推理优先”

智算集群是人工智能时代的基础设施。如果说电力支撑了工业时代，互联网支撑了信息时代，那么智算正在成为支撑 AI 时代的重要底座。

在 AI 算力体系中，算力大体可以分为训练算力与推理算力。训练算力决定模型如何完成“从 0 到 1”的能力构建，而推理算力则直接支撑 AI 应用落地。无论是春节期间大热的 Seedance，近期广泛讨论的“小龙虾”，还是各行业不断上线的 AI Agent 应用，背后都离不开推理算力的支撑。

Gartner 预测，到 2026 年，终端用户在推理方面的支出将超过训练密集型工作负载。预计用于推理应用的支出将从 2025 年的 92 亿美元增至 206 亿美元。约 55%的 AI 专用云基础设施支出将用于推理工作负载。

过去，国内许多智算中心普遍采用“训推一体”的建设模式。而此次在湛江建设的集群，则定位为专注推理任务的 AI 推理集群，主要面向各类行业应用场景，为传统产业的 AI 化提供直接支撑。

湛江也是国产大模型 DeepSeek 创始人梁文峰的家乡。近年来，当地在“DeepSeek+”应用探索方面动作频频。2025 年初，DeepSeek-R1 发布后，湛江即完成本地部署——基于国产技术栈的 DeepSeek-R1 大模型率先在湛江政务云上线。该模型在处理通用政务事务的同时，还能够持续学习本地产业知识与方言表达，逐渐形成具有地方特色的“湛江智慧”。

此次云天励飞建设的 AI 推理集群，也将与 DeepSeek 等国产模型进行深度适配，为更多行业应用提供算力支撑。

面向推理时代的千卡集群架构

在大模型应用场景中，推理系统通常需要同时满足高并发、高吞吐与低延迟三项要求。为提升整体效率，当前业界普遍采用“Prefill–Decode 分离”的推理架构，通过对不同阶段进行资源优化，实现系统性能的整体提升。

其中，Prefill 阶段主要负责对长上下文进行理解和计算，计算量大、带宽需求高；而 Decode 阶段则负责持续生成 Token，对系统延迟更加敏感。如何在两个阶段之间进行合理的资源配置，成为推理系统架构设计的重要问题。

与此同时，随着大模型上下文长度不断增加，大量中间状态需要以 KV Cache 的形式存储。业内普遍认为，未来推理系统的性能瓶颈将越来越多来自数据访问效率，而不仅仅是计算能力。

在这一背景下，算力、存储与网络之间的协同设计，正逐渐成为 AI 基础设施的重要竞争力。

此次在湛江落地的千卡推理集群，正是围绕这一思路进行构建。

该集群采用云天励飞自主研发的 AI 推理芯片，并在系统架构上确立了“优先优化 Prefill、兼顾 Decode”的技术路线。通过在芯片设计中对计算资源与存储带宽进行针对性配置，使系统在长上下文推理场景下依然能够保持较高的吞吐效率。

在网络互联方面，系统采用统一高速互联架构，通过 400G 光网络构建集群物理层网络，实现节点之间的高带宽、低延迟通信。与传统在节点内和节点间分别采用不同协议构建网络的方式相比，这种同构互联架构减少了协议转换带来的额外开销，也简化了系统部署。

在部署能力上，该架构既可以支持单节点数十卡规模扩展，也能够平滑扩展至千卡级集群规模，从而适配不同规模的 AI 应用需求。

此外，针对大模型推理中 KV Cache 访问带来的压力，系统在计算互联与存储互联层面进行了协同优化。通过计算网络与存储网络的联合调度，可以显著提升数据读取效率，使模型在长上下文推理场景下依然保持稳定性能。

通过芯片架构、网络互联以及系统调度等多层优化，这一推理集群在整体效率与成本控制方面形成了明显优势，为 AI 规模化应用提供了更加经济的算力方案。

自研芯片构建低成本推理能力

据悉，本次 AI 推理集群将分三期建设，并全部采用云天励飞自研的国产 AI 推理加速卡。

其中，一期项目将部署云天励飞 X6000 推理加速卡；二、三期建设将率先搭载公司最新一代芯片产品。

根据公司规划，未来三年云天励飞将推出三代 AI 推理芯片产品。

第一阶段，将推出面向长上下文场景优化的 Prefill 芯片，通过提升计算效率与内存访问能力，为 OpenClaw、各类 AI Agent 提供基础算力支撑。

第二阶段，将研发专注于 Decode 阶段低延迟优化的芯片产品，进一步提升实时推理能力。

第三阶段，则通过系统级协同优化，实现 Prefill 与 Decode 性能的整体提升，向毫秒级推理时延目标迈进。

其中，首款 Prefill 芯片 DeepVerse100 预计将在年内完成流片，并计划在湛江集群中率先部署。

在更长期的规划中，云天励飞提出“1001 计划”，即以“百亿 Token 一分钱”为长期目标，通过芯片与系统协同优化持续降低大模型推理成本。

过去几年，AI 算力建设往往以“堆算力”为主要路径——通过不断扩大 GPU 规模来获得更高性能。但随着大模型逐渐进入应用阶段，产业关注点正从“算力峰值”转向“单位成本效率”。

换句话说，未来 AI 产业竞争的重要维度，不仅在于模型能力本身，还在于谁能够以更低成本提供稳定的大规模推理能力。

湛江项目的落地，也为这一目标提供了重要的实践场景。千卡级推理集群不仅能够满足当前 AI 应用需求，同时也为更大规模算力系统提供技术部署平台。

在典型架构下，一个千卡级集群通常由多级扩展结构组成：从单节点 8 卡、32 卡，到 64 卡甚至百卡级超节点，再到跨节点的大规模集群。通过这一规模系统的实际运行，可以充分验证卡间互联、节点通信和负载均衡等关键技术，为未来更大规模 AI 算力系统建设积累经验。

随着大模型逐步进入产业应用阶段，AI 基础设施的发展逻辑也正在发生变化——从单纯追求算力规模，转向更加注重效率与成本。

在业内看来，推理算力将成为决定 AI 应用规模化落地的关键基础设施。谁能够以更高效率、更低成本提供稳定的大规模推理能力，谁就有机会在新一轮人工智能产业竞争中占据先机。

此次湛江 AI 推理千卡集群的建设，不仅为当地产业数字化转型提供了重要算力底座，也为国产模型与国产芯片协同发展提供了实践场景。在“国模”与“国芯”的深度协同下，AI 基础设施正逐步从技术探索走向规模化应用，为人工智能产业的下一阶段发展打开新的空间。

创作场景

国内首个国产 AI 推理千卡集群落地梁文锋家乡，采用云天励飞全自研 AI 推理芯片

AI 算力从“训练优先”走向“推理优先”

面向推理时代的千卡集群架构

自研芯片构建低成本推理能力