狂烧 Token 却赚不到钱？这家清华系 AI Infra 独角兽已破解算力成本难题

过去两年，中国 AI 产业的增长速度几乎超出了所有人的预期。

近日，在清程极智一次媒体沟通会上，团队披露了一组数据：2024 年初，中国市场每天产生的大模型 Token 调用量约为 0.1 万亿；到 2026 年 3 月，这一数字已经增长至约 140 万亿，增幅约 1400 倍。同期全球 Token 调用量增长约 300 倍。

140 万亿 Token 之后，中国 AI 开始“卷”成本了

如果说上一阶段中国 AI 产业的关键词是模型、榜单、开源和 Agent，那么进入规模化应用阶段后，新的关键词正在变成成本、延迟、稳定性和调度。

这背后有一个很现实的变化：企业真正购买的并不是抽象的“大模型能力”，而是可持续调用的 Token 服务。

当用户只是和模型闲聊时，Token 成本还不是最敏感的问题。

但如果 AI 正式进入到客服、编程、办公自动化、数据分析、内容生产、企业知识库和 Agent 系统里，一次用户请求往往不再对应一次模型调用。Agent 需要拆解任务、规划步骤、检索信息、调用工具、验证结果，最终完成一次完整操作。这意味着一个看似简单的业务请求，背后可能触发几十次甚至上百次模型调用。

Token 的属性发生改变，从技术统计指标，变成了支撑业务落地的生产资源。

问题也随之暴露出来：当 Token 调用量开始以万亿级别增长时，企业很快发现，真正影响 AI 应用落地的瓶颈，已经不只是模型本身，而是模型如何被运行、如何被调度、如何被稳定且低成本地交付出来。

这正是清程极智始终在做的事情。

这家成立于 2023 年底的 AI Infra 公司，核心团队来自清华大学计算机系高性能计算研究所。在超算、智算、国产算力的大规模优化方向，深耕了很多年。团队里不少成员来自赫赫有名的清华超算队。

虽然成立时间并不长，但清程极智融资推进的速度是很快的。

根据公开信息和公司披露，清程极智从成立至今已完成天使轮、Pre-A、Pre-A+ 等多轮融资，投资方包括中科创星、中金资本、考拉基金、联想创投、北京市人工智能产业基金、上海国资等市场化机构和国资平台。

资本对这类公司的关注，反映出 AI 产业的投资逻辑正在变化。

在大模型热潮早期，资本更关注基础模型公司和应用入口。但当开源模型快速普及、模型调用需求持续增长之后，系统软件、推理优化、算力调度和服务路由开始成为更具体的基础设施赛道。

原因并不复杂。

模型能力决定 AI 应用的上限，但系统软件决定 AI 应用能否在真实环境中长期运行。

尤其在中国市场，国产模型和国产算力同时发展，但二者之间仍存在明显工程鸿沟。模型要在国产芯片上高效运行，需要推理引擎；企业要降低 Token 成本，需要缓存优化和服务路由；智算中心要提升资源利用率，需要调度和系统软件；开发者要同时调用多个模型，需要统一接口和实时评测。

面对错综复杂的各方需求，清程极智选择做一个更底层的东西：围绕大模型训练、推理和 API 服务调度，构建系统软件能力。

其目前核心产品包括面向训练与应用环节的“八卦炉”、面向推理部署的“赤兔推理引擎”，以及面向 Token 服务评测与智能路由的 AI Ping。

放在同一条产业链中看，这三款产品并不是彼此割裂的工具，他们分别对应了 Token 流转过程中的三个关键环节：“八卦炉”解决模型训练和应用阶段的效率问题，“赤兔”解决模型在国产算力上推理生成 Token 的成本和性能问题，AI Ping 则进一步进入服务调用层，解决个人开发者和企业在多模型、多服务商环境下如何省心选择和有效获得稳定、高性能、低成本的 token

清程极智的故事，本质上也是中国 AI 产业重心迁移的一个缩影：从“谁拥有更强模型”，转向“谁能更高效、更稳定、更低成本地运行模型”。

Token 市场正在变成一个“黑盒”

过去几年，大模型产业的讨论主要围绕模型能力展开。

行业关注 GPT、Claude、Gemini、DeepSeek、GLM、Kimi 等模型的能力迭代，比较参数规模、推理能力、上下文长度和榜单成绩。但对越来越多企业来说，模型名称只是第一层信息，真正决定使用体验和最终成本的，是模型背后的推理系统。

在清程极智联合创始人师天麾看来，当前 Token 服务市场很大程度上仍然是一个“黑盒”：用户知道自己购买的是某个模型，却不知道模型具体如何部署；知道厂商报价，却很难准确判断综合成本；知道服务商承诺可用率，却无法预估真实响应体验。

这种黑盒状态在调用规模较小时影响有限，但当企业进入大规模生产环境后，差异会迅速放大。

一个典型例子是模型量化。

师天麾在沟通会上提到，一些服务商为了降低部署成本，可能会对模型进行进一步量化。用户购买的仍然是同一个模型，模型名称、参数规模和价格体系看起来都没有变化，但模型内部的实际运行方式可能已经发生改变。例如，原本以 FP8 精度运行的模型，被压缩为 INT4 精度部署。

这类操作可以降低显存占用和硬件成本，但却影响了模型输出质量。对用户来说，表面上调用的仍然是“同一个模型”，实际得到的却可能是完全不一样的模型能力结果。

这也是为什么同样是 DeepSeek，不同平台上的体验可能并不一致。问题未必出在模型本身，而在于推理引擎、量化方案、缓存策略、并发调度和服务商工程能力。

换句话说，模型只是第一层，推理基础设施才是决定 Token 服务质量的关键层。

被忽视的推理层，正在决定企业 AI 成本

在清程极智团队看来，当前 Token 服务市场的主要问题，集中体现在三个方面：缓存利用率差异、慢响应问题，以及工程化标准不足。

其中，缓存利用率直接影响成本。

在 Agent、编程助手、企业知识库等场景中，用户请求往往包含大量重复上下文。通过 KV Cache 等缓存机制复用历史计算结果，可以显著降低重复计算，降低响应延迟，并压缩调用成本。但不同服务商在缓存优化上的能力差距很大。

据清程极智团队观察，头部平台的缓存命中率可以达到较高水平，而不少中小平台几乎没有有效缓存优化。结果是，即便市场上标称的 Token 单价相近，企业最终承担的综合成本仍可能相差数倍。

比成本更影响生产落地的，是“慢响应”。

传统意义上的可用率通常关注服务是否宕机。很多服务商会标注 99.9% 可用率，但这并不等于用户获得了稳定可用的 AI 服务。一个请求原本应该在几秒内返回，如果实际等待几十秒甚至数分钟，即便最终返回成功，也很难满足生产环境要求。

对客服、代码生成、数据分析、交易辅助等实时性较强的场景来说，慢响应本身就是不可用。只是按照传统可用率口径，这类问题往往不会被充分暴露。

此外，模型 API 接口不统一、返回格式不标准、服务商之间兼容性差，也进一步增加了企业接入难度。企业要同时调用多个模型服务，往往需要逐一适配接口、监控质量、管理价格变化和故障切换。这些看似琐碎的工程问题，累积起来就会变成规模化落地的成本障碍。

因此，Token 服务的竞争已经从模型能力竞争，走向了云计算时代的基础设施竞争，那市场自然会认为：谁能提供更稳定、更低延迟、更高吞吐、更可观测的服务，谁才能支撑企业级应用长期运行。

国产算力真正缺的不只是芯片，还有系统软件

要解决推理基础设施问题，推理引擎是绕不开的一层。

清程极智推出的赤兔推理引擎，正是围绕这一问题而构建，所以清程团队给它的定位是大模型运行时的系统软件。

开源模型发布出来，本质上是一组参数集合。真正让模型完成推理、生成回答的，是推理引擎。它负责硬件调度、计算流程组织、缓存管理、显存分配、并发控制和请求调度，最终决定同样一组硬件到底能释放出多少性能。

在国产算力环境中，这一层尤其关键。

目前主流大模型训练和推理越来越多依赖 FP4、FP8 等低位宽计算格式。这些格式能够降低显存占用、提升计算效率，是大模型降本的重要路径。但问题在于，许多国产芯片并不原生支持 FP4、FP8。

那怎么办呢？

行业通常有两类替代方案：一种是使用 BF16 进行计算，这样可以保持较好的精度，但显存占用和计算成本会明显增加，导致部署所需硬件规模上升；另一种是使用 INT8 等整数格式替代，这样可以压缩资源消耗，但可能带来模型精度损失，影响输出质量。

赤兔选择的是第三条路径：通过软件层实现 FP4、FP8 低位宽计算能力的映射，让不原生支持这些格式的国产芯片，也能更高效地运行主流大模型。

据清程极智团队介绍，在部署 DeepSeek-V3 满血版模型时，传统方案需要 4 台 8 卡服务器才能完成的任务，经过赤兔引擎优化后，可在 1 台服务器上完成部署。这个结果的关键并不是硬件升级，而是软件层对计算格式、显存使用和推理流程的重构。

而在部署 DeepSeek-V4 满血版模型时，尽管 INT8 和 FP4 都能实现单机部署，但 FP4 是原生精度，采用 INT8 则无法获得完整的模型能力。

这也是清程极智反复强调“系统软件”的原因。

外界讨论国产算力时，往往首先关注芯片性能。

但在真实部署中，芯片只是基础，模型能否真正跑出效率，还取决于推理引擎。如果这些中间层不成熟，即便拥有硬件，也很难释放全部性能。

为什么赤兔要从零开始自研？

“目前全球主流推理引擎足够满足使用需求吗？”

为什么清程团队还要大费周章从第一行代码开始写赤兔引擎呢？

据介绍，如今市面上的大多推理引擎都是基于 vLLM、SGLang 等开源框架发展而来，国内不少方案也选择在这些框架基础上适配国产芯片。

但清程极智选择了更重的路线：100%自研。

这个选择背后，是团队对国产算力生态的判断。

清程极智团队认为，英伟达 GPU 生态和国产芯片生态并不是简单的兼容关系。许多现有推理框架从设计之初就围绕 CUDA、英伟达硬件特性和对应软件栈展开。如果只是在现有框架上不断打补丁，确实可以实现“能跑”，但很难真正发挥国产硬件的结构特点。

清程极智联合创始人唐适之在沟通会上用了两个比喻解释这一逻辑。

唐适之将其形容为“烤面包”和“蒸馒头”的区别：如果一套系统原本是为烤面包设计的，把它直接搬来蒸馒头，最终得到的可能只是“面包化的馒头”，并不能真正适配新的工艺。

这个比喻背后的技术含义是：推理引擎不能只做接口适配，而要根据硬件架构、内存层级、通信方式、算子特性和调度模式进行重新设计。否则，国产算力很容易停留在“可用但不好用”的阶段。

从这一点看，赤兔承担的是国产算力与大模型之间的重要桥梁。

“八卦炉”训练侧能力是清程极智的起点

虽然近期外界更关注赤兔和 AI Ping，但从公司发展脉络看，清程极智并不是从推理引擎突然切入 AI Infra。其早期能力首先体现在大模型训练和微调环节，这对应的是八卦炉智能软件栈。

大模型训练和微调是典型的高性能计算问题，涉及并行策略、通信优化、显存管理、任务调度、算子加速和集群稳定性。尤其在国产智算集群中，不同芯片架构、不同通信链路、不同软件栈之间的差异，会显著影响训练效率。

八卦炉聚焦的正是这一问题：如何让大模型在复杂算力环境中更高效地完成训练、微调和部署。

从产品链路看，八卦炉更靠近模型生产环节，赤兔更靠近 Token 生产环节。前者解决模型如何训练和调优，后者解决模型如何在生产环境中低成本、高吞吐、低延迟地生产 Token。

这条路线也与清程极智团队背景一致。

清程极智核心团队来自清华大学高性能计算研究所。

团队长期在性能评测、国产芯片适配、算力并行优化、底层编译加速和系统软件方向积累技术。高性能计算关注的吞吐优化、延迟控制、资源调度和利用率提升，恰好对应了大模型推理时代的关键问题。

训练时代，行业更关注单卡性能和集群规模；推理时代，行业更关注单位 Token 成本、并发能力、服务延迟和资源利用率。这使得超算和系统软件团队的能力，在大模型落地阶段变得更为重要。

AI Ping：让 Token 服务像云资源一样被动态调度

如果说八卦炉和赤兔解决的是模型训练与推理部署问题，那么 AI Ping 进一步进入了模型服务市场本身。

随着开源模型普及和 Token 服务商增多，企业面临的选择不再是“要不要用大模型”，而是“在什么时候、以什么价格、调用哪个模型、选择哪家服务商”。

这个市场正在变得复杂。

同一个模型可能由不同服务商提供；不同服务商在不同地区、不同时间段的延迟和稳定性不同；同一服务的缓存策略、并发能力和失败率也可能持续波动。企业如果依靠人工对比价格表，很难做出实时最优选择。

AI Ping 的逻辑类似导航系统。

导航软件不会只告诉用户哪条路理论上最近，而是根据实时路况、拥堵程度、行驶时间和用户偏好动态规划路线。AI Ping 试图在 Token 服务市场做类似的事情：持续监测不同模型接口的延迟、吞吐、稳定性、缓存表现和故障概率，并在此基础上为企业提供智能路由。

据清程极智团队介绍，AI Ping 通过全国多节点对数百个模型接口进行 7×24 小时监测，建立实时更新的服务质量数据库。企业用户可以根据业务目标设定路由策略，例如优先最低成本、优先最低延迟，或优先最高吞吐。系统再根据实时服务质量，自动选择当前最合适的模型接口和服务商。

团队披露的实测数据显示，智能路由可以帮助企业实现 AI 调用成本下降超过 37%、服务吞吐提升超过 90%、响应延迟下降约 20%。

对于高度依赖 Agent 多轮调用的应用来说，这些指标会直接影响业务成本和用户体验。一个 Agent 系统如果每天产生大量模型调用，哪怕单次调用成本下降几个百分点，累计到大规模流量上也会形成显著差异。

AI Ping 的出现，也说明清程极智的产品边界正在从“Token 生产”延伸到“一站式的 token 服务”。

这与云计算时代的发展有相似之处：早期企业关注单台服务器性能，后来关注资源池化、弹性调度和服务质量监控。

大模型 Token 服务市场今天也在经历类似过程。

AI 产业下半场，开始卷系统软件

回看过去三年，中国 AI 产业最受关注的始终是模型。

谁发布了更强模型，谁登上了基准榜单，谁开放了更大的上下文，谁支持了更复杂的推理能力，这些都是行业关注焦点。但随着 DeepSeek、GLM 等开源模型持续降低使用门槛，模型能力能够在更大规模生产场景中得到应用，企业落地中的关键矛盾也开始转向模型之外。

未来行业竞争，将愈发聚焦于依托推理引擎、调度能力、智能路由等技术整合而成的 Token 综合服务能力。

它们不像模型发布那样容易被用户感知，却会决定 AI 应用的真实成本和体验。

当中国市场每天流动的 Token 达到 140 万亿级别时，哪怕单位成本、延迟和缓存效率出现很小差异，都会在产业规模上被迅速放大。也正因为如此，Token 服务正在变得越来越像云计算资源：需要可观测、可度量、可调度，也需要更成熟的基础设施层来承接。

清程极智的产品路径，正好沿着这一变化展开。

八卦炉对应训练和微调阶段的效率优化，赤兔对应国产算力上的推理部署，AI Ping 对应 Token 服务市场的实时评测与调度。三者共同构成了一条从 Token 生产、Token 生成到 Token 流通的基础设施链路。

这也是清程极智值得关注的原因。

它真正的价值是他们正试图回答一个更底层的问题：当模型越来越多、算力越来越复杂、Token 调用量越来越大之后，中国 AI 产业如何把模型稳定、低成本、高效率地运行起来。

过去，AI 产业争夺的是模型能力。

现在，系统软件战争正在开始。

创作场景