写点什么

狂烧 Token 却赚不到钱?这家清华系 AI Infra 独角兽已破解算力成本难题

  • 2026-06-25
    北京
  • 本文字数:5967 字

    阅读完需:约 20 分钟

过去两年,中国 AI 产业的增长速度几乎超出了所有人的预期。

 

近日,在清程极智一次媒体沟通会上,团队披露了一组数据:2024 年初,中国市场每天产生的大模型 Token 调用量约为 0.1 万亿;到 2026 年 3 月,这一数字已经增长至约 140 万亿,增幅约 1400 倍。同期全球 Token 调用量增长约 300 倍。

 

140 万亿 Token 之后,中国 AI 开始“卷”成本了

 

如果说上一阶段中国 AI 产业的关键词是模型、榜单、开源和 Agent,那么进入规模化应用阶段后,新的关键词正在变成成本、延迟、稳定性和调度。

 

这背后有一个很现实的变化:企业真正购买的并不是抽象的“大模型能力”,而是可持续调用的 Token 服务。

 

当用户只是和模型闲聊时,Token 成本还不是最敏感的问题。

 

但如果 AI 正式进入到客服、编程、办公自动化、数据分析、内容生产、企业知识库和 Agent 系统里,一次用户请求往往不再对应一次模型调用。Agent 需要拆解任务、规划步骤、检索信息、调用工具、验证结果,最终完成一次完整操作。这意味着一个看似简单的业务请求,背后可能触发几十次甚至上百次模型调用。

 

Token 的属性发生改变,从技术统计指标,变成了支撑业务落地的生产资源。

 

问题也随之暴露出来:当 Token 调用量开始以万亿级别增长时,企业很快发现,真正影响 AI 应用落地的瓶颈,已经不只是模型本身,而是模型如何被运行、如何被调度、如何被稳定且低成本地交付出来。

 

这正是清程极智始终在做的事情。

 

这家成立于 2023 年底的 AI Infra 公司,核心团队来自清华大学计算机系高性能计算研究所。在超算、智算、国产算力的大规模优化方向,深耕了很多年。团队里不少成员来自赫赫有名的清华超算队。

 

虽然成立时间并不长,但清程极智融资推进的速度是很快的。

 

根据公开信息和公司披露,清程极智从成立至今已完成天使轮、Pre-A、Pre-A+ 等多轮融资,投资方包括中科创星、中金资本、考拉基金、联想创投、北京市人工智能产业基金、上海国资等市场化机构和国资平台。

 

资本对这类公司的关注,反映出 AI 产业的投资逻辑正在变化。

 

在大模型热潮早期,资本更关注基础模型公司和应用入口。但当开源模型快速普及、模型调用需求持续增长之后,系统软件、推理优化、算力调度和服务路由开始成为更具体的基础设施赛道。

 

原因并不复杂。

 

模型能力决定 AI 应用的上限,但系统软件决定 AI 应用能否在真实环境中长期运行。

 

尤其在中国市场,国产模型和国产算力同时发展,但二者之间仍存在明显工程鸿沟。模型要在国产芯片上高效运行,需要推理引擎;企业要降低 Token 成本,需要缓存优化和服务路由;智算中心要提升资源利用率,需要调度和系统软件;开发者要同时调用多个模型,需要统一接口和实时评测。

 

面对错综复杂的各方需求,清程极智选择做一个更底层的东西:围绕大模型训练、推理和 API 服务调度,构建系统软件能力。

 

其目前核心产品包括面向训练与应用环节的“八卦炉”、面向推理部署的“赤兔推理引擎”,以及面向 Token 服务评测与智能路由的 AI Ping。

 

放在同一条产业链中看,这三款产品并不是彼此割裂的工具,他们分别对应了 Token 流转过程中的三个关键环节:“八卦炉”解决模型训练和应用阶段的效率问题,“赤兔”解决模型在国产算力上推理生成 Token 的成本和性能问题,AI Ping 则进一步进入服务调用层,解决个人开发者和企业在多模型、多服务商环境下如何省心选择和有效获得稳定、高性能、低成本的 token

 

清程极智的故事,本质上也是中国 AI 产业重心迁移的一个缩影:从“谁拥有更强模型”,转向“谁能更高效、更稳定、更低成本地运行模型”。

Token 市场正在变成一个“黑盒”

 

过去几年,大模型产业的讨论主要围绕模型能力展开。

 

行业关注 GPT、Claude、Gemini、DeepSeek、GLM、Kimi 等模型的能力迭代,比较参数规模、推理能力、上下文长度和榜单成绩。但对越来越多企业来说,模型名称只是第一层信息,真正决定使用体验和最终成本的,是模型背后的推理系统。

 

在清程极智联合创始人师天麾看来,当前 Token 服务市场很大程度上仍然是一个“黑盒”:用户知道自己购买的是某个模型,却不知道模型具体如何部署;知道厂商报价,却很难准确判断综合成本;知道服务商承诺可用率,却无法预估真实响应体验。

 

这种黑盒状态在调用规模较小时影响有限,但当企业进入大规模生产环境后,差异会迅速放大。

一个典型例子是模型量化。

 

师天麾在沟通会上提到,一些服务商为了降低部署成本,可能会对模型进行进一步量化。用户购买的仍然是同一个模型,模型名称、参数规模和价格体系看起来都没有变化,但模型内部的实际运行方式可能已经发生改变。例如,原本以 FP8 精度运行的模型,被压缩为 INT4 精度部署。

 

这类操作可以降低显存占用和硬件成本,但却影响了模型输出质量。对用户来说,表面上调用的仍然是“同一个模型”,实际得到的却可能是完全不一样的模型能力结果。

 

这也是为什么同样是 DeepSeek,不同平台上的体验可能并不一致。问题未必出在模型本身,而在于推理引擎、量化方案、缓存策略、并发调度和服务商工程能力。

 

换句话说,模型只是第一层,推理基础设施才是决定 Token 服务质量的关键层。

被忽视的推理层,正在决定企业 AI 成本

 

在清程极智团队看来,当前 Token 服务市场的主要问题,集中体现在三个方面:缓存利用率差异、慢响应问题,以及工程化标准不足。

 

其中,缓存利用率直接影响成本。

 

在 Agent、编程助手、企业知识库等场景中,用户请求往往包含大量重复上下文。通过 KV Cache 等缓存机制复用历史计算结果,可以显著降低重复计算,降低响应延迟,并压缩调用成本。但不同服务商在缓存优化上的能力差距很大。

 

据清程极智团队观察,头部平台的缓存命中率可以达到较高水平,而不少中小平台几乎没有有效缓存优化。结果是,即便市场上标称的 Token 单价相近,企业最终承担的综合成本仍可能相差数倍。

 

比成本更影响生产落地的,是“慢响应”。

 

传统意义上的可用率通常关注服务是否宕机。很多服务商会标注 99.9% 可用率,但这并不等于用户获得了稳定可用的 AI 服务。一个请求原本应该在几秒内返回,如果实际等待几十秒甚至数分钟,即便最终返回成功,也很难满足生产环境要求。

 

对客服、代码生成、数据分析、交易辅助等实时性较强的场景来说,慢响应本身就是不可用。只是按照传统可用率口径,这类问题往往不会被充分暴露。

 

此外,模型 API 接口不统一、返回格式不标准、服务商之间兼容性差,也进一步增加了企业接入难度。企业要同时调用多个模型服务,往往需要逐一适配接口、监控质量、管理价格变化和故障切换。这些看似琐碎的工程问题,累积起来就会变成规模化落地的成本障碍。

 

因此,Token 服务的竞争已经从模型能力竞争,走向了云计算时代的基础设施竞争,那市场自然会认为:谁能提供更稳定、更低延迟、更高吞吐、更可观测的服务,谁才能支撑企业级应用长期运行。

国产算力真正缺的不只是芯片,还有系统软件

要解决推理基础设施问题,推理引擎是绕不开的一层。

 

清程极智推出的赤兔推理引擎,正是围绕这一问题而构建,所以清程团队给它的定位是大模型运行时的系统软件。

 

开源模型发布出来,本质上是一组参数集合。真正让模型完成推理、生成回答的,是推理引擎。它负责硬件调度、计算流程组织、缓存管理、显存分配、并发控制和请求调度,最终决定同样一组硬件到底能释放出多少性能。

 

在国产算力环境中,这一层尤其关键。

 

目前主流大模型训练和推理越来越多依赖 FP4、FP8 等低位宽计算格式。这些格式能够降低显存占用、提升计算效率,是大模型降本的重要路径。但问题在于,许多国产芯片并不原生支持 FP4、FP8。

 

那怎么办呢?

 

行业通常有两类替代方案:一种是使用 BF16 进行计算,这样可以保持较好的精度,但显存占用和计算成本会明显增加,导致部署所需硬件规模上升;另一种是使用 INT8 等整数格式替代,这样可以压缩资源消耗,但可能带来模型精度损失,影响输出质量。

 

赤兔选择的是第三条路径:通过软件层实现 FP4、FP8 低位宽计算能力的映射,让不原生支持这些格式的国产芯片,也能更高效地运行主流大模型。

 

据清程极智团队介绍,在部署 DeepSeek-V3 满血版模型时,传统方案需要 4 台 8 卡服务器才能完成的任务,经过赤兔引擎优化后,可在 1 台服务器上完成部署。这个结果的关键并不是硬件升级,而是软件层对计算格式、显存使用和推理流程的重构。

 

而在部署 DeepSeek-V4 满血版模型时,尽管 INT8 和 FP4 都能实现单机部署,但 FP4 是原生精度,采用 INT8 则无法获得完整的模型能力。

 

这也是清程极智反复强调“系统软件”的原因。

 

外界讨论国产算力时,往往首先关注芯片性能。

 

但在真实部署中,芯片只是基础,模型能否真正跑出效率,还取决于推理引擎。如果这些中间层不成熟,即便拥有硬件,也很难释放全部性能。

为什么赤兔要从零开始自研?

 

“目前全球主流推理引擎足够满足使用需求吗?”

为什么清程团队还要大费周章从第一行代码开始写赤兔引擎呢?

 

据介绍,如今市面上的大多推理引擎都是基于 vLLM、SGLang 等开源框架发展而来,国内不少方案也选择在这些框架基础上适配国产芯片。

 

但清程极智选择了更重的路线:100%自研。

 

这个选择背后,是团队对国产算力生态的判断。

 

清程极智团队认为,英伟达 GPU 生态和国产芯片生态并不是简单的兼容关系。许多现有推理框架从设计之初就围绕 CUDA、英伟达硬件特性和对应软件栈展开。如果只是在现有框架上不断打补丁,确实可以实现“能跑”,但很难真正发挥国产硬件的结构特点。

 

清程极智联合创始人唐适之在沟通会上用了两个比喻解释这一逻辑。

 

唐适之将其形容为“烤面包”和“蒸馒头”的区别:如果一套系统原本是为烤面包设计的,把它直接搬来蒸馒头,最终得到的可能只是“面包化的馒头”,并不能真正适配新的工艺。

 

这个比喻背后的技术含义是:推理引擎不能只做接口适配,而要根据硬件架构、内存层级、通信方式、算子特性和调度模式进行重新设计。否则,国产算力很容易停留在“可用但不好用”的阶段。

 

从这一点看,赤兔承担的是国产算力与大模型之间的重要桥梁。

 

“八卦炉”训练侧能力是清程极智的起点

 

虽然近期外界更关注赤兔和 AI Ping,但从公司发展脉络看,清程极智并不是从推理引擎突然切入 AI Infra。其早期能力首先体现在大模型训练和微调环节,这对应的是八卦炉智能软件栈。

 

大模型训练和微调是典型的高性能计算问题,涉及并行策略、通信优化、显存管理、任务调度、算子加速和集群稳定性。尤其在国产智算集群中,不同芯片架构、不同通信链路、不同软件栈之间的差异,会显著影响训练效率。

 

八卦炉聚焦的正是这一问题:如何让大模型在复杂算力环境中更高效地完成训练、微调和部署。

从产品链路看,八卦炉更靠近模型生产环节,赤兔更靠近 Token 生产环节。前者解决模型如何训练和调优,后者解决模型如何在生产环境中低成本、高吞吐、低延迟地生产 Token。

 

这条路线也与清程极智团队背景一致。

 

清程极智核心团队来自清华大学高性能计算研究所。

 

团队长期在性能评测、国产芯片适配、算力并行优化、底层编译加速和系统软件方向积累技术。高性能计算关注的吞吐优化、延迟控制、资源调度和利用率提升,恰好对应了大模型推理时代的关键问题。

 

训练时代,行业更关注单卡性能和集群规模;推理时代,行业更关注单位 Token 成本、并发能力、服务延迟和资源利用率。这使得超算和系统软件团队的能力,在大模型落地阶段变得更为重要。

AI Ping:让 Token 服务像云资源一样被动态调度

 

如果说八卦炉和赤兔解决的是模型训练与推理部署问题,那么 AI Ping 进一步进入了模型服务市场本身。

 

随着开源模型普及和 Token 服务商增多,企业面临的选择不再是“要不要用大模型”,而是“在什么时候、以什么价格、调用哪个模型、选择哪家服务商”。

 

这个市场正在变得复杂。

 

同一个模型可能由不同服务商提供;不同服务商在不同地区、不同时间段的延迟和稳定性不同;同一服务的缓存策略、并发能力和失败率也可能持续波动。企业如果依靠人工对比价格表,很难做出实时最优选择。

 

AI Ping 的逻辑类似导航系统。

 

导航软件不会只告诉用户哪条路理论上最近,而是根据实时路况、拥堵程度、行驶时间和用户偏好动态规划路线。AI Ping 试图在 Token 服务市场做类似的事情:持续监测不同模型接口的延迟、吞吐、稳定性、缓存表现和故障概率,并在此基础上为企业提供智能路由。

 

据清程极智团队介绍,AI Ping 通过全国多节点对数百个模型接口进行 7×24 小时监测,建立实时更新的服务质量数据库。企业用户可以根据业务目标设定路由策略,例如优先最低成本、优先最低延迟,或优先最高吞吐。系统再根据实时服务质量,自动选择当前最合适的模型接口和服务商。

 

团队披露的实测数据显示,智能路由可以帮助企业实现 AI 调用成本下降超过 37%、服务吞吐提升超过 90%、响应延迟下降约 20%。

 

对于高度依赖 Agent 多轮调用的应用来说,这些指标会直接影响业务成本和用户体验。一个 Agent 系统如果每天产生大量模型调用,哪怕单次调用成本下降几个百分点,累计到大规模流量上也会形成显著差异。

 

AI Ping 的出现,也说明清程极智的产品边界正在从“Token 生产”延伸到“一站式的 token 服务”。

 

这与云计算时代的发展有相似之处:早期企业关注单台服务器性能,后来关注资源池化、弹性调度和服务质量监控。

 

大模型 Token 服务 市场今天也在经历类似过程。

 

AI 产业下半场,开始卷系统软件

 

回看过去三年,中国 AI 产业最受关注的始终是模型。

 

谁发布了更强模型,谁登上了基准榜单,谁开放了更大的上下文,谁支持了更复杂的推理能力,这些都是行业关注焦点。但随着 DeepSeek、GLM 等开源模型持续降低使用门槛,模型能力能够在更大规模生产场景中得到应用,企业落地中的关键矛盾也开始转向模型之外。

 

未来行业竞争,将愈发聚焦于依托推理引擎、调度能力、智能路由等技术整合而成的 Token 综合服务能力。

 

它们不像模型发布那样容易被用户感知,却会决定 AI 应用的真实成本和体验。

 

当中国市场每天流动的 Token 达到 140 万亿级别时,哪怕单位成本、延迟和缓存效率出现很小差异,都会在产业规模上被迅速放大。也正因为如此,Token 服务正在变得越来越像云计算资源:需要可观测、可度量、可调度,也需要更成熟的基础设施层来承接。

 

清程极智的产品路径,正好沿着这一变化展开。

 

八卦炉对应训练和微调阶段的效率优化,赤兔对应国产算力上的推理部署,AI Ping 对应 Token 服务市场的实时评测与调度。三者共同构成了一条从 Token 生产、Token 生成到 Token 流通的基础设施链路。

 

这也是清程极智值得关注的原因。

 

它真正的价值是他们正试图回答一个更底层的问题:当模型越来越多、算力越来越复杂、Token 调用量越来越大之后,中国 AI 产业如何把模型稳定、低成本、高效率地运行起来。

 

过去,AI 产业争夺的是模型能力。

 

现在,系统软件战争正在开始。