在大模型能力如此强大的当下,模型背后智能的生产和交付,仍远没有实现工业化。
九章云极副总裁胡宗星给出了一个直观的数据对比:顶级 8 卡 GPU 服务器的聚合内存带宽,理论上支持每秒生成约 1000 个 Token;但在实际工程中,主流推理框架的解码速度往往只有几十 Token/s,中间存在超过 10 倍的性能鸿沟。
这道鸿沟来自推理系统里的“执行间隙”。GPU 本身并不缺理论算力,但在真实推理链路中,不同计算任务之间会出现等待,通信和计算也很难充分并行。尤其在解码阶段,单个 Kernel 的执行时间可能只有微秒级,CPU 与 GPU 之间频繁的启动、调度和同步,反而会成为关键瓶颈。再加上 KV Cache 等推理状态需要在 HBM、DRAM、NVMe 等不同存储层级之间反复搬运
这些都使得算力消耗在等待、同步和数据移动中,而客户最后为这道性能鸿沟买单。
这说明,智能的工业化不能只追求更大的算力规模,也不能只比较更低的 Token 单价。真正重要的是同样的能源和算力投入,能不能生产出更多有效 Token;同样的 Token 消耗,能不能完成更多业务任务。
因此,AI 基础设施需要同时回答智能如何计量,以及智能如何生产。
“我们正处于智能工业化时代的拐点,但现在,一个更根本、更现实的考验摆在我们所有人面前:时代所需要的不仅是技术突破,更是‘智能生产力’的突破。 ”九章云极 DataCanvas 公司创始人、董事长方磊说。

在 6 月 17 日的发布会上,九章云极提出 AI 工厂战略,并发布 Alaya NeW Cloud 3.0。训练工厂负责把通用智能生产为专业模型,Token 工厂负责把专业模型封装为可调用、可计量、可保障的专业 Token。与此同时,九章还提出了 DCU 与 Token 的度量体系,以及围绕推理效率、状态复用、跨集群调度和算电协同展开的一系列底层工程设计。

成立 13 年来,九章云极经历了 AI 的多轮浪潮,也走过了 PaaS、云、智算平台的多次转型。现在,它试图把自己从算力资源提供者,进一步推向智能工业生产者,组织智能的生产、计量、流通和交付。
智能工业化的第一步:统一度量衡
智能走向工业化的第一道关卡,是建立统一度量衡,即用什么指标,来衡量智能的生产、交易与交付。
过去,AI 基础设施主要围绕资源计量。企业买算力,看 GPU 数量、显存规模、集群性能;买模型服务,看参数规模、API 调用量、Token 单价。
这些指标都重要,但它们描述的主要是供给侧。它们能说明厂商有多少资源、模型有多大、调用有多便宜,却不能回答企业真正关心的问题:一次任务能不能完成,结果是否可靠,响应是否够快,失败和重试会不会把总成本推高。
因此,九章云极提出,AI 基础设施要从“资源计量”转向“智能计量”。
在九章云极看来,Token 是最适合作为智能计量的基础单位。模型接收输入、处理信息、生成输出,都围绕 Token 展开。相比 GPU、参数和 API 调用量,Token 更接近智能被加工和交付的过程。
但 Token 只是基础单位,还不是价值单位,更有计量价值的概念是“有效 Token”。
一个模型可以生成很多 Token,但如果回答错误、响应超时、无法进入业务流程,这些 Token 对客户来说仍然没有意义。
一个有效 Token,至少要同时满足几个条件:请求成功,质量达标,时延达标,并且能够进入真实业务流程。只有这样的 Token,才构成可交付的智能产出。
胡宗星指出,企业真正关心的不是 Token 单价,而是有效 Token ——那些请求成功、质量达标、时延可控、能够进入真实业务流程的 Token。客户买的不是便宜 Token,而是更低的任务完成成本。
基于这一判断,九章云极对 Token 进行了重新分级。
九章云极将专业 Token 划分为三个层级:消费级 Token 是智能社会的“基础电力”;专业级 Token 封装行业知识与合规逻辑,让企业购买的是效率、风控与决策支持;前沿级 Token 面向高复杂度科研场景。九章云极的战略聚焦,在于企业级与前沿级 Token。
当计量单位发生变化,基础设施的形态也必须发生变化。企业需要的就是一套完整的生产体系:它既要把通用模型训练成能解决具体业务问题的专业模型,也要把这些模型能力封装成稳定、可计量、可调度、可保障的专业 Token。
也是在这个背景下,九章云极提出了“训练工厂 + Token 工厂”。
打造智能工业化的训练和 Token 工厂
统一度量衡之后,新的问题出现了:有效 Token 从哪里来?
九章云极认为,有效 Token 不能单纯通过通用模型得到,它需要被专业生产。训练工厂负责生产专业模型,Token 工厂负责交付专业 Token。前者解决模型能力是否足够专业,后者解决专业能力能否稳定进入业务。
训练工厂把通用模型加工成能处理具体业务任务的专业模型。这个过程需要领域数据、强化学习、精调、评测反馈和持续优化。通用模型提供基础能力,训练工厂负责把这些基础能力压进具体行业、具体场景、具体任务里。
专业模型训练出来之后,还不能直接变成企业可消费的智能商品。企业需要的不是一个模型文件,而是稳定 API、权限管理、版本管理、SLA 保障、成本控制和按需调用能力。
Token 工厂要做的,是把专业模型封装成标准化、可计量、可调度、可保障的专业 Token。这样,模型能力才能从一次性项目交付,变成可以反复调用、持续复用、按量计费的智能服务。
训练工厂的算力投入用 DCU 衡量,Token 工厂的只能产出用专业 Token 衡量。
DCU 衡量的是算力投入。专业 Token 衡量的是智能产出。
DCU 解决算力侧的问题。传统算力计量往往围绕 GPU 卡数、核时或集群规模展开,但这些指标很难反映不同硬件、不同架构、不同调度方式之间的真实效率差异。DCU 的意义,是把复杂的异构算力抽象成更统一的计算单位,让客户不必理解底层硬件拓扑,也能像采购电力一样采购算力。
Token 解决智能侧的问题。抽象的模型能力无法直接买卖,必须变成可度量、可定价、可交付的商品。专业 Token 的意义,是把昂贵、复杂、稀缺的模型能力,转化为可以按量调用、持续复用、标准化交付的智能单元。
这就意味着,企业可以按业务需求调用专业智能。AI 服务可以像水电一样,按需接入、按量计费、持续运营。
如何通过 AI 工厂,把算力转化为更多有效 Token?
水电之所以能被按需使用,背后有发电、输配、计量、调度和运维系统。专业智能也一样。一个模型能力要变成企业可以稳定购买和使用的专业 Token,背后要先经过接入、训练、封装、推理、缓存、调度和计费。
九章云极这次发布的产品体系,正是沿着这条链路展开。
最前端的 Aladdin 处理算力入口问题。
过去,算力大多藏在后台。客户买 GPU、开实例、配环境、调集群,再把模型和应用部署上去。算力已经存在,但离开发者、Agent 和业务流程还有距离。每一次接入、调试、迁移、部署,都会消耗工程时间,也会拉长 AI 应用进入生产的周期。
Aladdin 要把算力推到使用者手边。通过 IDE 插件、CLI、SDK、Skills Hub 等入口,开发者和 Agent 可以更直接地调用算力、工具和模型能力。算力不再只是后台资源池里的配额,而变成开发链路和任务链路中的可调用能力。
这一步影响的是智能生产的起点。企业要使用专业 Token,首先要让算力和模型能力进入业务系统。如果每次调用都要从环境配置、资源申请、接口适配开始,智能服务就很难像水电一样即插即用。
Aladdin 缩短的是从算力资源到业务任务的距离。
第二层是训练工厂。它处理的是专业能力来源问题。
通用模型具备基础能力,但企业场景里的问题通常更具体。金融、制造、政务、科研,对数据结构、行业知识、业务流程、合规边界和结果稳定性都有要求。模型能生成一段流畅文本,不代表它能完成一个生产任务。
训练工厂负责把通用模型加工成专业模型。它通过大规模训练底座、领域精调、强化学习、评测反馈和持续优化,把模型能力压进具体行业、具体场景、具体任务里。
这一步决定专业 Token 的质量基础。模型越懂业务,越能减少无效回答、失败重试和人工兜底。客户消耗的 Token 数量未必最低,但更大比例会变成可用结果。对企业来说,重要的不是一次调用生成多少内容,而是一个任务最终花了多少成本完成。
第三层是 Token 工厂。它处理的是专业能力的商品化问题。
专业模型训练出来之后,还不能直接成为企业可消费的智能商品。企业需要稳定 API、权限体系、版本管理、密钥管理、计量计费、SLA 保障和成本控制。模型能力只有经过这层封装,才能进入企业系统,成为可以采购、调用和结算的服务。
Token 工厂把专业模型封装成专业 Token。
一方面,它完成服务封装。专业模型通过 API、SDK、权限、版本和计量体系进入企业应用,客户可以按任务、按服务等级、按调用规模使用模型能力。
另一方面,它完成推理优化。不同任务需要的模型、上下文长度、响应速度和成本约束不同。简单任务调用大模型,会浪费算力;复杂任务交给小模型,会带来失败和重试。Token 工厂通过量化、动态路由、KV 缓存、弹性伸缩等机制,为不同任务选择更合适的模型和推理路径。
胡宗星介绍,目前 Alaya NeW 平台预制了 DeepSeek、GLM、Kimi、Minimax、Qwen 等 50 余款主流大模型,并且还在此基础上沉淀了 100 多款精调版本,覆盖金融、制造、政务、科研等真实行业场景。
再往下,是 Inference OS。它处理的是推理过程中的状态管理和执行调度。

Agent 时代的推理中,一个任务可能包含多轮对话、长上下文、多次工具调用、失败重试和中间结果。成本也不只发生在 Token 生成本身,还发生在上下文重算、状态搬运、工具等待和跨节点同步里。
Inference OS 管理 KV cache、会话状态、历史上下文、工具调用结果、prefill / decode 分工、模型路由、内存层级和跨节点状态迁移。
在长上下文和 Agent 任务中,这些状态会直接影响推理成本。已经计算过的上下文,需要尽量复用;需要长期保留的会话状态,需要放在合适的内存或存储层级;prefill 和 decode,需要根据硬件条件、任务类型和服务等级拆开调度;工具调用结果和中间状态,也需要被记录、复用和管理。
Inference OS 提升的是整条推理链路的执行效率。它压低等待、同步、搬运和重复计算,让更多算力进入真正的 Token 生成。
DingoFS Connector 则进一步处理 KV cache 的跨请求、跨节点复用。
KV cache 是长上下文和多轮任务里的重要状态资产。上下文越长,工具调用越多,重复 prefill 的成本越高。如果每次请求都重新计算相同上下文,推理成本会被不断放大。如果 KV cache 只能留在单卡、单节点、单请求里,复用范围也会受限。
DingoFS Connector 把已经计算过的 KV cache 纳入统一管理,让它可以跨请求、跨节点复用。这对 Agent 任务尤其重要。多轮对话、长文档处理、复杂工具链调用,都会产生大量可复用的上下文和中间状态。KV cache 复用做得越好,专业 Token 的交付成本越低,响应也越稳定。
最底层是全栈智算底座。它处理的是生产和交付的稳定性。
训练需要大规模集群,推理需要精细调度,缓存需要高性能存储,模型需要版本和权限,跨地域资源需要统一管理,计费系统也要跟着每一次调用发生。这些能力分散在算力、存储、网络、数据库、调度和运维系统里,任何一层不稳定,都会影响上层专业 Token 的交付。
Alaya NeW Cloud 3.0 纳管英伟达、AMD、昇腾等异构算力,把不同地域、不同架构、不同集群放进统一调度体系。同时,DingoStack 负责承接底层算力和网络资源,DingoFS 和 DingoDB 承接训练和推理中不断流动的数据、模型、状态和缓存。
当资源分布在多个智算中心,调度还要跨地域发生。当 Token 成本越来越接近能源成本,计算任务也要和电力条件联动。九章云极还提供算电协同,把任务根据资源空闲度、电力价格和能源供给,被安排到更合适的时间和地点运行。
底座的价值最终体现在资源组织效率上。智能工业化走到最后,竞争不会只发生在单个模型、单块芯片或单次推理请求上,而会发生在能源、算力、存储、网络、模型和调度之间的协同效率上。
从能力和资源供给,到交付智能
算力仍是 AI 的底座,但企业购买 AI 的理由正在变化。它们需要的,已经不只是更大的集群、更便宜的调用,而是能进入业务流程的模型能力,更低的任务成本,以及可持续保障的服务结果。
这也意味着,AI 基础设施的竞争正在向中间层深入。训练、推理、缓存、调度、计量、计费和 SLA,不再只是后台工程,而会直接影响客户每一次任务的成本、成功率和稳定性。
九章云极提出 AI 工厂战略,正试图回应这个变化。训练工厂负责把通用智能加工成专业模型,Token 工厂负责把模型能力封装成可计量、可调度、可交付的专业 Token。两者连接起来,指向的是算力到可用智能的转换效率。
“同样的 DCU,能不能生产出更多、更稳定、更高价值的专业 Token,这就是工厂效率,也是客户价值。”胡宗星说。
这也意味着,Result as a Service 的压力,正从 SaaS 平台延伸到 AI 基础设施。
AI 基础设施供应商要面对更高标准。资源规模和调用价格之外,行业会继续追问:客户购买的 Token,能在多大程度上转化为可验证的业务结果。





