当大模型从实验室、Demo 和单点工具真正走向企业生产系统,企业对 AI 的态度正在变得矛盾:一方面,没人想错过大模型带来的效率窗口;另一方面,AI 一旦进入研发、客服、营销、办公、运维和业务流程,Token 消耗就会变成一笔越来越难忽视、也越来越难管理的账。
这种焦虑首先来自成本。过去企业采购服务器、存储和网络,成本边界相对清晰;但 AI 应用一旦规模化,Token 消耗会随着模型调用、长上下文、多轮对话、工具调用和 Agent 任务链条被不断放大。尤其在 Agentic AI 场景下,一个任务不再只是一次问答,而可能包含多轮规划、反思、检索、代码生成、工具调用和结果校验。业务越自动化,Token 消耗越可能从线性增长变成链式放大。
更麻烦的是,企业很难直接判断这些 Token 是否真的产生了价值。一个部门可能消耗了大量 Token,却没有明显提升交付效率;一个模型在公开榜单上表现很好,放到企业内部场景里却可能因为上下文、权限、数据质量和工具链适配问题,产出不稳定。对企业来说,真正焦虑的不只是“Token 用得多”,而是用了多少、花在哪里、是否值得、能不能控,以及这些消耗最终有没有转化为可衡量的业务结果。
这个现实问题被重新抛给了算力产业:企业到底需要什么样的 AI 基础设施?
过去几年,AI 基础设施的竞争很大程度上围绕 FLOPS、卡数、集群规模和训练能力展开。谁能组织更大规模的算力,谁就更接近模型能力的上限。但随着推理、Agent、多模态和行业大模型应用深入企业现场,单纯讨论算力峰值已经不够了。企业更关心的是:这些算力能不能稳定地产生高质量 Token,能不能靠近业务数据和流程,能不能以可控成本持续运行,最终能不能转化为真实业务价值。
这也是超聚变探索者大会 2026 算力高峰论坛试图回答的问题:当 AI 从数字世界走向企业流程和物理世界,底层算力系统必须怎样变化?
FLOPS 之后,AI Infra 进入 Token 生产力时代
超聚变在多个分享中反复强调一个观点,AI 时代的企业都会变成某种意义上的“制造”企业。这里的“制造”,并不是指所有企业都会变成传统工厂,而是指每个企业都需要持续生产知识、代码、内容、决策和服务结果。超聚变算力事业部 CTO 邱亮表示,在这个新的生产体系中,Token 具有三重身份:它是 AI 时代的动力引擎,是企业可衡量的产能单位,也是价值链上的通货。

这也意味着,AI Infra 和算力的评价体系正在发生根本变化。过去衡量算力,行业首先看峰值性能、节点规模和硬件配置;进入 Token 生产力时代,评价标准则转向从能源到价值的全链转化效率。WATT、FLOPS、TOKENS 和 VALUES 形成一条连续的生产链路:能源被转化为计算,计算被转化为 Token,Token 再进入业务流程,最终形成价值,每一步的转化效率都至关重要。
虽然企业购买的可能仍然是“卡”,但真正要的却是高质量 Token。两者之间存在一道巨大的落差:企业花的是 100% 的预算,但在私有化部署后,受制于互联抖动、带宽瓶颈、调度低效、资源闲置、散热降频等因素,真正可用的有效算力可能只有 40% 到 60%。换句话说,同样的电、同样的卡、同样的模型,有没有全链路协同,Token 产出可能出现明显差距。
因此,AI Infra 的竞争正在从单点硬件能力,转向能源、计算、存储、网络、模型、调度、软件栈、运维和生态能力的全链协同。企业需要的不是把服务器、GPU、模型和工具一件件采购后再自行拼装,而是在同一个产品和体系中,同时获得私有化部署、大参数模型承载、最新模型适配、高效 Token 转换、广泛 Skill 和工具调用支持、ISV 生态赋能。
在这个背景下,Token Factory 可以理解为超聚变对新一代 AI Infra 的系统化回答。它不是单一产品,而是一套把算力供给、模型服务、推理加速、Agent 执行、Token 运营和行业生态连接起来的企业 AI 生产体系。但要让这套体系成立,第一步仍要回到底层算力本身:Token 背后是能源、芯片、服务器、互联、散热、供电、调度和数据中心工程的共同作用,Token Factory 的底座首先是一座能够把 WATT 高效、稳定转化为 FLOPS 的 AIDC。
从 WATT 到 FLOPS:系统工程能力是关键
超聚变认为,现阶段 AIDC 正在经历散热、供电、互联三场并行发生的革命。
散热方面,液冷正在成为 AIDC 标配,45°C 温水液冷、金刚石铜复合热沉、余热回收等技术开始进入系统设计。供电方面,单柜 300kW 带来的电力传输损耗和供电稳定性问题,正在推动 HVDC 与 VPD 等技术进入核心架构。互联方面,随着带宽持续暴增,铜缆在 224G 以上面临损耗和串扰快速上升的问题,CPO、光铜结合等技术成为下一阶段 Scale-up 域的重要方向。

这三场革命并不是彼此独立的技术升级,而是同一场系统性重构的不同侧面。更高的功率密度要求更强散热,更强散热和更大机柜功率又对供电效率提出要求,而更大规模的训练和推理集群则需要更高带宽、更低时延、更稳定的互联。AIDC 的难点正在从单点性能提升,转向多物理场耦合下的系统工程能力。
超节点正是在这一背景下成为关键基础设施形态。大模型训练和高并发推理需要在更大的 Scale-up 域内降低通信开销,传统服务器简单堆叠已经难以满足万卡、十万卡级集群协同。超节点的意义,不只是把更多 GPU 放在一起,而是通过供电、散热、互联、管理和调度的一体化设计,把分散的硬件资源组织成更高效的有效算力。
在超聚变的技术路径中,超节点不是封闭系统,而是走向产业开放。围绕超节点的关键能力,超聚变选择开放散热、高速互联、电源等核心部件能力,并兼容不同 Scale-up 协议,让产业伙伴能够在统一底座上进行适配和共创。这背后是一个更现实的判断:AI 算力的资本开支、技术门槛和生态复杂度都在迅速抬高,任何单一企业都很难独自穿越这一轮算力基础设施重构周期,开放协同反而会成为更可持续的路径。
如果说超节点和 AIDC 解决的是更大规模、更高密度、更高效率的算力底座问题,那么 FusionServer“无极”架构则是在服务器产品层面回应多元算力、多样化场景和快速交付需求。面对 xPU 持续涌现、业务负载快速变化和客户配置差异增大的现实,传统固定形态服务器越来越难以覆盖不同场景。
“无极”架构的核心思路,是通过三段式模块化解耦,提升异构兼容和配置灵活性。据介绍,该架构强调接口标准统一、组件共享率高、统一管理和一站运维,并在内存带宽、AI 推理性能、全闪存储 IOPS 等方面实现提升。它要解决的不是某一款服务器的性能问题,而是让服务器形态能够更快适配不同 CPU、GPU、xPU、内存、存储和网络组合,支撑从通用计算到 AI 推理、超融合和边缘场景的持续演进。
这些能力并不如模型参数和 GPU 数量那么抓眼球,却是 AI 基础设施真正走向生产系统时绕不开的部分。供电效率决定长期成本,散热设计决定部署密度和稳定性,互联能力决定规模扩展上限,管理能力决定故障定位和运维效率。只有当供电、散热、互联、模块化、异构兼容和运维管理同时优化升级,每一瓦特能源才可能尽可能转化为有效算力,FLOPS 也才有可能稳定地转化为企业真正关心的 Tokens。
数据中心太远,本地设备太弱:TokenBox™想补上中间层
作为本次算力高峰论坛发布的核心产品,TokenBox™不失为一个观察企业 AI 基础设施变化的好切口。
如果说 Token Factory 是超聚变面向 AI 生产力时代提出的一套架构理念,那么 TokenBox™ 就是这套理念在企业现场的一种产品化落点。它试图把原本属于数据中心的高性能推理、超节点互联、模型本地承载和软硬一体能力,转化为一种更贴近业务现场的产品形态中,让企业能够拥有自己的“办公室级 Token Factory”。

超聚变给 TokenBox™ 的定位不是一台普通服务器,而是“AI 时代新物种”。背后对应的是企业在 AI 落地中的现实断层:数据中心系统足够强,但距离企业业务现场太远,部署复杂、运维门槛高、建设周期长;普通本地设备足够近,但在持续推理、多用户并发、知识接入、稳定运行和未来扩展上,往往难以承担企业级 AI 生产任务。完全依赖云端服务,又会受到数据安全、响应延迟、成本波动和业务深度集成的限制。
TokenBox™ 试图填补的,就是这两者之间的空白。它想把原本属于数据中心的部分超节点能力,以更接近业务现场、更容易部署和更可控的形态,带到企业本地环境。这并不是把数据中心缩小成一台机器,而是尝试把数据中心级 AI 能力中与企业现场最相关的部分重新产品化。
这也是超聚变想要指出的“算力平权”:它并不意味着所有企业都要拥有最大规模的训练集群,而是更多企业可以在自己的数据旁、流程中、业务空间里,获得足够强、足够稳定、也足够可控的 AI 推理与应用承载能力。
TokenBox™ 的四个关键设计
超聚变 FusionServer 领域总经理朱勇从四个方面分享了 TokenBox™ 的关键能力。
单机承载旗舰模型
据介绍,TokenBox™ 单机支持满血版 DeepSeek V4 1.6T 旗舰大模型。这一能力真正值得关注的地方,不只是“能跑多大模型”,而是旗舰模型能力是否具备本地承载和长期服务的条件。
对很多企业来说,本地化部署的价值并不只在于成本,还在于数据安全、响应稳定、业务流程嵌入和可控运维。TokenBox™能够在本地稳定承载高规格模型,就有机会让企业把 AI 能力嵌入更深的生产流程。
互联能力决定系统上限
企业 AI 负载很少只考验单机单卡性能。模型切分、并行推理、多用户并发、跨卡通信和规模扩展,都会把压力传导到互联架构上。互联不足时,单点性能再强,也容易在真实业务负载下被通信瓶颈抵消。
据介绍,TokenBox™ 基于超聚变与博通联合打造的 TokenFabric™,采用 PCIe Fabric Gen6,支持从单 Pack 4 卡全互联,到整机 16 卡全互联,再到 8 台 TokenBox、128 张卡全互联的扩展路径。这个设计的核心不是简单增加卡数,而是把单机、整机和多机之间的协同能力做成系统能力,最终在本地实现原本数据中心才能做到的超节点互联能力。
强算力真正进入办公室和业务现场
据介绍,TokenBox™ 在主流负载下噪音低至 35dB,能达到图书馆级静音,并通过微通道冷排系统、高效散热冷板和三总线盲插设计支撑液冷和可靠性。这个指标背后的意义,是高性能 AI 设备不再只能被放在专业机房或大型数据中心里,而是有机会进入办公室、实验室、工厂边缘、医疗机构和更多业务空间。
越贴近业务现场,AI 系统越需要面对真实数据、真实流程和真实环境约束。能不能安静、稳定、低门槛地部署,决定了它是一个展示型设备,还是能够长期运行的生产工具。
Pack 化平台演进
AI 负载变化太快,这是所有企业都必须面对的不确定性。TokenBox™ 的 Pack 化设计试图回应这种不确定性。超聚变为 TokenBox™定义了几类核心 Pack:GPack 面向 GPU 承载和高性能推理,CPack 面向 CPU 核数拓展和超融合场景,MPack 提供更大内存和 CXL 卸载能力,SPack 增强本地存储能力。
这意味着,TokenBox™ 不是以“一台固定配置设备”的方式被定义,而是试图成为一个可以随业务负载持续演进的平台。它的价值不只取决于今天能提供什么配置,也取决于未来能否通过 Pack 扩展,持续适配企业 AI 应用的新需求。
硬件之外,软件栈决定算力能否转化为有效 Token
如果说 TokenBox™ 解决的是企业现场“在哪里生产 Token、用什么算力生产 Token”的问题,那么 FusionOne AI 要解决的,则是这些算力如何被调优、调度、治理,并持续转化为更有效的 Token。
在超聚变看来,从 TokenBox™ 算力到 AI 生产力之间,仍然隔着一层复杂的软件工程。FLOPS 代表纸面算力,Token 更接近企业 AI 应用中的实际产出,但 Token 也不天然等于业务价值。FusionOne AI 要解决的,正是纸面算力如何变成有效 Token,Token 消耗如何变成可衡量价值,以及已经上线的 AI 系统如何持续跟上模型和业务变化。前者涉及参数规模、上下文长度、并发、缓存、跨卡通信和异构资源利用;中间涉及 Token 的计量、路由、预算和治理;后者则涉及新模型适配、上线、调优、扩容和日常运维。

因此,FusionOne AI 对 TokenBox™ 的价值,并不是简单给硬件配一个管理界面,而是通过软件栈把硬件能力、模型服务、推理加速、Agent 执行和 Token 运营连接起来。超聚变希望借此把 TokenBox™ 从本地 AI 承载平台进一步推进为“办公室级 Token Factory”:一方面通过 Smart 系列推理加速、ModelEver 模型永新服务提升有效 Token 产出;另一方面通过多端可视、AI 原生互动、E2E 体验保障降低使用和运维门槛;同时通过 AgentFabric 和以 Token 为中心的运营能力,让 Agentic AI 真正进入企业生产流程。
从推理性能看,FusionOne AI 的核心思路是软硬协同。围绕大模型推理中常见的 KV Cache、并发、跨卡通信和异构资源利用等瓶颈,FusionOne AI 引入了 CXL 卸载、PCIe Fabric 组网、异构混推,以及 SmartDecoding、SmartKVCache、SmartKVSparse 等推理加速能力。它解决的不是“能不能跑模型”这样的问题,而是当企业同时面对多用户并发、多模型调用和长上下文任务时,系统能否持续、稳定、经济地产出 Token。
模型演进则是另一层挑战。大模型能力更新太快,企业不可能每次都靠手工重新适配、部署和调优。FusionOne AI 中的 ModelEver 能力包,试图把模型更新变成一种持续服务:通过经过验证、精选打包的模型镜像,以及模型一键部署、平滑升级扩容、新模型快速感知和本地化服务支持,让企业的模型资产不只是“此刻可用”,而是能够跟随模型技术迭代保持持续更新。
更关键的是 TokenOps。随着 AI 从少数人的试用进入组织级使用,Token 会同时成为新的生产资料和新的成本中心。企业需要知道的不只是“消耗了多少 Token”,还包括这些 Token 被哪些任务消耗、对应什么业务目标、是否被路由到合适的模型、是否值得继续投入。

FusionOne AI 试图通过 TokenOps,把 Token 使用从“无序消耗”推进到“价值分配”。这套机制的核心包括计量、优化和治理三件事:通过全链路埋点构建 Token 消费全景,让 Token 看得见;通过模型路由、模型性价比评估和任务价值拟合,让 Token 花得值;再通过预算控制引擎,在成本、质量和时间的三维约束下实现精细化治理。只有当 Token 被计量、优化和治理,它才可能从“不可见的资源消耗”变成“可运营的生产资料”。
Agentic AI 的到来进一步放大了这种复杂度。一个 Agent 任务往往包含多轮推理、多次工具调用、多源数据访问和跨系统执行,Token 消耗不再是一次问答的线性成本,而会随着任务链条被放大。如果缺少统一的 Agent 治理能力,企业很难判断这些 Agent 是在稳定完成任务,还是在不断制造隐性的资源浪费和安全风险。
FusionOne AI 中的 AgentCare 套件,正是面向这一问题设计。它支持 Harness 型 Agent、工作流型 Agent 和自定义 Agent 等多形态接入,并提供沙箱环境、全局观测、Agent 治理、模型服务和智能记忆等能力。其中 SmartMemory 被定义为动态、可验证、自我进化的记忆系统,覆盖短期记忆、中期记忆和长期记忆,帮助 Agent 在持续任务中更好地理解上下文、复用知识并遵守组织规则。
从这个角度看,FusionOne AI 的价值并不只在于“管理模型”或“调度算力”,而是在为企业内部大规模 Agent 应用提供一套共性底座。
FusionOne AI 也不是只服务于 TokenBox™ 单一产品,而是一套跨桌面级、办公室级和数据中心级场景的 Token Factory 软件底座。它向下连接 FusionXpark、TokenBox™、FusionXtation™、服务器、超融合和 AI 轻量云等多种硬件形态,向上提供模型管理、推理服务、多模型路由、加速优化、Token 度量运营、鉴权、多租户、计量计费、配额结算和安全防护等能力,覆盖从个人、部门团队、中小企业到大型企业的不同场景。
这让 TokenBox™ 的定位变得更清晰:它不是一个孤立的硬件盒子,而是 FusionOne AI 软件架构中的办公室级 Token Factory 载体。硬件负责把数据中心级算力带到企业现场,软件则负责让这些算力被看见、被调度、被优化、被治理,并最终进入业务流程。
对于正在推进 AI 落地的企业来说,这可能比单纯的硬件参数更重要。AI 生产系统真正难的地方,不是某一次模型调用是否成功,而是当模型、Agent、工具、数据和业务流程同时运转时,系统能否持续保持稳定、可控和可度量。而这正是 FusionOne AI 要解决的问题。
从 Tokens 到 Values:真实业务场景考验
当 TokenBox™ 提供现场算力,FusionOne AI 进一步把模型、Agent、推理加速、Token 计量和治理连接起来之后,企业关心的问题就进入了最后一层:这些基础设施能力最终如何进入真实业务场景,并持续产生可衡量的价值。
从这个角度看,ATM 先锋计划是一个有代表性的落地样本。它并不是单纯展示“超聚变内部也在用 AI”,而是在回答企业推动 AI 规模化落地时最常见的两个问题:到底用什么,以及怎么用。
大模型和 AI 工具快速迭代之后,企业内部很容易出现新的混乱:模型榜单天天变化,工具链层出不穷,不同岗位诉求也完全不同。如果只是给员工开放一批 AI 工具账号,最后往往会变成各自摸索、重复踩坑,好的经验也很难沉淀为组织资产。
ATM 先锋计划的解法,是先用一批 AI 实践能力强、创新意愿高的员工探路,再把个人经验工程化、平台化,沉淀为可复用的组织能力。据 ATM 先锋计划发起人徐磊介绍,他们先从研发体系中挑选出约 100 名先锋成员做 AI 创新探索,再面向更多研发人员做规模化赋能,目标是在两年内端到端提升研发效率 50%。
为了解决“用什么”的问题,ATM 先锋计划搭建了面向真实业务场景的选型机制。ATM 天梯榜基于超聚变自身业务抽取了约 1500 个真实用例,覆盖命令行调用、Bug 查找、指令遵循、长代码重构、PPT 生成等场景,再通过多维度权重进行评估。
ATM 龙虎榜则进一步把模型、硬件和推理加速配置纳入评估,帮助团队快速找到“机型 × 模型 × 推理加速特性”下的更优组合。这个机制与 FusionOne AI 强调的 TokenOps 形成呼应:AI 落地不能只靠直觉选型,而要把模型效果、性能、成本和任务价值纳入持续评估。

解决“用什么”之后,还要解决“怎么用”。ATM 先锋计划把个人经验沉淀为 10 多个 AI 作业平台,覆盖 90 多个 Agents、800 多个用例、150 多个 Skills 和 30 多个工作流。其中,ATM Agent 广场面向开发全流程,ATM 智能测试支持用例生成、自动测试和结果分析,ATM 情报蜘蛛用于采集产品相关的最新业界动态,ATM 内容广场则面向市场营销文案和视觉素材生成。这类平台化沉淀的价值在于,它把“个人会用 AI”变成了“组织能够复用 AI”。
从结果看,ATM 先锋计划已经产生了一批相当可观的内部使用数据。超聚变披露的数据显示,当前整个研发团队已经累计产生 361 万次 AI 工具调用,日均 Token 消耗达到 62 亿,产生了 320 万行最终被接纳的 AI 代码,同时产生了 46 万次 Prompt 使用、46 万次 AI 代码检视、12.6 万次 Skill 调用,并生成 1500 份营销材料和 2800 份设计文档。这些指标说明,AI 在超聚变内部已经不只是 Demo 或试用,而是进入了较大规模的日常研发和业务流程。
如果说 ATM 先锋计划证明的是 AI 如何进入研发组织,那么物理 AI 则把 Token 生产力进一步推向制造和真实世界。

物理 AI 对基础设施的要求,比单纯的软件应用更复杂。超聚变边缘计算总经理周洵将其概括为“三台计算机”:AI 训练工厂负责学习,数字孪生与仿真负责练习,边缘推理负责行动。对应到基础设施层面,训练阶段需要集中算力,仿真阶段需要高吞吐和高并发,推理阶段则需要低延迟、高可靠、可本地部署的边缘算力。换句话说,物理 AI 天然要求算力从数据中心走向业务现场,也要求 AI Infra 从资源供给走向完整业务闭环。
超聚变将率先在自有工厂开展物理 AI 应用的落地实践,致力于在机械臂柔性装配,物流 AGV 集群调度、拷机区能耗优化三大场景中对调试周期、训练成本、现场部署、资产效率和能源成本等具体业务指标进行智能化升级,实实在在的实现降本增效、提质减存。
除了超聚变内部实践,飞致云、创业慧康、用友等合作伙伴也分享了各自在企业 IT 运维、医疗信息化、企业管理软件等不同场景的 AI 实践,为 Token Factory 的落地补充了更具体的业务侧视角。飞致云希望将 OnePanel 企业版从传统 Linux 运维面板升级为轻量级 AI 管理平台,并与 TokenBox™ 组成从基础设施到 Agent 管理的完整方案;创业慧康强调,医疗 AI 不是从零开始,而是要把近 30 年医疗信息化积累转化为 AI 体系,其中算力和 Token Factory 的重要性正在被大幅提升;用友提到,超聚变为其量身定制了操作系统,TokenBox™已经能完整部署 BIP、超级版、旗舰版和 Cloud 产品,做到经过性能调优后的开箱即用,“一台小盒子就能把巨型的大型企业 ERP 跑起来”。
但要让 AI 能力真正规模化,单点案例还不够。现场,超聚变产业发展部部长李卓群发布“聚智 2.0 生态伙伴焕新计划”,强调以“扎根共生、聚力生长、共筑 AI 产业新生态”为核心,通过开放 FusionPoD 超节点架构、FusionOne AI 软硬技术栈和行业落地场景,升级 AI Lab 投入与适配能力,并围绕平台共生、开源共建、产投联动、区域 AI 赋能中心等方式,为伙伴提供从技术适配、场景孵化到商业化落地的全链条支持。

生态伙伴焕新计划的意义,不是简单扩大合作伙伴名单,而是围绕 AI 原生应用重构伙伴协作方式:基础设施厂商提供算力、模型服务、Token 运营和 Agent 治理能力,生态伙伴把这些能力转译成行业流程中的应用、工具和智能体。随后发布的 FusionOne AI 行业智能体百景图,则进一步把分散在不同行业、不同业务流程中的 AI 落地实践,沉淀为可识别、可组合、可复制的智能体场景。
结语:AI Infra 的下一轮竞争,是谁能把算力变成生产系统
从这次算力高峰论坛可以看出,超聚变试图把自身定位从算力设备供应商,进一步推向 AI 生产系统提供者,用超聚变自己的原话是“企业在 AI 和数据时代的水平全栈解决方案提供者”。这个定位能否成立,最终取决于它能否真正把 WATT、FLOPS、TOKENS 和 VALUES 串起来。这条链路横跨供电、散热、互联、模型承载、软件调度、行业理解和生态协同,任何一环薄弱,都会影响 AI 基础设施从技术能力走向生产力交付。
TokenBox™ 的发布,是这种变化下的一个产品化信号。它把数据中心级能力向企业现场下沉,也把 AI 基础设施的讨论从“更大算力”推向“更近、更稳、更可控的 Token 生产系统”。但对超聚变而言,发布新产品只是开始,更重要的是能否通过软硬件平台、生态伙伴和行业案例,证明 Token Factory 不只是一个概念,而是一套企业真正用得起来、跑得稳定、算得清账、看得见价值的 AI 生产体系。
AI Infra 的下一轮竞争,不会只属于拥有最大算力资源的玩家,而会属于那些能把算力、能效、互联、软件栈和行业场景打通,并把它们变成稳定生产系统的公司。





