在医院诊室里，一台设备放在医生桌上。

它所面对的，并非标准、安静、线性的输入环境，而是一个极度复杂的真实场景：多组医患同时交谈，患者话没说完，家属已在插话补充；医生一边问诊，一边快速敲击键盘；方言、噪声、寒暄与关键病症信息混杂在一起。

过去，这类场景面临的挑战通常被归为“语音识别”问题——只需把声音转成文字。但当大模型深度介入后，问题性质发生了根本性改变。

模型不仅要“听见”，更要理解和判断：谁在说话？哪些信息是关键内容？哪些应录入病历？是否需要触发临床质控与检查建议？最终，这些信息还要无缝写入医院的 HIS 系统，且尽量不改变医生原有的工作习惯。

这一典型场景折射出了大模型行业当下最本质的痛点：当模型离开聊天窗口，进入真实的业务现场，它到底应该具备什么样的能力？

云知声对这个问题的回答，是其新一代基座模型——U2 大模型。

云知声创始人 &CEO 黄伟将 U2 的核心定位概括为三点：不是更大，而是更会干活；不是生成更多 Token，而是让 Token 更有价值；不是给出一次漂亮回答，而是端到端完成任务。

作为云知声基座模型的一次里程碑式升级，U2 从设计之初就摒弃了“以参数规模和文本生成为中心”的传统路径，全面围绕“任务执行（Task Execution）”展开。它的模型尺寸、训练目标与优化路径，均指向规划、工具调用、多步执行与结果验收。

通过提出“高智能密度”与“高价值 Token”两大核心指标，云知声正试图重新定义通用大模型的效率与商业价值，它面向的不只是企业级应用，也包括个人用户、开发者和各类智能终端场景。

一、高智能密度：不是每个任务都需要“院士开滴滴”

大模型发展早期，行业默认一条铁律：参数越大，能力越强；能力越强，应用价值就越高。但在具体场景中，这条路径很快撞上了现实的南墙。

“参数规模本身，并不能直接转化为应用价值。”

例如，To C 端的用户，不会因为模型参数大，就顺利、快速、低成本地跑完一个任务。To B 端的医院也不会因为模型达到万亿参数就改变现有的诊疗流程，保险公司也不会因为榜单排名提升就降低审核标准。

真正决定用户体验的，永远是具体而确定的执行结果：能否降低了成本？能否减少了风险？能否提升运转效率，并稳定嵌入现有系统？

与此对应的是，参数规模的盲目攀升带来了算力和部署成本的指数级暴涨。持续“堆参”正逐渐偏离了大模型最优解。

“我们是否可以用更有限的参数，获得接近超大模型的有效能力？”这是云知声提出的追问，也是“高智能密度”概念的出发点。

在黄伟看来，高智能密度不等于做“小模型”，而是强调在单位参数、单位算力中承载更多“可用智能”。企业场景不需要无限高的能力上限，而是需要足够强、足够稳、成本可控、可反复调用的执行力。

为了实现这一目标，U2 在数据、架构、训练和执行框架四个维度进行了系统性重构：

首先是数据。模型训练从规模优先，转向信息密度优先。

对面向 Agent 的模型而言，语料的关键不在于“量”，而在于其是否承载了行业逻辑与任务知识。

U2 在训练中大幅提升了代码、流程图、任务轨迹和真实业务数据的占比，过滤掉低质和娱乐化内容。在同等长度的文本中，操作流程、病历规则、系统日志所包含的可迁移能力，远高于泛化对话。

叠加云知声在医疗、物联网等场景沉淀十余年的数据，模型在训练之初就贴近真实业务，而非受困于互联网语料的表层分布。

其次是架构。U2 通过 MoE 机制降低“能力调用成本”。

U2 采用 MoE 架构，其知识密度更高，单次任务激活的参数量可低至总参数量的 1/10 甚至更少。在注意力机制上，U2 引入并混合了线性注意力，进一步提升推理效率。

通过精准的路由机制“训练”，模型能根据不同输入选择最合适的参数路径。这使得模型在面对复杂的 Agent 任务时，能以极低的计算成本完成理解、规划与执行，避免了“满功率”空转。

然后是训练。模型训练目标从“回答问题”，转向“完成任务”。

通过循序渐进的“课程学习”，U2 被逐步训练为一个合格的“执行者”：从简单任务到复杂任务，从短上下文到长链路，从单步调用到多步规划，通过逐步喂给大模型，来确保训练充分。

同时，U2 在 Agent 任务轨迹中引入了过程监督方法，围绕任务完成度和进展情况对重点节点进行即时评估，通过教师模型优化执行路径。在多环节的 Agent 场景中，只优化最终答案是不够的，必须在中间步骤中引入约束与反馈，才能形成稳定的执行习惯。

最后是执行框架。模型与 Harness 协同演进。

企业任务本质上是复杂的工作流，而非单轮对话。模型必须与外部工具、数据库和业务系统深度协同。

U2 在训练阶段就融入了执行环境，使其天然具备调用工具、管理状态和闭环完成任务的能力。通过模型与 Harness 的协同训练机制，U2 将模型能力提升与 Harness 的迭代优化纳入同一闭环：模型能力的突破持续揭露 Harness 的新边界，更完善的 Harness 又为下一轮强化学习提供更高保真的奖励信号，进而反哺模型优化，实现两者的双向演进。

这些底层设计指向同一个终点：在更低实际计算成本下，让模型获得稳定、可复用的任务执行力。大模型的优化方向，由此从“更大”转向“更有效”。

二、高 Token 价值：让企业不再为“废话”买单

如果说“高智能密度”解决了性能与算力成本的平衡，那么另一个关键问题则是：模型生成的 Token 究竟能换回多少业务价值？

行业内常讨论的“Token 效率（Token efficiency）”往往站在生产端视角，即如何用更低算力生成更多 Token。但在企业级应用中，衡量尺度必须是结果导向的。

如果大量 Token 被消耗在无意义的闲聊和冗余推理中，其成本不可控，价值也极低；反之，若少量的 Token 能直接生成一份合格的病历、一行可运行的代码或一份精准的审核结论，其单位价值将成倍放大。

云知声提出的“高 Token 价值”，本质上是在引入一种结果导向的商业衡量标准。它不仅减少了 Token 的数量，更重构了 Token 从输入到交付的完整链路：

为了实现高价值 Token，首先是让输入更“干净”。

企业任务的输入往往是“混杂”的上下文，包括对话、规则、附件、历史记录和工具返回结果。真正有效的信息只占其中一部分。

U2 基于业务规则，在输入端率先完成信息的筛选与重组，确保模型基于高质量的输入进行提炼，从源头上提高 Token 效率。

其次是压缩“无效思考”。复杂任务需要多步推理，但企业用户需要的是可验证的结论，而非冗余的“思维链”展示。

U2 通过“隐式思考”，将部分推理过程压缩在连续隐藏状态中，在高维空间并行探索多条推理路径，只在必要时显示输出关键路径与结论。这在保留推理能力的同时，大幅减少了中间过程的 Token 消耗，把“思考过程”内化为模型的能力。

然后是用行业知识约束结果质量。在医疗、保险等容错率极低的行业，仅靠通用语言能力极易产生“幻觉”。U2 将云知声沉淀多年的行业知识图谱、业务规则与合规要求直接纳入生成过程，确保输出结果不仅“通顺”，而且“合规可用”。

例如结构化病历生成、理赔合理性判断，本质上都依赖专业知识与规则约束。

最后，是让输出直接成为交付物。

云知声大模型事业部总经理刘升平在接受采访时指出：“在输出层，U2 的每个 Token 承载的信息密度都极高。完成同样的任务，我们输出的 Token 数量往往比其他模型更少。”

这意味着，U2 不再停留于提供泛化的信息，而是直接输出“工作成果”，例如可运行的代码、结构化病历、标准格式的 PDF 或 Excel、可直接汇报的研究报告。

可以说，高价值 Token 并不是模型单独产生的，而是模型能力与行业系统共同作用的结果。

沿着这一路径，Token 的意义从一个单纯的技术名词，质变为可量化的商业指标：它对应着人工处理时间的缩短、业务流程的简化以及经营风险的降低。大模型的价值，不再是“生成内容”，而是“生成结果”。

三、围绕企业真实需求，U2 加速从“能力展示”走向“结果交付”

“U2 被定位为原生智能体模型，从核心技术看，它的尺寸和优化目标都是为执行智能体任务服务的。”刘升平博士在接受 InfoQ 采访时表示，公司更希望聚焦真实需求，通过大模型与 Harness 的协同进化，端到端地帮助用户完成想做的事情。

这也催生了一套全新的评估尺度：不再看回答是否流畅，而是看其是否具备理解复杂需求、拆解任务步骤、自主纠错并在有限轮次内输出可运行结果的能力。

根据最新公开的基准测试数据，U2 在长上下文、知识推理、指令遵循等支撑 Agent 能力的核心评测中均表现领先，超越 GLM-5.1、DeepSeek-V4-Flash 等主流竞品。

在我的实际测评中，这首先体现在软件工程任务上。

我给出的 Prompt 并不复杂，只是一个自然语言需求描述：“用网页做一个经典的俄罗斯方块小游戏，游戏规则与主流一致，要求所有代码写在一个文件里，我保存后双击就能在浏览器中直接玩。画面要好看一些，支持键盘方向键控制移动和变形，同时要有计分功能。”

这看似简单的 Prompt，实际上对模型提出了极高要求：它需要自主规划游戏逻辑、设计前端视觉、编写交互代码、实现键盘监听与计分，并严格遵守“单文件部署”的工程限制。

在执行这一任务时，U2 依托长程工作编排与自主纠错机制，在几分钟内便独立完成了游戏的开发与交付。整体执行路径清晰，思考过程凝练，最终产出的代码一次性通过了 27 项验证，稳定性表现突出。

除了软件工程，在金融分析领域，U2 同样能像一位专业投研助理一样，先理解问题、拆解关键变量，再判断外部信息影响并组织分析框架，最终输出一份结构严谨的分析报告；在日常办公场景中，很多用户也可以通过它直接产出可发送、可归档的会议纪要和可视化表格。

云知声对于“真实需求”的聚焦，也解释了其在垂直行业快速落地的原因：

例如，在保险与医保场景中，U2 模型可以将医学知识与理赔规则结合，参与费用合理性判断。这里的输出直接对应控费率、审核效率和风险控制，其商业价值远高于通用问答。

在车载与物联网场景中，U2 的能力体现为工程化：端侧部署、低延迟响应、隐私保护和多设备协同。这意味着，U2 大模型的商业形态不仅是云端服务，也可以是嵌入式能力和终端智能的一部分。

刘升平在采访中提到，那些任务链条长、结果可验证、并且直接影响成本或收入的行业，往往孕育着更大的需求。

U2 的商业出口正是这种高度具体的任务场景（高价值）：医疗、保险、软件工程、金融分析、办公自动化、物联网、工业流程等。

这种以结果为导向的策略，已经体现在云知声的财务回报上。数据显示，2025 年云知声大模型业务收入达到 6.1 亿元，同比增速达 1076%，收入占比突破 50%。这一收入结构，使得云知声在人均产值等核心人效指标上跃居中国 AI 企业第一梯队。

此外，受高质量场景 Token 需求爆发的带动，云知声 5 月的 Token 调用收入 ARR（年度经常性收入）环比增长达 600%，6 月预计可达到 1500w 美金，展现出极强的商业爆发力。

大模型竞争正在进入新的阶段：上半场比的是谁更会生成，下半场比的是谁更能交付。

U2 所做的，本质上是把模型能力、Agent 执行与行业场景绑定在一起，推动“大模型”从能力展示走向结果交付，而这很可能是企业级 AI 开始产生规模化价值的真正起点。

创作场景

云知声 U2，重新计算通用大模型的商业价值

一、高智能密度：不是每个任务都需要“院士开滴滴”

二、高 Token 价值：让企业不再为“废话”买单

三、围绕企业真实需求，U2 加速从“能力展示”走向“结果交付”