在医院诊室里,一台设备放在医生桌上。
它所面对的,并非标准、安静、线性的输入环境,而是一个极度复杂的真实场景:多组医患同时交谈,患者话没说完,家属已在插话补充;医生一边问诊,一边快速敲击键盘;方言、噪声、寒暄与关键病症信息混杂在一起。
过去,这类场景面临的挑战通常被归为“语音识别”问题——只需把声音转成文字。但当大模型深度介入后,问题性质发生了根本性改变。
模型不仅要“听见”,更要理解和判断:谁在说话?哪些信息是关键内容?哪些应录入病历?是否需要触发临床质控与检查建议?最终,这些信息还要无缝写入医院的 HIS 系统,且尽量不改变医生原有的工作习惯。
这一典型场景折射出了大模型行业当下最本质的痛点:当模型离开聊天窗口,进入真实的业务现场,它到底应该具备什么样的能力?
云知声对这个问题的回答,是其新一代基座模型——U2 大模型。
云知声创始人 &CEO 黄伟将 U2 的核心定位概括为三点:不是更大,而是更会干活;不是生成更多 Token,而是让 Token 更有价值;不是给出一次漂亮回答,而是端到端完成任务。
作为云知声基座模型的一次里程碑式升级,U2 从设计之初就摒弃了“以参数规模和文本生成为中心”的传统路径,全面围绕“任务执行(Task Execution)”展开。它的模型尺寸、训练目标与优化路径,均指向规划、工具调用、多步执行与结果验收。
通过提出“高智能密度”与“高价值 Token”两大核心指标,云知声正试图重新定义通用大模型的效率与商业价值,它面向的不只是企业级应用,也包括个人用户、开发者和各类智能终端场景。
一、高智能密度:不是每个任务都需要“院士开滴滴”
大模型发展早期,行业默认一条铁律:参数越大,能力越强;能力越强,应用价值就越高。但在具体场景中,这条路径很快撞上了现实的南墙。
“参数规模本身,并不能直接转化为应用价值。”
例如,To C 端的用户,不会因为模型参数大,就顺利、快速、低成本地跑完一个任务。To B 端的医院也不会因为模型达到万亿参数就改变现有的诊疗流程,保险公司也不会因为榜单排名提升就降低审核标准。
真正决定用户体验的,永远是具体而确定的执行结果:能否降低了成本?能否减少了风险?能否提升运转效率,并稳定嵌入现有系统?
与此对应的是,参数规模的盲目攀升带来了算力和部署成本的指数级暴涨。持续“堆参”正逐渐偏离了大模型最优解。
“我们是否可以用更有限的参数,获得接近超大模型的有效能力?”这是云知声提出的追问,也是“高智能密度”概念的出发点。
在黄伟看来,高智能密度不等于做“小模型”,而是强调在单位参数、单位算力中承载更多“可用智能”。企业场景不需要无限高的能力上限,而是需要足够强、足够稳、成本可控、可反复调用的执行力。
为了实现这一目标,U2 在数据、架构、训练和执行框架四个维度进行了系统性重构:
首先是数据。模型训练从规模优先,转向信息密度优先。
对面向 Agent 的模型而言,语料的关键不在于“量”,而在于其是否承载了行业逻辑与任务知识。
U2 在训练中大幅提升了代码、流程图、任务轨迹和真实业务数据的占比,过滤掉低质和娱乐化内容。在同等长度的文本中,操作流程、病历规则、系统日志所包含的可迁移能力,远高于泛化对话。
叠加云知声在医疗、物联网等场景沉淀十余年的数据,模型在训练之初就贴近真实业务,而非受困于互联网语料的表层分布。
其次是架构。U2 通过 MoE 机制降低“能力调用成本”。
U2 采用 MoE 架构,其知识密度更高,单次任务激活的参数量可低至总参数量的 1/10 甚至更少。在注意力机制上,U2 引入并混合了线性注意力,进一步提升推理效率。
通过精准的路由机制“训练”,模型能根据不同输入选择最合适的参数路径。这使得模型在面对复杂的 Agent 任务时,能以极低的计算成本完成理解、规划与执行,避免了“满功率”空转。
然后是训练。模型训练目标从“回答问题”,转向“完成任务”。
通过循序渐进的“课程学习”,U2 被逐步训练为一个合格的“执行者”:从简单任务到复杂任务,从短上下文到长链路,从单步调用到多步规划,通过逐步喂给大模型,来确保训练充分。
同时,U2 在 Agent 任务轨迹中引入了过程监督方法,围绕任务完成度和进展情况对重点节点进行即时评估,通过教师模型优化执行路径。在多环节的 Agent 场景中,只优化最终答案是不够的,必须在中间步骤中引入约束与反馈,才能形成稳定的执行习惯。
最后是执行框架。模型与 Harness 协同演进。
企业任务本质上是复杂的工作流,而非单轮对话。模型必须与外部工具、数据库和业务系统深度协同。
U2 在训练阶段就融入了执行环境,使其天然具备调用工具、管理状态和闭环完成任务的能力。通过模型与 Harness 的协同训练机制,U2 将模型能力提升与 Harness 的迭代优化纳入同一闭环:模型能力的突破持续揭露 Harness 的新边界,更完善的 Harness 又为下一轮强化学习提供更高保真的奖励信号,进而反哺模型优化,实现两者的双向演进。
这些底层设计指向同一个终点:在更低实际计算成本下,让模型获得稳定、可复用的任务执行力。大模型的优化方向,由此从“更大”转向“更有效”。
二、高 Token 价值:让企业不再为“废话”买单
如果说“高智能密度”解决了性能与算力成本的平衡,那么另一个关键问题则是:模型生成的 Token 究竟能换回多少业务价值?
行业内常讨论的“Token 效率(Token efficiency)”往往站在生产端视角,即如何用更低算力生成更多 Token。但在企业级应用中,衡量尺度必须是结果导向的。
如果大量 Token 被消耗在无意义的闲聊和冗余推理中,其成本不可控,价值也极低;反之,若少量的 Token 能直接生成一份合格的病历、一行可运行的代码或一份精准的审核结论,其单位价值将成倍放大。
云知声提出的“高 Token 价值”,本质上是在引入一种结果导向的商业衡量标准。它不仅减少了 Token 的数量,更重构了 Token 从输入到交付的完整链路:
为了实现高价值 Token,首先是让输入更“干净”。
企业任务的输入往往是“混杂”的上下文,包括对话、规则、附件、历史记录和工具返回结果。真正有效的信息只占其中一部分。
U2 基于业务规则,在输入端率先完成信息的筛选与重组,确保模型基于高质量的输入进行提炼,从源头上提高 Token 效率。
其次是压缩“无效思考”。复杂任务需要多步推理,但企业用户需要的是可验证的结论,而非冗余的“思维链”展示。
U2 通过“隐式思考”,将部分推理过程压缩在连续隐藏状态中,在高维空间并行探索多条推理路径,只在必要时显示输出关键路径与结论。这在保留推理能力的同时,大幅减少了中间过程的 Token 消耗,把“思考过程”内化为模型的能力。
然后是用行业知识约束结果质量。在医疗、保险等容错率极低的行业,仅靠通用语言能力极易产生“幻觉”。U2 将云知声沉淀多年的行业知识图谱、业务规则与合规要求直接纳入生成过程,确保输出结果不仅“通顺”,而且“合规可用”。
例如结构化病历生成、理赔合理性判断,本质上都依赖专业知识与规则约束。
最后,是让输出直接成为交付物。
云知声大模型事业部总经理刘升平在接受采访时指出:“在输出层,U2 的每个 Token 承载的信息密度都极高。完成同样的任务,我们输出的 Token 数量往往比其他模型更少。”
这意味着,U2 不再停留于提供泛化的信息,而是直接输出“工作成果”,例如可运行的代码、结构化病历、标准格式的 PDF 或 Excel、可直接汇报的研究报告。
可以说,高价值 Token 并不是模型单独产生的,而是模型能力与行业系统共同作用的结果。
沿着这一路径,Token 的意义从一个单纯的技术名词,质变为可量化的商业指标:它对应着人工处理时间的缩短、业务流程的简化以及经营风险的降低。大模型的价值,不再是“生成内容”,而是“生成结果”。
三、围绕企业真实需求,U2 加速从“能力展示”走向“结果交付”
“U2 被定位为原生智能体模型,从核心技术看,它的尺寸和优化目标都是为执行智能体任务服务的。”刘升平博士在接受 InfoQ 采访时表示,公司更希望聚焦真实需求,通过大模型与 Harness 的协同进化,端到端地帮助用户完成想做的事情。
这也催生了一套全新的评估尺度:不再看回答是否流畅,而是看其是否具备理解复杂需求、拆解任务步骤、自主纠错并在有限轮次内输出可运行结果的能力。
根据最新公开的基准测试数据,U2 在长上下文、知识推理、指令遵循等支撑 Agent 能力的核心评测中均表现领先,超越 GLM-5.1、DeepSeek-V4-Flash 等主流竞品。

在我的实际测评中,这首先体现在软件工程任务上。
我给出的 Prompt 并不复杂,只是一个自然语言需求描述:“用网页做一个经典的俄罗斯方块小游戏,游戏规则与主流一致,要求所有代码写在一个文件里,我保存后双击就能在浏览器中直接玩。画面要好看一些,支持键盘方向键控制移动和变形,同时要有计分功能。”

这看似简单的 Prompt,实际上对模型提出了极高要求:它需要自主规划游戏逻辑、设计前端视觉、编写交互代码、实现键盘监听与计分,并严格遵守“单文件部署”的工程限制。

在执行这一任务时,U2 依托长程工作编排与自主纠错机制,在几分钟内便独立完成了游戏的开发与交付。整体执行路径清晰,思考过程凝练,最终产出的代码一次性通过了 27 项验证,稳定性表现突出。

除了软件工程,在金融分析领域,U2 同样能像一位专业投研助理一样,先理解问题、拆解关键变量,再判断外部信息影响并组织分析框架,最终输出一份结构严谨的分析报告;在日常办公场景中,很多用户也可以通过它直接产出可发送、可归档的会议纪要和可视化表格。
云知声对于“真实需求”的聚焦,也解释了其在垂直行业快速落地的原因:
例如,在保险与医保场景中,U2 模型可以将医学知识与理赔规则结合,参与费用合理性判断。这里的输出直接对应控费率、审核效率和风险控制,其商业价值远高于通用问答。
在车载与物联网场景中,U2 的能力体现为工程化:端侧部署、低延迟响应、隐私保护和多设备协同。这意味着,U2 大模型的商业形态不仅是云端服务,也可以是嵌入式能力和终端智能的一部分。
刘升平在采访中提到,那些任务链条长、结果可验证、并且直接影响成本或收入的行业,往往孕育着更大的需求。
U2 的商业出口正是这种高度具体的任务场景(高价值):医疗、保险、软件工程、金融分析、办公自动化、物联网、工业流程等。
这种以结果为导向的策略,已经体现在云知声的财务回报上。数据显示,2025 年云知声大模型业务收入达到 6.1 亿元,同比增速达 1076%,收入占比突破 50%。这一收入结构,使得云知声在人均产值等核心人效指标上跃居中国 AI 企业第一梯队。
此外,受高质量场景 Token 需求爆发的带动,云知声 5 月的 Token 调用收入 ARR(年度经常性收入)环比增长达 600%,6 月预计可达到 1500w 美金,展现出极强的商业爆发力。
大模型竞争正在进入新的阶段:上半场比的是谁更会生成,下半场比的是谁更能交付。
U2 所做的,本质上是把模型能力、Agent 执行与行业场景绑定在一起,推动“大模型”从能力展示走向结果交付,而这很可能是企业级 AI 开始产生规模化价值的真正起点。





