写点什么

深度访谈:阿里云 X 平头哥,模型推理提升 13 倍背后的秘密

  • 2026-04-15
    北京
  • 本文字数:8850 字

    阅读完需:约 29 分钟

2026 年开年不久的 AI 圈,似乎比去年更加热闹。

OpenClaw 在短短几个月里,成为开发者圈几乎“人手一只”的本地助手,甚至引得部委和协会出手预警潜在安全隐患;各类 AI Coding 工具的评测和榜单铺天盖地,谁家开发者一年“烧掉”了多少亿 Token,这种费钱的事儿也成了新的流量素材;不同于 Qwen 不断上新,DeepSeek 持续发布新论文,V4 的时间点被一再猜测;

这些看上去分散的事件,背后其实都在指向同一条主线:AI 的焦点正转向推理。

模型越来越聪明,智能体越来越能干活、越来越会干活。但企业首先要面对的,是另一组更现实的问题:一次调用究竟消耗多少算力,复杂任务的延迟能不能降下来,系统成本会不会先于业务价值一起失控。

也正因此,引发行业关注的,已经不只是“能力还能提升多少”,而是“推理效率还能被重写到什么程度”;AI Coding 被密集讨论,也不只是因为它能替开发者多写几行代码,而是因为所有人都越来越直观地意识到:模型能力每向前一步,推理成本都可能被同步放大。

而当 OpenClaw 和一众 Agent 框架把智能体从聊天窗口里放出来,大家对"推理"的期待更是被进一步放大。它不再只为一次问答调用,而是要支撑长时运行、工具调用、多轮决策和真实权限交互的完整链路。

于是,各种关于推理的矛盾开始集中显形:

一边是算力供给依然紧张,国内算力与顶级 GPU 之间的差距,逼着工程师在量化、并行、MoE、通信等环节不断“抠细节”;

一边是模型结构与工作流快速演化,从 Chat 到 Thinking,再到能够长时间自主运行的 Agent,单次任务对推理吞吐、上下文长度和系统稳定性的要求同时抬升;

另一边,监管与安全预警也在不断提醒行业:默认“全能”的智能体如果没有边界,不只是贵,还可能危险。

这也意味着,“推理范式”已经不再是一个单纯的工程优化问题,而是一条贯穿芯片、云平台、模型团队和业务场景的共同问题链:有限的算力究竟应该优先分配给哪里?是让模型想得更久一点,还是让它更快把事情做完?是继续追求极致的单卡性能,还是在成本、时延与安全之间重建平衡?

带着这些问题,我们请来了两位站在不同层级的一线从业者——长期在云端推理系统里“抠性能”的阿里云专有云推理加速负责人冯梦轲(翼宏),以及在芯片与算力架构一侧“抠极限”的平头哥半导体产品总监黄伟(金甲)。

接下来的对话,将从这些热点事件切入,沿着推理范式、AI Coding、企业智能体与国产算力的多重拉扯,去拆解一个正在决定行业走向的核心问题:当推理性能与推理成本成为新一轮 AI 竞赛的主战场,整个产业会被推向哪里。

一、推理范式现状及变化

主持人:每年年初,AI 行业都会有不少重要变化,今年也不例外。虽然没有去年的 DeepSeek 发布,但今年有 OpenClaw 以及一系列相关进展。两位今年印象最深的一件事是什么?

冯梦轲(翼宏):我感受最深的是,推理加速技术带来的“推背感”很强。从 To B 场景的 AI Coding,到 To C 场景的 OpenClaw,它们都在迅速成为行业共识,并得到广泛应用。这里面一个关键变化是,大模型正在从“对话”阶段走向“做事”阶段。

去年年初,像 DeepSeek R1 的出现,包括从 GPT-5 到 GPT-5.1,Chat 模式下的变化更多体现在对话体验和语气个性化上,用户体感并没有那么明显。相比之下,To B 场景的 AI Coding 在过去半年发生了很大变化,甚至正在重塑整个计算机行业的工作方式。比如在硅谷,求职时会讨论入职后能拿到多少 Token 配额;也有人晒出自己一年在 Cursor 上消耗超过百亿 Token 的账单。

另外,在 Agent 场景下,越来越多人愿意为更强的模型付费。因为同样解决 10 个问题,更强的模型可能做对 8 到 9 个,弱一些的模型可能只能做对 5 到 6 个,而人工修正的时间成本很高。所以从这个角度看,模型的智能水平基本就等于生产力水平。随着大模型开始真正做事,(好的模型)生产效率还会持续提升。

黄伟(金甲):我印象最深的,一是集团的千问 APP 上已经可以点奶茶,二是 OpenClaw 的火热。这两件事说明,AI 模型正在从认知智能走向行为智能。

我入行比较早,从 2016 年 ResNet 在图像识别上超过人类开始,我就一直觉得,AI 技术是在沿着从感知、到认知、再到行为的路径持续演进。今天看到这两件事,更能说明这种转变正在发生。

而这种转变,对芯片从业者尤其重要。因为每一次智能形态的变化,都会带来底层硬件和算力需求的变化。比如从 ResNet 到 BERT,算力需求是从单卡走向单机;到了大模型时代,又从单机走向集群。每一代技术,对底层硬件的需求都不一样。这种变化不仅是技术演进,也意味着新的产业机会。

主持人:刚才两位老师提到的不同现象,背后其实都指向同一个根源,就是底层推理性能的提升。没有推理性能,上层很多应用都跑不通。所以想请教两位,当前大家看到的推理范式是什么样的,未来又会怎么变化?

冯梦轲(翼宏):前段时间 GTC,黄仁勋把推理大致分成三个阶段:从 Chat,到 Thinking,再到 Agent 化的执行模式。国内发展更快,很多场景已经从单纯的 Chat,直接走向融合 Thinking、Agent 和 Coding 的新模式,尤其 AI Coding 已经成为行业共识。

我觉得今年还有两个方向会迎来明显增长:一个是 AI for Science,另一个是企业智能体。

AI for Science 对应的是大模型最复杂的一类任务场景,而且相对可验证。前段时间有研究案例显示,研究人员把实验数据输入大模型后,大模型不仅提出了合理假设,还被后续实验验证,最终形成论文。这说明顶尖模型已经开始真正加速科学研究。

企业智能体也是类似逻辑,它和 OpenClaw 很像,核心都在于长期记忆和工具使用能力。但在 To B 场景里,企业智能体的想象空间更大,对生产效率的提升也更直接,所以我认为这会是今年的重要趋势。

在具体的推理范式方面,我觉得关键看两个维度:一是序列长度,二是模型在做什么。Chat 场景下,每轮输入输出通常只有几百到一千 Token;Thinking 场景会进一步拉长到几千 Token;到了 Agent 场景,模型不仅要对话,还要调用工具、执行任务、再做总结,整个过程可能在 10 分钟内处理超过百万 Token。

这和过去的 Chat 模式已经完全不同。尤其在 Agent 模式下,上下文窗口被打满会非常常见,再加上长期记忆的引入,对推理技术提出了更高要求。不仅需要多级 KV Cache 等技术,也对底层算力带来更大挑战。因为序列越长,计算复杂度越高,推理的难度也会持续上升。

黄伟(金甲):大模型的演进,本质上是从认知智能走向行为智能,而现在只是开始。未来几年,像具身智能、Physical AI 这些方向的持续升温,都说明行业在探索让 AI 真正影响物理世界。

站在芯片和底层硬件的角度看,我觉得未来推理范式的变化,至少会带来三方面要求。

  1. 模型要更聪明。大家都希望模型一次能解决 8 到 9 个问题,而不是只解决 5 到 6 个。这背后既依赖模型算法演进,也依赖更充足的底层算力,让它算得更快、更好。尤其是面向具身智能,模型还需要更好地理解和处理物理世界。

    安全性会越来越重要。模型能力越强,大家对它的依赖越高,一旦出问题,影响也会更大。所以不仅模型本身要安全,底层算力和硬件也要具备更强的安全保障能力,确保模型始终运行在安全边界内。从这个角度看,很多安全问题最终都需要在硬件层面建立根能力。

  2. 时效性会成为关键。尤其当 AI 开始影响物理世界时,很多任务不能无限等待,它必须在限定时间内完成决策和动作。所以未来推理算力不仅要强,还要快,要在更短时间内提供更高的 Token Throughput。这会是非常明确的演进方向。

二、推理加速技术优先级,与软硬协同的优化方法

主持人:如果再往里看一层,就绕不开推理优化技术。想请教两位老师,目前主流的推理优化技术有哪些?如果排一个优先级,你们心中最重要的一项是什么?为什么?

黄伟(金甲):推理优化涉及很多层面,包括模型量化与压缩、底层算子优化、框架优化、内存效率优化,以及底层硬件和上层系统的协同优化。

如果从芯片视角看,我认为优先级最高的是模型量化和压缩。因为量化的本质,是不断逼近更低精度的极限。从 FP32 到 FP16,再到 FP8,甚至 FP4,每下降一个精度等级,往往都意味着在同样硅面积下可以提供更高算力,同时内存容量和带宽需求也会明显下降。这样一来,推理成本会大幅降低,ROI 非常直接,最终用户也最容易受益。

此外,AI 技术迭代很快,变化不只发生在模型层,也包括框架、基础设施和芯片架构。因此,另一个非常关键的方向是从模型到芯片的协同优化。只有上下层联动,才能真正实现 1+1 大于 2,把收益传递到最终应用端

从现在的发展看,量化已经进展很快。两三年前行业还主要讨论 FP16 混合精度,现在 FP8 已经普遍应用,FP4 也开始进入训练和推理。至于未来能否继续走到更低精度,比如 2bit,技术上正在探索,但能否真正大规模落地,还需要继续观察。

冯梦轲(翼宏):我和黄老师的判断比较一致:推理优化不是靠单点突破,而是一个多维协同的系统工程。

从业务场景看,主流的推理优化技术大致包括 PD 分离、并行策略、投机采样策略和 KV Cache 管理。不同场景下,重点也不一样。比如超长序列场景,需要组合流水线并行、Context 并行和张量并行;超低延迟场景,需要扩大专家并行规模,用更多卡分摊计算压力;Agent 场景则更依赖多级 KV Cache 缓存能力。所以我认为,推理优化的关键不在于单一技术,而在于根据业务场景灵活组合不同能力,同时配合软硬结合的工程优化。

但如果一定要选一个我最看重的方向,我会选和 MoE 相关的优化。过去一段时间里,很多关键的推理优化其实都和 MoE 有关,比如专家并行、面向 MoE 的新通信算子库,以及专家负载均衡。这些技术虽然是近一两年才快速发展起来的,但对整体推理性能的提升非常明显。

主持人:两位刚才都提到软硬协同优化,但这也带来一个长期问题:国内产业里硬件很多、模型也很多,端到端优化到底该怎么做?是用一套通用框架去适配多种模型,还是点对点地做定向优化?现在行业通常怎么做,哪种方式更优?

冯梦轲(翼宏):我认为,推理基础设施要想做到极致性能,向上必须结合具体模型结构,向下必须结合具体硬件做深度优化。因为推理技术不是独立演进的,它始终是由新场景、新模型和新硬件共同驱动的。

先看场景。像 Agent、Deep Research 这类应用出现后,10 分钟内处理数百万 Token 已经成为现实需求,这就带来了超长序列、超低延迟等新场景,也推动了流水线并行、大规模专家并行等部署方式的发展。

再看硬件。每一代新硬件出现,都需要重新做算子优化。尤其是国内新一代芯片开始支持 64 卡、128 卡直连的超节点形态后,跨节点通信不再是主要瓶颈,模型并行策略也会随之变化。

最后是模型。最近一些新模型开始引入线性注意力、稀疏注意力等新结构,替代传统 Self-Attention,这也要求我们在特定硬件上重新探索最优支持方式。

所以我的判断是,推理优化一定要围绕新场景、新硬件、新模型做深度适配,才能把性能真正释放出来。当然,底层推理特性本身仍然具有一定通用性。

黄伟(金甲):我觉得这不是一个非此即彼的问题,而是通用框架和定向优化需要长期并存。理想状态当然是,一套通用框架尽可能适配所有模型,这也是行业共同的目标。但在当前阶段,模型、框架、基础设施和芯片架构都在快速演进,要完全做到这一点并不现实。

从实际情况看,比较成熟的模型和技术经过多年打磨,通常已经能在通用框架上实现比较好的效果,基本可以开箱即用。

但对于新模型、新技术,尤其是在架构还不稳定、还在快速迭代的时候,如果不做定向优化,很难真正跑出应有的效果。

硬件也是一样。即便是同一家厂商,从 A100 到 H100,再到新一代架构,底层设计都在变化,也不可能用同一套方法完全覆盖,还是需要针对具体硬件做适配。

所以我认为,通用框架解决的是“覆盖面”问题,让更多模型先跑起来;定向优化解决的是“性能上限”问题,只有针对具体场景、具体模型、具体硬件做深度优化,才能把硬件能力真正压出来,达到最优效果。现阶段,更现实的做法就是两条路并行推进。

主持人:前不久,阿里云在云栖大会上提到,推理加速效果已经提升到 9.2 倍,这是一个非常惊人的数字。这背后贡献最大的技术变量是什么?这个提升是怎么实现的?

冯梦轲(翼宏):去年云栖大会上,我们在 PPU 芯片上,针对 DeepSeek 这类主流开源模型实现了 9.2 倍的性能提升。最近,这个数字已经进一步提升到 13.1 倍。

我觉得背后主要有三个关键因素。

第一,是深度参与社区。过去一年,推理加速发展非常快,我们也是通过持续参与社区演进,在 PPU 芯片上落地了关键的并行策略、投机采样等推理特性。

第二,是热点算子优化。针对 INT8、GroupGEMM 等热点算子,我们重点提升了访存效率和算子性能。

第三,是面向集群推理场景做能力创新,这一点也非常关键。这里举两个例子。

一个是 MoE 模型的专家路由优化。MoE 模型里有大量点对点通信,但在当前非对称互联拓扑下,并不是任意两张 GPU 都直连,整体带宽利用率会受影响。针对这个问题,我们动态分析 Token 路由路径,识别不同数据流中的公共部分,再通过环状通信做合并传输,最终在单算子层面实现了 1.57 倍的性能提升。

另一个是大 EP 部署模式下的优化。大 EP 最早由 DeepSeek 提出,去年也得到了广泛应用。它通过扩大集群规模提升性能,但同时也会带来更高的通信开销。针对这个问题,我们把传统“先传输、后量化”的模式重构为“先量化、后传输”,把整体传输数据量减半,最终在单算子层面实现了 1.7 倍的性能提升。

总体来看,这 13.1 倍的提升不是依靠单点突破,而是由推理特性优化、热点算子优化和集群能力创新共同实现的。在一些实际业务场景中,已经能够提供接近高端 GPU 卡的推理服务能力。

至于为什么过去通常采用“先传输、后量化”的顺序,主要还是沿用了训练场景下的技术惯性。训练对精度更敏感,所以通常会优先保证高精度计算,帮助 loss 更好收敛。但推理场景不完全一样,它更强调精度、性能和成本之间的平衡。因此在部分场景下,可以接受局部精度损失,换取整体性能提升,同时保证全局效果基本无损。

当然,这种方式也要分场景使用。比如文档处理类任务对精度不那么敏感,就更适合这种优化;但像 AI Coding 这类代码生成场景,对精度更敏感,就需要采用更稳妥的高精度方案。

三、推理加速技术的瓶颈与未来发展

主持人:我们都知道,推理加速和推理调优还有很大提升空间,尤其在国内更是如此。但如果继续往下走,当前最主要的技术瓶颈是什么?两位所在的产业链位置不同,看到的问题可能也不一样。

黄伟(金甲):这个话题业内讨论很多。对国内算力来说,比较明显的瓶颈首先还是硬件能力本身,与英伟达相比,在实际算力上仍有差距。其次是生态能力,以及 AI 算力向集群化发展后带来的互联通信问题。

现在无论训练还是推理,模型一旦进入大规模集群阶段,通信成本都在快速上升。像 MoE 这类模型,通信开销尤其突出。很多创新方案本质上不是消除了通信成本,而是通过计算与通信并行,把这部分代价尽量隐藏起来。这也说明,通信已经成为底层非常关键的瓶颈。

从芯片角度,我们能做的主要是继续在底层架构上创新,包括通信加速库、通信算子优化,以及模型并行过程中对内存使用和调度的优化。但真正要解决问题,仍然要靠从底到上的协同优化。

底层算力只能提供机制和接口,能不能把这些能力和具体业务、具体模型特征结合起来,真正发挥价值,单靠芯片厂商是做不到的。因为对业务的理解、对模型的理解,上下游天然存在差异,所以软硬件的垂直协同非常关键。

从这个意义上说,推理优化不可能是孤立完成的,只有越往上延伸、越做垂直整合,最终效果才会越好。

冯梦轲(翼宏):从实际业务场景看,我对这个问题相对乐观。如果从推理端到端效果来看,国内芯片和国际先进水平的差距,其实没有想象中那么大。

现在新一代国内芯片,峰值算力基本已经能超过 1PFLOPS,显存带宽也能做到 3 到 4TB/s。即便和 B200 相比,在显存带宽和 GPU 互联带宽上,差距已经不到一倍;真正更大的差距主要体现在算力上。

但在推理场景里,算力差距的影响并没有那么大,因为整个推理过程中,大部分算子其实是访存密集型,真正明显受算力约束的,主要还是长序列场景。因为 Attention 的计算复杂度会随着序列长度快速上升。

不过,这一问题也在通过模型结构创新不断缓解。比如我们最近在 PPU 上支持了千问 3.5 的线性注意力机制,在 Prefill 阶段实现了 2 倍以上性能提升,在 Decoder 阶段实现了 3 倍以上提升。

所以我觉得,国内芯片在硬件上的差异,反而倒逼大家更多从推理加速、算子优化和模型结构优化上寻找突破。基于国内芯片,在云平台、推理系统和模型结构之间做联合优化,正在成为一条非常重要的技术路线。

换句话说,硬件短期内未必能一步追平,但软件和模型层面仍然有很大的优化空间,而且这些优化完全可以在业务效果基本不变的前提下,带来数倍的性能提升。

主持人:接下来想聊一个更务实的话题。我们发展算力,不是为了替代,而是为了用更好的算力支撑 AI 性能持续提升,推动整个产业更繁荣。要实现这个目标,关键是什么?当下最高优先级的事情是什么?

冯梦轲(翼宏):我觉得最近 GTC 上黄仁勋提出的“Token 工厂”这个概念很有代表性。它的核心逻辑是:在保证推理服务 SLA 的前提下,持续降低百万 Token 的推理成本。

从当前进展看,基于国内芯片,在常规序列场景下,已经能够提供接近高端 GPU 的推理服务水平;在模型能力上,也可以支撑千亿到万亿参数模型的在线服务;在集群规模上,已经能够稳定支撑千卡级推理集群;在交互体验上,也能提供每秒 50 个 Token 以上的低延迟响应。

但对“Token 工厂”来说,最大的现实约束是延迟、并发和成本之间始终存在“不可能三角”。追求更低延迟和更高并发,必然需要更多资源;一味压低成本,又会影响响应速度和用户体验。这不仅是国产芯片面临的问题,也是所有推理系统共同面对的问题。

所以如果看大规模交付,我认为最关键的有三点:第一是成本,第二是稳定性,第三是硬件兼容性。稳定性方面,阿里专有云已经提供了从集群、实例到进程的三层容错机制,提升推理服务可靠性;兼容性方面,我们也在通过异构 PD 分离等方式,支持不同芯片的混合推理。

所以我认为,当下最高优先级的事情,就是围绕成本、稳定性和兼容性,把推理服务真正做成可规模化交付的基础设施。

黄伟(金甲):我基本认同刚才的判断。我从芯片视角补充一点:一款芯片要真正实现大规模商用,关键不只是性能本身,还取决于成本控制、迁移门槛和上下游协同。

以平头哥为例,我们之所以能够通过阿里云服务大量业务和客户,一个重要原因就是自研程度很高。不只是芯片架构本身,包括软件栈、通信总线协议、通信库等,很多关键部分都是自研的。这样做的好处,一方面是可以更有效地控制芯片和软件成本,另一方面也能把很多复杂性留在底层内部消化。

对业务方来说,更重要的是迁移成本被显著降低了。无论是迁移代价还是技术门槛,都不需要由业务侧承担太多,这样他们才能更容易接受和使用新的算力体系。

此外,另一个关键点还是协同。我们和通义实验室、阿里云在芯片、基础设施和模型层面做了纵向打通,把很多优化放在一体化体系里完成。这样不仅能提升整体效果,也能把底层硬件复杂度隐藏起来,让业务方尽可能沿用原有的使用方式。

所以在我看来,当下最高优先级的事情,首先是降低迁移成本,其次是做好纵向协同。只有这样,更好的算力才能真正被用起来,转化为产业发展的实际推动力。

主持人:翼宏,我知道阿里最近有一个突破,就是 AI Stack 和千问 3 结合,实现了“1+1 大于 2”的效果。我很好奇,这个增益主要体现在哪儿?是单卡性能、集群调度,还是整条交互链路都有提升?

冯梦轲(翼宏):这是专有云、平头哥和通义实验室联合优化的成果。我们在 PPU 芯片上发布了千问 3 Pro 专属模型,通过模型结构和推理技术的协同优化,在精度持平的前提下实现了性能翻倍。换句话说,在相同业务场景下,推理成本可以直接降低一半。

这里的核心思路是两点:让模型更匹配硬件,让推理技术更匹配模型。

在模型侧,我们做了精准瘦身,重新设计了模型结构和激活参数,使推理过程中的计算密度更适配硬件算力;同时进行了重新预训练和针对性强化学习,使模型在文本推理、代码生成和多模态任务上的效果与开源千问 3 基本持平,部分场景甚至更优。

在推理侧,我们围绕新的模型结构做了深度优化,包括调整 Tensor 分块、线程布局和流水线深度,提升访存效率和算子密度;同时针对 MoE 专家做了智能排布,按照调用量进行负载均衡,并对热点专家做冗余部署。

所以,这个“1+1 大于 2”的增益,不是单点提升,而是模型、推理、芯片和云平台协同优化后的整体结果。它体现的也不只是单卡或调度优化,而是整条推理链路效率的系统性提升。

主持人:最后想聊一个更有前瞻性的话题。GTC 2026 上,黄仁勋提到,AI 下一阶段的竞争将更多体现在推理效率,也就是系统级优化和生态能力的竞争。站在两位的角度看,未来一年推理加速还会有哪些变化?

冯梦轲(翼宏):我觉得有一个趋势非常确定:随着模型结构和芯片持续迭代,未来一年推理成本还有望再下降一个数量级。

从应用上看,除了企业智能体和 AI for Science 这两个方向之外,更大的变化在于,大模型正在成为新的社会生产基础设施。在这个基础设施之上,一方面,现有应用会被 AI 持续重构,比如购物、出行、企业 ERP、视频剪辑等;另一方面,AI 也会催生出全新的应用形态。

后者其实更难预测,但也更值得期待。我们正处在一个技术拐点上,随时可能出现新的突破,并迅速演变成行业共识,像 AI Coding 和 OpenClaw 就是典型例子。

所以我认为,未来一年推理加速不仅会继续降本,还会推动更多新场景和新应用落地。与此同时,基于国内芯片和国产云平台的 AI 基础设施,也会在这一轮发展中发挥越来越重要的作用,不仅能用好用,甚至逐步走向领先。

黄伟(金甲):我认为,至少在未来一年,AI 推理市场一定会继续高速增长,Token 消耗的速度已经很能说明问题了。需求传导到算力侧,最明确的信号就是降本。无论是通过软件优化进一步榨干硬件效率,还是推出新一代硬件,核心目标都会是提升推理性价比。

但从更长远的角度看,推理和训练有一个很大的不同:推理成本是和业务量直接相关的,业务增长越快,推理需求就越大。所以推理算力未来比拼的,不只是峰值算力有多高,而是能不能更高效、更智能地匹配业务场景。

换句话说,未来推理加速的重点,不只是算得更快,还要更懂业务、更贴近场景。最终,芯片和底层技术的演进,还是要服务于业务需求和场景变化。