2天时间，聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情 



 写点什么

抛弃“级联”架构！快手 OneRec 用大模型重构推荐系统，服务成本降至 1/10

作者 | 周国睿

编辑｜李忠良、蔡芳芳

策划｜AICon 全球人工智能开发与应用大会

传统级联式推荐将召回、粗排、精排与重排割裂，反馈难以闭环，模块间不一致持续累积，令算力利用效率（MFU：总消耗算力 /OPEX 可购最大算力）长期偏低，成为技术与业务演进的共同瓶颈。快手以生成式端到端架构 OneRec 重构推荐链路，在核心场景实现“更大模型、却更低成本”的跃迁：服务成本降至原系统的 1/10，并重新定义推荐系统的智能边界与效率标尺。快手科技副总裁、基础大模型及推荐模型负责人周国睿在 AICon 全球人工智能开发与应用大会上，系统解析了推荐系统的范式革新、 OneRecV2 的 scaling 定制优化，以及 OneRec-Think 的“生成—理解”统一进展，为 AI 原生时代的推荐提供可复制的方法论。

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。

传统推荐架构的规模化瓶颈与范式局限

传统推荐架构正成为技术与业务演进的瓶颈。从最早的规则引擎到线性模型，再到深度学习进入推荐、行为序列建模，每一次技术跃迁都伴随着可用算力的数量级提升。以 FM 到基于行为序列的精排模型为例，单个推荐 item 的计算量大约提升了 5 个数量级，同时带来显著效果增益。然而，近两年 LLM 突飞猛进，推荐领域却更多停留在精排等局部环节的微调上，整体创新进入瓶颈。如果我们仍将迭代重心局限于排序模块、围绕单点模型做细节优化，要获得数量级的提升将愈发困难。

能否直接借用 LLM 的技术栈与算力方案，重构一套端到端的推荐系统？

直接采用 LLM 架构来做推荐的想法，看似美好，但深入思考并不简单，根本原因在于 LLM 与推荐的在线服务场景差异巨大。推荐是典型的低延迟、高并发服务，需要实时响应海量请求；而在 Chatbot 等场景中，用户可以接受更长的等待时间，请求量也与推荐系统不在同一量级。

因此，当被询问“能不能用 LLM 来做推荐”时，团队往往会给出“想法很好但不现实”的反馈，常见理由有三点：其一，推荐模型本身已经很大。若将用于表示物料 ID 的稀疏 Embedding 计算在内，推荐模型规模已达 T 级（万亿参数级）；其二，延迟要求极为严苛，难以留出足够的推理时间，推荐需要毫秒级响应；其三，计算成本高，在信息流等场景中，大模型推理成本可能难以被业务收益覆盖。

这些观点初看合理，但经不起推敲。首先，对“模型已足够大”的判断应聚焦“激活参数”。在在线推理中，推荐模型的激活参数远小于典型语言模型：以快手为例约 250M；亦有同行 baseline 仅 16M，近期已提升至 1B，说明仍有充足的 scale-up 空间。若否认这一空间，推荐技术将难以演进——广义 Scaling Law 指出，在更低算力下难以获得更优效果。

其次，延迟无需过度焦虑，可通过离线、近线等机制加以解决。

更值得讨论的是成本：在推荐任务中引入大模型，在线推理成本能否由业务收益覆盖。与广义 AI 场景不同，推荐已是高度商业化、成熟的领域。只要引入大模型后效果提升、收益增加且可覆盖算力成本，就存在明确的商业驱动力——即便我们不做，也会有人去做。

实际上，仅从在线推理成本视角看，在多数场景下，使用激活参数约 10B 的模型做推荐，仍可维持很高的毛利。

以信息流场景进行测算为例。假设信息流业务 CPM 为 20 元，广告占比 10%。则 10,000 次曝光的收入为 20 元。以 DeepSeek 模型为参照，20 元可购买到“输入与输出各 2M Token”的算力（以 671B 总参数、激活 37B 的大模型为例）。在该价格下，其理论毛利约 84.5% 左右。这意味着，当我们同样以“输入与输出各 2M Token”的配置提供服务、并达到相当的性能优化时，10,000 次曝光对应的 20 元收入下，毛利仍可超过 80%。折算到单次曝光，可用的输入输出合计约为 200 Token。

对于需快速响应的推荐服务而言，200 Token 已能满足需求。上述仅为感性认识，下面给出更为严谨的测算。

仍以相同假设：千次广告曝光收入 20 元、广告占比 10%，则 10,000 次曝光收入 20 元，单次曝光收入为 0.002 元。若希望保持 80% 的“计算毛利”（仅考虑计算成本），则可投入的计算成本为收入的 20%，即单次曝光可投入 0.0004 元。

以 H20 为计算硬件，OPEX 约为 5.6 元 / 小时（云服务商公开报价，若自建可更低）。在此价格下，单次曝光可投入的 4/10,000 元对应约 15.2T FLOPs 的计算能力。这里已计入算力利用率（MFU）40%。

若采用 LLM 模型完成推荐，其计算开销主要由两项决定：模型尺寸 N 与 Token 数 D。设单次曝光服务消耗 1,000 Token，此为合理假设。则单次曝光可用的计算量约为 15.2T FLOPs ÷ 1,000 ÷ ≈ 7.6B 参数规模。

由此可见，只要业务满足“CPM 20 元、广告占比 10%”的量级，系统中使用约 7.6B 的模型进行在线服务在成本上是可行的。

上述结论与不少团队的直观感受存在差异，核心在于对 MFU 的假设不同。这里按 40% 计算，而传统级联式推荐系统（数据→召回→粗排→精排→重排）由于算力高度碎片化，MFU 往往极低，可能仅为 1% 甚至更低。

关于 MFU 的度量：在语言模型场景，可直接用“实际计算开销的 FLOPs ÷ 硬件峰值 FLOPs”计算；而在由多模块构成的推荐系统中，逐模块估算并不现实。

因此我们引入“广义 MFU”概念：以系统在一天内产生的推理 OPEX（人民币 / 美元）为基准，计算这些资金在市场上可购买的前沿 GPU 计算能力（T FLOPs）作为分母；以该系统当天实际发生的计算量（FLOPs）为分子；二者之比即为系统整体算力利用率。其含义是：增加计算量可以提升胜率，但无法突破模型的智能边界。

以 LLM 为例更易理解：其求解过程本质上是深度搜索，通过不断预测下一个 Token，令已生成的 Token 成为后续的上下文，并激活模型内部知识，答案由此逐步收敛。典型的 CoT 现象表明：序列越长，在编码与数学任务上的可解性越高。基于这一认识，我们将推荐系统设计为生成式范式。

OneRec 生成式推荐框架

OneRec 的总体架构如上图所示：首先，将原有稀疏 ID 通过多模态表征离散化为一串 Token 序列，记为语义 ID（Semantic ID，SID）；其次，使用 Behavior Transformer（类似 Encoder）对用户行为序列及相关特征进行处理；随后以多层 Decoder 进行生成，得到 Token，并反解回原始 item ID 或 video ID，完成推荐。

借此，OneRec 以单一模型覆盖召回、粗排、精排与重排，在全量候选空间中进行深层求解。实战中，强化学习带来显著增益，因此在训练与推理阶段均引入 Reward System，以明确“优质推荐”的目标信号。相应地，内部协作也做了调整：模型团队聚焦 Tokenizer、预训练方法与基础设施等底层技术；各业务算法团队负责界定“优质推荐”，并据此设计 Reward System。当前两者耦合顺畅，迭代效率良好。

先说明 Tokenizer 的方案。OneRec 将原始 ID 数据转化为类文本的 Token 体系。方法并不复杂：只要能为每个 ID 获得 Embedding 表征，即可采用离散化思路（类似 VAE）将其离散为 Token。关键在于表征质量：既要刻画内容本身（短视频“在说什么”），又要提炼与推荐最相关的信息（用户“真正关心什么”）。

以此例说明：多模态信息里会包含颜色等线索（如绿色葡萄）。但“绿色”未必影响用户决策，因此并非关键。若以该视频为查询，单纯从多模态内容相似度出发做检索，往往会返回其他“水果相关”的短视频——形似而神不似；用户看了“葡萄视频”，并不意味着想了解其他水果。

从协同信号视角看，例如使用线上“精排模型”的 Embedding 做检索，结果可能会倾向“挑选蔬菜”一类内容。这类相似性更多是“点击过 A 也可能点 B”的共现表征，仍然偏表层。

理想的做法是获得一个“既懂内容、又懂推荐”的 Embedding。我们在线上使用的 OneRec 表征便能识别更深层语义：该视频的核心在于“农药污染 / 食品安全”，因此会检索到其他食品安全相关的短视频。

具体实现上，底层采用 Vision-Language Model 处理视频原始信息（抽帧图像与作者文本等）。由于输入为变长，上层先得到一段变长的 Token 序列（每个位置输出一个向量 /Tensor），再通过 Q-Former 转换为定长向量，形成最终表征。该表征的关键：一是用 VLM 准确“读懂”视频；二是通过合理监督“教会”它对推荐有用。

我们引入两类 Loss：其一是 item-to-item，要求多模态表征空间中的相似关系与协同过滤视角一致（哪些更像、哪些不像），训练思路与 Clip 的对比学习相近，效率较高；其二是语义保持 loss，在表征后接入一个 Language Model，要求其根据该表征生成原始视频的细粒度描述，从而保留视频语义。

完成上述训练后，模型既能理解视频在“说什么”，又能抓住与推荐相关的关键信息。随后做离散化就相对简单。

这套 Tokenizer 的泛化性较强：即便线上系统数月不更新，也能编码最新上传的短视频，因为它仅依赖原始内容而非线上样本积累。同时，OneRec 只要完成新视频 ID 的编码，就能够对这些新视频进行推荐。

接下来介绍强化学习。OneRec 设计了三类奖励（Reward）：一类直接对应用户体验与兴趣偏好；一类体现业务偏好，即在保证用户体验的前提下满足生态约束（如创作者成长、营销等）；最后一类为编码规则约束。

先看兴趣偏好。传统系统通常针对点赞、关注、观看等大量目标分别建模，再通过手工或调参公式加权以选出最优结果。OneRec 将其简化为统一的逻辑输出（Logic），对上述信号进行一致化监督，并将该得分反馈给 OneRec，作为“用户喜欢什么”的直接指示。

其次是业务偏好。过去推荐系统常因产品 / 运营频繁介入，叠加众多业务目标而日益臃肿。传统流程需要先将“生态类”目标量化成可做 A/B Test 的指标，再让算法在各模块“加点东西”以优化该指标，长期导致系统冗余。端到端的 OneRec 则只需明确定义“业务—生态控制”的 Reward：例如要控制“营销感”内容占比，只需界定何为“营销感”并设定相应 Reward，将其纳入 OneRec 的奖励集合即可。系统能在天级完成响应，且所需样本量极少，约为 1/1000。

最后是编码规则约束。系统最终生成一系列 Semantic ID，并据此解码出待推荐的视频。类似 LLM 可能“说错话”，并非所有生成的 Semantic ID Token 都能映射到真实短视频。为此我们引入与 LLM 相似的“Format Reward”：只有能成功解码到真实视频的生成才计为正确，避免无效计算，本质上是一种“指令对齐”。引入后，整体“合法率”显著提升。

目前，OneRec 已在快手多项业务中规模化落地。以核心短视频推荐为例，在全量推送中仅以原线上系统推理成本的 1/10，即在更低计算成本下使用更大的模型并取得更优效果。针对“是否仅替换并降级 QPS 不公平”的质疑，我们在全量 QPS 流量对比中同样获得更优结果，这表明快手的端到端推荐方案已在整体上超越传统级推荐，并在大量业务场景稳定运行。

在完成短视频场景后，我们迅速拓展至本地生活与电商等营收场景，呈现两点特征：其一，子场景上线后的提升幅度显著；其二，迁移效率高，从短视频到其他场景的迁移周期约一个半月。短视频落地实验中，我们设置了三组对照：基线组；在不降级缓存 QPS 条件下由旧系统全面承载的“计算膨胀”组；以及由 OneRec 承接的实验组。

结果显示，OneRec 显著提升消费深度。快手为上下滑产品形态，在 OneRec 承载的流量部分，用户更愿意持续下滑，使我们能够插入更多视频与电商业化内容，从而获得更大的增量空间。

Lazy Decoder Only：推荐 Scaling 的定制

在第二版 OneRec 中，我们围绕 Decoder-Only 进行了定制化优化。早期版本采用 Encoder–Decoder 架构，但这一选择与不少大模型实践者的直觉并不一致：Encoder 侧难以体现明显的 Scaling Law 效应。为便于理解这些优化，接下来先交代样本的组织方式以及最初采用该架构的动因。

许多人谈到“用大模型做推荐”时，第一反应是将用户历史行为序列拼成文档，将每位用户的历史视作一篇 Doc，用“预测下一个行为”来完成推荐，这对应的是 Decoder-Only 架构。但在推荐场景中，这一做法不可行。

语言模型以 Doc 为单位训练，对全局时间排布并不敏感；而推荐必须严格遵守时间因果，这会造成严重的时间泄露。举例而言，用户 U1 的三次行为为 A→B→C。按 Next-Token Prediction 训练完 U1 的 Doc 后，再去训练用户 U2 的 Doc 时，模型实际上已经“见过”发生在某时刻（如 T4）之后的内容，再学习 B→C 的预测便会造成严重的时间泄露。这个问题我们仍在研究，目前尚无令人满意的通用解法；在时间泄露无法妥善解决之前，“用户 Doc + 下一行为预测”的范式难以成立。

因此，我们将用户行为序列拆解为曝光级样本：A 预测 B、B 预测 C，构造 A、AB、ABC 等样例。这样可确保训练严格服从数据的真实时间分布，这一点对推荐尤为关键。代价是计算开销——语言中的单向 Transformer 可复用前缀计算，而我们对用户历史的处理会被重复计算，导致效率下降。

进一步分析表明，早期的 Encoder–Decoder 方案存在计算与监督的错配：训练资源主要消耗在对用户历史的编码上（约占近 90% 的计算），而该 Encoder 并无直接的 Loss 监督；主要监督信号集中在 Decoder 的两处——解码“用户更喜欢哪个候选”的目标，以及 Token 级的 Next-Token Prediction。计算发生的位置与监督传递的位置错位，使得这部分参数与算力难以有效 scale，投入更多算力也难以带来成比例的效果提升。

据此我们进行了优化：在当前版本中，几乎移除了用户历史编码阶段的大部分计算，仅保留一个轻量投影；将主要算力集中到后端的 Decoder Transformer，使绝大多数计算用于“解码到底推荐哪个结果更好”。该优化带来约 94% 的训练资源节省；在等量资源下，过去可训练 0.5B 规模的模型，如今可训练到 8B，模型规模显著放大。

如上图曲线显示，随着模型规模的扩大，我们观察到损失呈平滑且可预测的下降趋势，这与 scaling law 拟合结果一致。

OneRec-Think：全模态生成理解统一基座

尽管 OneRec 属于生成式大模型，但目前仍以行为数据为主进行训练。我们正尝试将文本、图像与行为数据进行联合训练，目标是构建一个既能“说话”、又能“推理”的推荐模型。

为什么要这么做？语言模型具备强大的推理能力，随着 CoT 长度的增加，推理精度会持续提升。

其原理可以理解为：每当语言模型生成一个 Token，便会激活相应知识并扩展上下文；生成的推理 Token 越多，被调动的知识与可用上下文就越丰富。在数学等任务中，这种“深度搜索”的过程尤为明显；相对而言，推荐并不具备这一特性。传统方法强调“宽度搜索”，对大量候选集独立打分，各 item 的评分彼此独立，难以通过追加计算让模型进一步变得更“聪明”。现有的 OneRec 也难以从根本上解决这一点。虽然采用生成式范式，但其生成对象是 SID，难以直接进行 CoT 训练：一方面模型缺乏世界知识——未见过文本数据就很难理解“惊喜”“多样性”等概念；另一方面，基于人类难以直观解读的黑盒编码 Token 来设计 CoT 数据并不可行。

因此，我们转向将语言、视觉与行为 Token 进行联合训练，构建完全统一的基座，并在其上使用统一的语言模型完成解码与理解。

基于这一思路，我们将白色 Token 表示文本，橙色 Token 表示语义 ID（可解码到具体短视频），绿色 Token 表示图像。整体结构与典型的 Vision–Language 模型相似：底层以 ViT 等组件处理图像得到图像 Token，SID 则由自研 Tokenizer 产生，上层使用统一的 LLM 完成解码与理解。

这条路线可行性较高。不过，这并非“将多模态与行为数据简单混合再训练”即可奏效，关键在于构造足够多样的任务以支撑学习，类似多模态训练中同时提供图文对、Caption 与 VQA 等任务的做法。对应地，我们构建了丰富的 User QA 与视频 QA 任务。

当前推荐效果好于预期，但尚未超越线上仅以行为数据训练的模型；不过，这一方向的可行性已得到验证。借助模型的文本生成与推理能力，还可以开展交互式推荐：用户提出需求后，模型据此推理并返回相应结果。

更有意思的是，当用户提示发生变化（如“心情不好，想看些不同内容”）时，模型的思考路径会发生明显转折：在理解既往偏好的基础上，依据新的提示生成与之匹配的推荐。目前仍有两点需要进一步验证：其一，实际推荐效果尚未全面超越线上体系，但已具备可比性；其二，当前成本偏高，不适合全量在线应用。可以确定的是，我们已实现“生成—理解”统一、覆盖多模态的模型原型。

需要强调的是，互联网中的大量行为数据并非文本或图像即可覆盖，例如购买具体商品、点击特定短视频、点选某个外卖等，这些行为均基于 ID 体系。由此，行为数据与语言、图像数据具有天然的融合空间，有望催生更智能的模型，并提供更优的个性化服务。

嘉宾介绍：

周国睿，快手科技副总裁，基础大模型及推荐模型负责人。深耕推荐系统 / 计算广告 / 大模型 / 计算引擎等领域，主导代表工作：DIN/DIEN/SIM/XDL，推动了深度学习在推荐系统的应用和序列建模发展。目前主要带领 LLM/VLM 等基础模型工作，开源工作有 Keye 多模态大模型等，以及下一代端到端推荐大模型 OneRec 研发。目前 OneRec 已经在快手短视频主场景、电商货架、本地生活等业务全量生产化，取得突出业务增益。

活动推荐：

AI 重塑组织的浪潮已至，Agentic 企业时代正式开启！当 AI 不再是单纯的辅助工具，而是深度融入业务核心、驱动组织形态与运作逻辑全面革新的核心力量。

把握行业变革关键节点，12 月 19 日 - 20 日，AICon 全球人工智能开发与应用大会（北京站）即将重磅启幕！本届大会精准锚定行业前沿，聚焦大模型训练与推理、AI Agent、研发新范式与组织革新，邀您共同深入探讨：如何构建起可信赖、可规模化、可商业化的 Agentic 操作系统，让 AI 真正成为企业降本增效、突破增长天花板的核心引擎。

发布

暂无评论

创作场景

抛弃“级联”架构！快手 OneRec 用大模型重构推荐系统，服务成本降至 1/10

抛弃“级联”架构！快手 OneRec 用大模型重构推荐系统，服务成本降至 1/10

传统推荐架构的规模化瓶颈与范式局限

OneRec 生成式推荐框架

Lazy Decoder Only：推荐 Scaling 的定制

OneRec-Think：全模态生成理解统一基座

嘉宾介绍：

活动推荐：

评论

推荐阅读

电子书

大厂实战PPT下载