当搜索遇见 AIGC：京东零售的“千人千面”素材生成实践

在 AIGC 技术席卷各行业的浪潮中，视觉生成技术正成为重构电商生态的核心力量。当电商从“商品陈列”转向“内容驱动”，品牌对海量、多元、精准的视觉素材需求空前迫切，而传统人工制作模式早已难以应对存量市场下的效率与成本挑战。以大模型为核心的 AIGC 技术，恰好为这一痛点提供了破局方案。它不仅能实现商品图、带货视频的批量生成，更能基于用户画像打造“千人千面”的个性化素材，让内容从“大水漫灌”变为“精准滴灌”。从降低九成制作成本到提升三成转化率，AIGC 正推动电商内容生产从“创意手工业”迈入“智能工业化”新阶段，成为品牌增长的确定性引擎。

本文中，京东零售视觉与 AIGC 部负责人李岩博士，详细拆解了电商 2.0 时代“千人千面”的极致个性化商品素材生成的技术框架与落地实践，介绍了支撑该技术的两大核心模型，对商家赋能的实践，以及未来升级的展望，呈现 AIGC 驱动的电商个性化变革。

以下内容源自李岩在 2025 QCon 全球软件开发大会（上海站）的演讲（经 InfoQ 进行不改变原意的编辑整理）：

大家好，我是来自京东零售视觉与 AIGC 部的李岩，很高兴今天能有机会给大家做一场关于电商 AIGC 的技术分享，我分享的题目是《当搜索遇见 AIGC：京东零售的“千人千面”素材生成实践》。

这是我今天要分享的内容提纲，我会先和大家一起回顾一下电商的发展历程，然后给出我认为的电商 2.0 时代的几个典型特点，接着会在“千人千面”的商品素材生成这里展开详细讨论，最后给大家分享 AIGC 技术能为广大电商商家做些什么。接下来我们进入第一部分。

商品贸易的起源其实可以追溯到很早，据考证公元前 7000 年就已经出现了商品交易的雏形，但今天我们仅聚焦过去的一百年就好，20 世纪 60 年代以前，我们所有的交易都是发生在线下的，因为那个时期还没有真正意义的计算机出现，甚至 60 年代还经常可以看到一部分的物物交换。后来随着计算机技术的发展，EDP/EDI 技术的出现，电子商务正式进入了萌芽阶段。后面的故事，有很多大家都比较清楚了，上个世纪 90 年代出现了因特网，也正是在那个时期诞生了亚马逊、京东、阿里巴巴这样的线上交易平台。2005 年之后，伴随着移动互联网的浪潮，货架电商、内容电商纷纷展露出自己的竞争力，大家对流量的争夺也逐步进入了白热化，这个时期也出现了“千人千面”的搜索推荐，保守一些，我们姑且把这一阶段定义为电商的 1.0 时代。2022 年是不同寻常的一年，这一年年底出现了 ChatGPT，出现了 Midjourney，在大模型、具身智能、3D/XR 等新技术的涌现下，电商正式迈进了它的 2.0 时代，那么这个时代的电商会有什么体验和效率方面的进化呢，接下来我分享一下自己的理解。

首先是更加智能的供需匹配，从过去的“人找货”进化到“货找人”，借助大模型的世界知识结合用户行为与多维度画像，配合场景化的推荐，实现精准的用户需求匹配；其次是高效的供应链与物流体系，这里会有供应链的动态调度，会有无人车 / 无人机去实现最后一公里的效率优化；接着是全流程的 AI 服务，这个会贯穿售前到售后，借助多模态大模型达到 7*24 小时的全周期服务；当然体验上电商 2.0 时代也会突破原有的二维局限，打造可感知、可交互的沉浸式虚拟购物体验。最后，也是我今天要重点和大家分享的是，极致的个性化体验，即从“千人千面”的搜索推荐到“千人千面”的商品素材，这里涉及到多模态理解模型与 AIGC 视觉生成模型，接下来我会详细的给大家分享。

“千人千面”的搜索推荐，在这个时代大家肯定不陌生了，但是真正意义下“千人千面”的商品素材，其实作为消费者大家体感并不强烈，这也是整个电商行业和京东正在努力突破的技术产品方向之一。这个例子就非常典型，同样的一件冲锋衣，不同类型的买家关注点完全不一样。比如最左边的“户外功能需求型买家”，Ta 所关注的是功能型指标，例如防风性、防水性、面料科技等等，中间的“颜控型买家”，Ta 更多的则是关注服装本身的美观度、设计风格、以及与其他服装的搭配效果，所以商卡会呈现出较多 OOTD 相关的内容，也是一类非常典型的买家；最右边的买家同样典型，是“价格敏感型”，会关注促销活动、赠品、价格是否为全网最低价，所以商卡的呈现一直在 highlight 优惠相关的信息。通过解释这三个 case，大家应该也清楚了什么叫“千人千面”的商品素材。接下来，我就和大家分享如何从技术上去实现这一套业务框架。

这张图展示了“千人千面”商品素材生成的技术链路，我从左到右给大家做解释，输入侧我们需要商品的信息以及用户的信息，其实就是“货”的信息与“人”的信息，“货”这边我们能用到的信息包括商品的主图 / 商详图，评论区 / 问大家，参数规格等一系列商品 Meta 信息，当然这里面也可以引入一些关于商品的外部知识，通过 RAG 的方式接入模型；“人”这边我们能利用用户的历史行为以及用户画像，当然相关外部知识依然是受欢迎的。接着，我们将“人”与“货”的完备信息输入至电商零售领域的专有多模态大模型，模型会给出该商品呈现给该用户最合适的一些素材生成指令集，包括营销卖点、主图场景描述以及 Layout 布局设定，随后可控视觉生成模型会依据生成指令去生成符合要求的多套素材。然而这些生成的素材并不会直接投放到线上参与流量分发，而是会从效率角度先过一个质量预估模型，将明显不符合预期的素材进行前置淘汰，然后通过搜推系统进行流量分发。所以至此，我们介绍了链路中 1234 四个重要模型，他们分别承担着理解中枢、生成中枢、效率中枢以及分发中枢的角色。到这里链条还没有结束，因为分发到线上的素材会获得实际的用户反馈，而这些反馈可以帮助前面四个关键模型进行效果迭代，这是非常重要的。好了，我们总说“理想是丰满的，但现实却是骨感的”，之所以这样讲是因为这套技术框架其实是一种纯理想态，其中用户和商品的组合数是一个天文数字，而且无论是理解侧模型还是生成侧模型都无法做到实时的推理响应，所以整套技术框架在当前是无法支持在线推理的，更多的是近线甚至离线。所以我们说，个性化的素材生成其实是推理资源或推理效率与业务收益的一种 trade-off。

所以我们从可实际落地的角度对刚才的技术框架进行了一些改造，做一些退化，即从“千人千面”退化到“千人百面”甚至是“千人十面”，针对一个商品，我们努力把最可能匹配的 K 个用户群体支持好，相当于实现了人群粒度的个性化素材生成。这里人群挖掘的主要抓手依然是电商零售多模态大模型，也就是我们说的理解中枢，后面的流程相对一致，我就不再过多阐述了。

接下来，我用一个案例给大家做一下演示，这是一款京东京造的美式黑咖啡，我们将商品的全部 Meta 信息都输送给大模型，再配合上合适的系统指令，电商零售多模态大模型是可以给出这款商品可能适合的几个人群类型的，比如“健身爱好者”、“办公室白领”、“备考学生”、“控糖减脂人士”以及“户外爱好者”，这个地方起作用的除了商品本身的信息外，还有来自理解模型的世界知识，共同推导出了这几类潜在的消费对象。

有了这些目标人群，接下来再次通过电商零售多模态大模型去生成不同人群所对应的商品素材场景，然后通过可控视觉生成模型去完成完整的商品素材生成。最后大家看到的这些素材就是可以直接参与个性化投放的商品物料了。同时，大家可以看到，在这页幻灯片里，或者说在整个技术链条中，有两个基础模型非常关键，一个是圈 1 的电商零售多模态大模型，也就是我们的理解中枢，一个是圈 2 的可控视觉生成模型，即我们的生成中枢，接下来我将为大家介绍这两个模型的技术实现框架。

首先是电商零售多模态理解大模型，这个模型是一个经典的 Vision Language Model 的技术框架，可以看到不同的模态会通过专用的 Tokenizer 进行 Token 化，然后输入至一个 MoE 架构的 Decoder-only Large Language Model，这里面关键的技术难点不在于模型结构，而是如何在激活电商零售这个垂域推理能力的同时保持住原始模型的通用能力，所以右侧我们给大家分享了针对通用场景以及电商零售场景我们分别应该如何去设计训练任务以及如何收集训练数据。

这是整个模型后训练的算法框架，强化学习这里主要还是 Follow GRPO 的策略方案，根据 Question 去采样一个 Group 的 Answers，然后借助多维度的奖励模型进行分维度打分，这些维度既包含主观的关于逻辑一致性、表述清晰度的衡量，也包含利用传统 Measurement 工具的语义相似度衡量，同时还有基于规则的专门衡量 Format 的奖励机制。

这页幻灯片我们给出了一个真实的用于电商零售多模态大模型后训练的 CoT 训练样本，输入是包括商品标题、类目、价格、商详、用户评价以及商品主图在内的商品多模态信息，CoT 部分则是一个四步思考的推理链条，大家感兴趣的可以详细阅读。

这是我们提出的 OxygenVLM 的定量评测，评测集包括用于通用任务的开源评测集，也包括零售行业的业务评测集、电商评测集以及电商深度推理评测集，我们的目标是希望 OxygenVLM 相比基础通用 VLM 在开源评测集不损失性能，同时在零售行业评测集有较大优势。

第二个我们要详细介绍的模型是可控视觉生成模型，这是一个基于多条件的扩散模型，上面黄色部分都是模型的可控条件，这里除了扩散模型所必须的 Timestep 和文本 Prompt 外，商品主体、文字、布局 Layout、贴片都是可以作为可控条件输入的，不过之所以是大家现在看到的框架，本质原因还是生成模型的文本指令跟随能力较弱，未来我们会看到不同类型的可控条件都可以统一到一个自然语言描述的文本空间，同时理解模型也会和生成模型实现架构上的紧耦合。但是，站在业务的角度来看，电商领域的可控生成是所有领域中要求最高的，也是最严肃的场景，任何商品信息的改变都会引发非常严重的业务后果，所以到目前为止业务级端到端的素材生成可用率也是比较低的，这是行业现状。

这是我们总结出的过去两年的可控图像生成技术框架演变，从最早的 2023 年的 Stable Diffusion 加 ControlNet/ReferenceNet，到 2024 年初的 DiT 加 Redux，再到最近的通过 VAE 编码实现参考图、输入噪声的 Context 维度整合。当然上述这些框架都没有涉及到融合理解与生成统一的 Unified Model，而这才是未来通用可控视觉生成的基础。

这是我们 Oxygen 团队最新的多条件可控视觉生成的技术方案，大家感兴趣的可以翻阅。那至此，我们已经完整的介绍了“千人千面”的商品素材生成技术框架以及其中关键技术点的架构。接下来，我们看一看基于这样的技术，我们能为商家做些什么？

首先，我们从京东采销的视角来看看商家有着什么样的痛点。第一，商品多，活干不完，大家知道在京东我们有数百亿的动销商品，店铺平均 sku 达 4000 以上，以自营采销为例，平均每人要处理上万的 sku。第二，预算少，考核难，大家知道各个电商平台都在激进的进行价格战，在这个大背景下，全店铺商品的素材制作成本也是一笔不容忽视的成本开销。第三，活动多，变化快，商品、店铺、平台促销活动非常丰富，而采销精细化运营的能力其实是参差不齐的，且精力不足，因此在每个活动上的投入产出比具有非常大的不确定性。

针对这些痛点问题，过去一段时间我们通过京点点 AIGC 内容生成平台服务了京东零售超过 30 个业务场景，支持了 80 万以上的京东商家，每天京点点平台的 AIGC 能力调用量达 1000 万以上，内容生产效率提升了 95% 以上，同时也带来了生产成本上的大幅优化。

那么今天我们借 QCon 这个场合，也向大家正式发布我们焕新版的京点点平台，它也是整个 Oxygen 大模型家族中的一员，叫做 OxygenVision，这次升级我们从原来的工具箱式的 Graphical UI 升级到最新的 Linguistic UI + Graphical UI 的方式，实现了人与机器完全基于自然语言的交互形式。

具体地，我们带来了 4 个重大升级点。第一，对话式的人机交互，这里商家用户可以直接将自己的作图需求用自然语言的方式描述出来，包括场景、卖点、生图风格、生图数量等需求，当然如果没有明确的思路也可以把一切都交给大模型来让它发挥处理；第二，大模型规划与执行，大模型会根据用户的需求来自行拆解与规划任务，并调用相应的智能体和工具来逐步操作；第三，我们尽量从算法实现的角度来保证商品的一致性，同时也提供了更加多样化的呈现形式；第四，焕新版京点点平台内生成的素材可以无缝接入京东素材 AB 实验平台，帮助商家进行素材的实验验证。接下来，我给大家播放一个视频演示。

看完视频大家肯定都想了解下背后的技术实现，我这里用两页幻灯片给大家做一下分享。首先，毫无疑问，这是一个复杂的多智能体协同系统，提到智能体，现在应该还有一部分同学会觉得智能体就是一个 SOTA 的大模型加上一段 System Prompt 就能实现，其实真实的工业级应用智能体研发更像是冰山模型。左边这张图是我想要和大家分享的，一个完整的智能体系统只有 10% 的大模型，剩下水面下的 90% 都是软件工程。右边这张图是焕新版京点点平台的智能体技术模块框架图，这 90% 的工作量包含哪些呢，包含系统的高可用层（这里涉及到复杂的智能体状态管理、负载均衡、故障恢复以及健康监测等）、包含记忆存储、包含事件总线、包含上下文的处理器、管理器等等。这张图文字太小，当然不是为了让大家一定都能看清楚的，主要是为了能让大家感受到一个智能体系统提示词之外的工作量在哪里。

这张幻灯片展示了焕新版京点点平台的业务逻辑流转图，第一阶段是人机交互，这一阶段里用户将自己的需求描述给机器，机器来确认商品的相关信息是否完备，用户需求是否明确；第二阶段是非常经典的任务规划阶段，大模型在这个阶段要完成任务的拆解与规划，比如模型认为一个主图生产任务可以被分成 6 项工作，商品信息采集、智能抠图处理、模版风格匹配、文案内容生成、场景图像合成以及最终效果整合。所以，第三阶段的多智能体协作执行，在这个案例下就是有六个独立的智能体在串行执行。右上方是整个链路输出的实际素材效果。那我们整个焕新版京点点平台的技术框架就介绍到这里。

最后，也想和大家预告一下接下来我们要在京点点平台上发布的新能力。第一块是批量的素材生成能力，我们会支持商家指定店铺或者上传 sku 列表，彻底解放商家生产力；第二块是视频生成能力，我们会同时支持 5s 的主图短视频能力，也会支持 30s 的营销长视频生成能力；第三块是经营效果直驱能力，商家用户在进行需求表达的时候可以指定业务目标，比如是点击率目标还是转化率目标，系统会根据不同的业务目标调整素材生成策略；第四块是京点点平台对京东外部商家的支持，也会建立一些多语种跨区域的生成能力，来服务更多的跨境电商商家，让我们一起期待一下。时间的关系，我今天的分享就到这里，非常感谢大家，也欢迎大家试用我们的焕新版京点点平台，oxygen-vision.jd.com。

演讲嘉宾介绍

李岩，中科院计算所博士，现任京东零售视觉与 AIGC 部负责人，京东 AIGC 内容生成平台 -“京点点”产研算负责人，在京东主导构建全场景 AI 内容生成能力，推动 AIGC 技术在电商多场景的深度融合。此前，李岩是快手可灵 AI·可图大模型团队负责人，同时负责图像生成大模型的基座研发与应用落地。早年是微信视频号内容理解团队负责人，负责视频号全场景的内容理解业务。主要研究方向为多模态内容理解与生成技术，在人脸识别、图像理解、图像生成、视频生成等领域有 15 年以上的算法研发、业务落地及管理经验。多次荣获 AICon 全球人工智能开发与应用大会明星讲师。

创作场景

当搜索遇见 AIGC：京东零售的“千人千面”素材生成实践