LLM 基座选型、数据集构建与产品落地的坑与对策

作者 | AICon 全球人工智能开发与应用大会

策划 | 李忠良

大模型在不同行业中的实际落地，涵盖了多个关键环节，包括数据集的构建、行业大模型的训练、评测、应用系统的构建以及最终的行业落地应用等。这些环节不仅是大模型成功应用的基础，也决定了其在各个行业中的表现和效果。

12 月 14 日，在 AICon 全球人工智能开发与应用大会2024 北京站【大模型行业落地实践】专题圆桌交流中，快手电商运营平台研发负责人袁首超担任主持人，与孩子王 AI 大模型负责人陈剑、摯文集团生态技术负责人李波、蚂蚁集团安全助理技术负责人岳汉，共同探讨大模型落地的相关问题。

部分精彩观点如下：

行业是否具备结构化知识体系，是决定该行业是否适合大模型应用的关键。
构建高质量数据集，可以类比为在奔跑时还要系鞋带。
建议选择两到三个具有特长的模型基座，并结合自己的训练进行微调。

以下内容基于现场速记整理，经 InfoQ 删减。

袁首超：在行业应用中，哪些场景更适合大模型的落地？

袁首超： 从快手的角度来看，我们目前在推进两个主要的业务场景。第一个场景是内容生产。快手始终定位于一个内容平台，因此我们在内容生产方面已经建立了三个重要的基座模型。第二个业务场景是电商领域，特别是在执行单一指令的过程中，涉及到多个业务领域和领域知识。一个典型的例子是小二助手，小二指的是我们电商行业的运营人员，他们执行单一指令，比如在大促期间组织一场直播。这一过程中需要涉及到相应的人员、产品能力以及整个直播流程的规则。通过大模型的支持，单一指令可以自动执行，并最终完成任务并反馈结果。

陈剑： 目前，大模型在文科领域的表现较强，特别是在创意性任务如作图、对话生成等方面。然而，在数学领域，尽管技术进步，短期内大模型在高精度要求的复杂计算场景中仍存在局限性。随着技术发展，智能化、自动化和重复性工作的场景值得进一步挖掘。

李波： 要理解大模型应用的突破性变化，首先要明确它在哪些领域具备优势；当前，在语言理解、逻辑推理、知识应用、数学和编程等方面相比过去的传统模型，大模型在这些领域的能力是显著提升的。因此，我们可以沿着这些方向挖掘出可能的应用突破方向。

其中，教育培训领域是目前最为典型的应用场景之一。大模型在知识赋能上具有强大优势，尤其在数学教学和英语对话等领域表现突出，已成为一个发展迅速的行业。另一方面，语言相关能力的应用也非常广泛，如智能客服、智能外呼以及知识问答等领域，这些传统业务也正在被大模型快速颠覆和改造。

岳汉： 从我们实际应用大模型的经验来看，可以从几个角度来分析。首先，从对内和对外的应用角度来看，对内的应用——特别是员工辅助工具的应用——通常更容易落地。因为员工对大模型工具的容忍度较高，尤其是在大模型的一些问题（如幻觉现象）尚未完全解决时，作为提效工具在内部的应用往往更为顺利。而对外的应用则面临更高的难度和复杂性，因为外部客户的需求更加多样化且复杂，模型需要解决更多实际问题。

另外，行业特点也是决定大模型能否成功落地的关键因素。特别是行业是否拥有足够庞大且结构化的知识体系，这将直接影响大模型的应用效果。比如，教育培训行业由于有大量的结构化题目和答案，能够更容易地实现大模型的应用。类似的，程序员常用的编码辅助工具也是因为之前积累了大量的代码用例库，使得大模型能够快速理解并生成有价值的输出。

袁首超：在现有企业的技术和业务环境中，很多应用和平台是在 AI 大模型爆发之前已经建立并运行的（即存量应用）。面对 AI 大模型的快速发展，如何将其有效嵌入到这些传统或存量应用中？

岳汉： 我认为关键是设计一种能够自我适应大模型进化的方式。大模型将快速进化，我们的应用需要能够快速自我改造，避免每次大模型变化时都需重新适配，这样可以实现长期发展。具体操作时，需要结合每个产品的特点，分析哪些功能可以与大模型结合。比如，大模型在知识处理和内容生成方面具有优势，可以在许多场景中落地应用。

李波： 每次技术浪潮都会带来业务上的革新，例如从 PC 互联网到移动互联网的转变，信息分发上从搜索延伸到推荐。这次大模型的技术浪潮和过去不太一样的地方是，大模型的影响范围太广了，已经改变了信息的生产、理解到分发的完整链路。从信息的生产环节，大模型在文档编撰、文案写作、广告创意生成等领域已经发挥了巨大的作用；在信息的理解上，从过去相对单一模态的理解已经扩展到了全模态的内容理解，大模型能够非常自如的理解一个混合模态的内容；在信息分发方面，传统搜索正转向大模型驱动的精准问答搜索，推荐领域也在逐渐走向生成式推荐的方向。

陈剑： 我举两个具体场景来说明。首先是在开发代码领域，如何让旧代码与 AI 结合提升效率。针对不同场景，实施方案会有所不同。例如，在研发领域，AI 对新手程序员帮助巨大。调查显示，90% 的新手程序员反馈 AI 编程助手效果很好。但对于工作经验超过 10 年的老程序员来说，反馈大多是负面的，他们认为生成的代码质量较差。老程序员更倾向于用高质量代码训练 AI，而新手程序员的能力边界尚未建立，AI 对他们的帮助更大。因此，我认为未来研发领域的 AI 应用应采用“AI+ 新手程序员”模式，帮助新手提高效率，而对于有经验的程序员，AI 可以协助处理重复性高的工作。

另一个场景是销售领域，例如 AI 销售助手的应用。销售品种繁多，每个品类的细节也不相同，每种产品的核心属性、适用年龄段等都不同。在这种情况下，AI 可以帮助整理高质量的商品信息，提升销售系统的效率。因此，AI 在不同领域的应用范式不同，需要具体情况具体分析。

袁首超： 在电商领域，我们常说 AI 重构经营链路，但从 1 到 2 的转变需要长时间的过渡期。在这个过程中，需要逐步迭代，进行实验和调整，最终实现目标。在落地时，我们应从 AI 在哪些领域能为用户创造更大价值的角度出发，优先解决商家最痛的痛点，例如成本控制和销量提升。我们会根据价值和难易度优先级，选定核心场景进行试点，实施 AB 测试和实时调优，确保获得最佳结果。完成第一个试点后，后续的工作会更容易，按优先级继续推进。

袁首超：在行业应用中，如何进行基座大模型的技术选型，以确保最佳的落地效果？

陈剑： 首先需要考虑的是公司是否长期存在。如果公司不存在，模型也可能会随之消失。其次，当前的模型训练方法和数据质量不尽相同，虽然普遍采用 Transformer 架构，但不同模型的特长和应用场景有很大差异，像提示词的忠诚度等问题可能影响生成的准确性。

因此，从应用角度来看，建议选择两到三个具有特长的模型基座，并结合自己的训练进行微调。大模型虽然智能化程度高，但其能力是有限的，某些领域可能特别强，而在其他领域则可能较弱。所以，最好采用多模型协同和定制化训练的方式，不局限于单一基础模型。

李波： 基模选型的问题不是一个单纯的问题，首先需要明确应用场景。比如，场景是否复杂，是否需要强化推理能力，或者是角色对话场景，是否需要强调口语化能力等等。只有在明确具体需求后，模型选型才有针对性；

在实践中，模型选型可以分为几个步骤。首先，企业需要具备大模型的快速接入能力，方便做模型的横向对比和测试，便于掌握不同基座模型的特性和成本。其次，需要掌握大模工作流的部署能力，像 Coze 或 Dify 等平台可以帮助快速搭建针对垂直业务场景的完整服务流程，这对业务效果评估至关重要。面向特定应用场景，建议先通过简单的 Prompt Engineering 的方式快速搭建 workflow，投入到线上回收反馈；通过线上的反馈，来判断模型的能力缺陷和业务问题的具体难点，以及是否需要进一步通过 Post-train 等方式来强化模型的效果。

岳汉： 我们可以回顾一下当前业界对大模型调用的几种常见方式。大厂如阿里、腾讯、字节等通常会自研大模型；另一种方式是使用开源模型进行本地部署，这在一些企业中也很常见；还有一种则是通过 API 的方式，采用 SaaS 化服务远程调用外部模型。

我认为，基座的选型并不是那么关键，因为不同模型在不同时间段、不同应用场景下的效果可能差异很大。现在可能某个模型表现最好，但一年后，另一个模型可能就会超越它。模型迭代的速度非常快，因此我们更需要关注的是使用大模型的模式选择，是自研、开源本地部署，还是使用 SaaS 服务。特别是在过去两年，大模型领域经历了百模大战、千模大战，但未来几年，模型的数量可能会大幅收敛。因此，更重要的是考虑如何部署我们的模型，这将直接影响到未来的训练和迭代策略。

袁首超： 在技术选型时，首先要明确目标：你希望达成什么效果，重点考虑哪些因素？其次，要考虑未来的升级和迭代支持，避免技术“过时”。第三，选型要兼顾公司基础设施的接受程度，包括维护成本和资源投入。

在基座选型时，根据业务场景选择合适的模型，如内容生产、绘画或大语言模型等。大厂的通用大模型维护性较好，但自研模型在灵活性和迭代效率上可能更适合特定需求。最后，要考虑公司基础设施的适应性，并根据实际情况做出选择。

袁首超：如何构建高质量的大模型行业数据集？

李波： 数据获取主要有几种途径。第一种是开源数据，互联网中一些公开的，相对 Common 类型的数据（如大规模文本、图片、图文对齐语料等）比较容易获得。第二种途径是购买数据，尤其是一些相对垂直领域的数据，在公开场景中较难以获取，可以考虑从一些专门在大模型数据领域深耕的公司来购买。第三种方式是利用大模型来清洗或者合成的方式来获取高质量数据，也是未来会越来越重要的一个途径；数据清洗上，可以利用大模型构建一个 judge 来对比较粗的数据集进行清洗，或者人机协作的方式来清洗；数据合成上，利用大模型对批量业务数据进行打标，或者利用大模型迭代过程中的结果构建偏序数据，也可以针对某个特定问题，针对性进行批量数据合成，来提升模型特定能力等等。

岳汉： 我补充一下高质量数据集的获取渠道，主要有两种：一是外部数据，如开源数据或购买的数据；二是企业内部数据，特别是企业在运营过程中产生的结构化数据。外部数据源相对有限，而企业内部数据的构建与基建布局密切相关。内部数据的存储和结构化处理对于数据集的构建至关重要。

然而，数据获取只是前半部分，关键在于数据处理。在训练模型之前，数据需要进行充分的清洗、分类、去噪和检测。如果这一步没做好，后续补救将会付出巨大的代价。因此，数据质量的检测和处理是确保数据集有效性的关键。

陈剑： 数据集的收集和整理是一个复杂且具有挑战性的任务，可以类比为在奔跑时还要系鞋带。现实世界中提高孩子成绩的方式也有相似之处。例如，孩子可以通过优秀的老师（如 GPT-4）进行辅导，从而获得更高效的知识传授，类似于通过大模型获取高质量数据来训练。除了老师辅导，孩子还可以通过自己做笔记，或者通过不断刷题来巩固学习内容，类似于数据的自主收集和整理。

对于数据集的收集，有几个常见方式。首先，企业可以通过组织内部的方式收集数据。这要求有足够的组织支持，因为如果没有合适的激励机制和资源，员工可能无法高质量地完成数据的收集工作。特别是当这些数据不作为员工的 KPI 时，收集的质量可能不高，甚至可能带有怨气，影响最终的结果。另外一个方法是通过爬虫从互联网获取数据。这种方式可以快速收集大量的公开数据，但需要注意的是，这其中涉及知识产权和数据合规性问题，因此需要谨慎操作。

观众：对于预训练和 SFT 的数据量，老师们有什么建议吗？

陈剑： 以我们自己为例，在育儿知识这一垂直领域，我们拥有大约 3.2w 条高质量数据集，这些数据大部分是公开的。同时，我了解一些中药领域的大型模型，它们的训练数据量大约在 3 到 4 万条之间。当数据量过多时，可能会遇到过拟合的问题，这样模型的泛化能力会下降。因此，如果是一个垂直领域的数据集，数据量大致在 10B 上下，2 到 3 万条高质量数据加上适当的参数调优就足够了。

另外，数据的分布也需要特别注意。对于这 3 万条高质量数据，必须涵盖领域内的所有场景和维度，避免出现大量重复的内容，或者内容过于狭窄、与主题不相关。以育儿领域为例，如果涉及到宝宝发烧怎么办，那么除了发烧的处理方法，还需要涵盖奶粉选择、奶瓶选择、补钙等各个维度的知识。

观众：收集数据时的质量标准是如何制定的？规范如何实施？

岳汉： 尽管安全本身是一个垂直领域，但在这个领域内部，还有很多不同的知识类别。因此，我们将安全知识大致分为十多个类目。每个类目都由该领域的专家或相关的运营团队负责整理和分类。这个过程有些是基于已有的知识进行转换，有些则是重新生成和导出的。

每个领域的知识生成方式可能不同。根据我们的经验，每个领域的知识都应该由该领域的专家或团队负责，因为最终我们训练的模型是要解决该领域的问题。如果知识本身不符合某些标准，那么该领域的问题就无法得到有效解决，最终会影响团队的效率。简而言之，我们依靠人工把控这一过程，当然，也使用一些辅助工具，如自动标注和自动打标，但最终的决定还是依赖于人工确认。

观众：对 SFT 的多样性方面有没有工具推荐？

岳汉： 关于数据的多样性，我们的来源主要分为两部分：一部分来自我们自己整理的知识，另一部分则是通过线上实时生成的，包括用户反馈等。不过，从实际经验来看，线上用户的反馈往往是非常多样化的，用户的问题种类繁多，这些反馈为我们提供了很多启发。通过用户的反馈和实际互动，我们意识到一些问题和问题类型，可能之前没有纳入我们的考虑范围。通过这些反馈，我们能够感知到一些之前未覆盖的数据类型，并在后续进行补充和完善。

李波： 你提到的 SFT 数据，我认为我们需要进一步聚焦，明确是需要训练出一个基座，还是专注于一个垂直领域的业务应用，这两者之间存在较大的差异。在 SFT 数据的处理中，除了依赖人工抽样和标记外，目前还有一个非常重要的方案，就是利用大模型来构建 judge 方案。通过大模型 judge，我们可以从多个维度来评估数据集，或者评估模型本身的能力。通过这种方式，我们可以更好地识别数据集和模型中的缺陷，并进行相应的优化。在构建 judge 的过程中，可以使用一些能力比较强大的大模型，能够有效地帮助我们评估和提升整个系统的表现。

观众：请问各位老师，是否有在探索大模型面向岗位的应用，即为每个员工提供能力提升的支持？同时，是否认为大模型在这一领域的应用是可行的？

袁首超： 我们确实在探索这方面的应用，但整个实施过程仍然依赖于各位老师刚才提到的关键问题——知识的积累。首先，需要通过人工判断什么算是成功的经验，这些成功经验可能是某个优秀案例，能够解决特定场景中的问题。然后，我们会对这些案例进行分类，归类完成后再整合到我们的模型中。最终，我们提供的形式也是偏向问答类的，因此可以归类为知识问答的场景。与现有的基于确定性文件或固定输出键的方式不同，我们在数据输入上需要对内容进行把关，确保输入的数据是高质量的。最终，仍然需要人工判断哪些内容是有价值的、适合作为建议输出的。

活动推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下，变革与机遇交织，挑战与突破共生。2025 年 4 月 10 - 12 日，QCon 全球软件开发大会将在北京召开，以 “智能融合，引领未来” 为年度主题，汇聚各领域的技术先行者以及创新实践者，为行业发展拨云见日。现在报名可以享受 8 折优惠，单张门票立省 1360 元，详情可联系票务经理 18514549229 咨询。

创作场景

LLM 基座选型、数据集构建与产品落地的坑与对策

活动推荐