QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

LLM 基座选型、数据集构建与产品落地的坑与对策

李忠良

  • 2025-01-07
    北京
  • 本文字数:6122 字

    阅读完需:约 20 分钟

LLM 基座选型、数据集构建与产品落地的坑与对策

作者 | AICon 全球人工智能开发与应用大会


策划 | 李忠良


大模型在不同行业中的实际落地,涵盖了多个关键环节,包括数据集的构建、行业大模型的训练、评测、应用系统的构建以及最终的行业落地应用等。这些环节不仅是大模型成功应用的基础,也决定了其在各个行业中的表现和效果。


12 月 14 日,在 AICon 全球人工智能开发与应用大会2024 北京站 【大模型行业落地实践】专题圆桌交流中,快手电商运营平台研发负责人袁首超担任主持人,与孩子王 AI 大模型负责人陈剑、摯文集团生态技术负责人李波、蚂蚁集团安全助理技术负责人岳汉,共同探讨大模型落地的相关问题。


部分精彩观点如下


  • 行业是否具备结构化知识体系,是决定该行业是否适合大模型应用的关键。

  • 构建高质量数据集,可以类比为在奔跑时还要系鞋带。

  • 建议选择两到三个具有特长的模型基座,并结合自己的训练进行微调。


以下内容基于现场速记整理,经 InfoQ 删减。


袁首超:在行业应用中,哪些场景更适合大模型的落地?


袁首超: 从快手的角度来看,我们目前在推进两个主要的业务场景。第一个场景是内容生产。快手始终定位于一个内容平台,因此我们在内容生产方面已经建立了三个重要的基座模型。第二个业务场景是电商领域,特别是在执行单一指令的过程中,涉及到多个业务领域和领域知识。一个典型的例子是小二助手,小二指的是我们电商行业的运营人员,他们执行单一指令,比如在大促期间组织一场直播。这一过程中需要涉及到相应的人员、产品能力以及整个直播流程的规则。通过大模型的支持,单一指令可以自动执行,并最终完成任务并反馈结果。


陈剑: 目前,大模型在文科领域的表现较强,特别是在创意性任务如作图、对话生成等方面。然而,在数学领域,尽管技术进步,短期内大模型在高精度要求的复杂计算场景中仍存在局限性。随着技术发展,智能化、自动化和重复性工作的场景值得进一步挖掘。


李波: 要理解大模型应用的突破性变化,首先要明确它在哪些领域具备优势;当前,在语言理解、逻辑推理、知识应用、数学和编程等方面相比过去的传统模型,大模型在这些领域的能力是显著提升的。因此,我们可以沿着这些方向挖掘出可能的应用突破方向。


其中,教育培训领域是目前最为典型的应用场景之一。大模型在知识赋能上具有强大优势,尤其在数学教学和英语对话等领域表现突出,已成为一个发展迅速的行业。另一方面,语言相关能力的应用也非常广泛,如智能客服、智能外呼以及知识问答等领域,这些传统业务也正在被大模型快速颠覆和改造。


岳汉: 从我们实际应用大模型的经验来看,可以从几个角度来分析。首先,从对内和对外的应用角度来看,对内的应用——特别是员工辅助工具的应用——通常更容易落地。因为员工对大模型工具的容忍度较高,尤其是在大模型的一些问题(如幻觉现象)尚未完全解决时,作为提效工具在内部的应用往往更为顺利。而对外的应用则面临更高的难度和复杂性,因为外部客户的需求更加多样化且复杂,模型需要解决更多实际问题。


另外,行业特点也是决定大模型能否成功落地的关键因素。特别是行业是否拥有足够庞大且结构化的知识体系,这将直接影响大模型的应用效果。比如,教育培训行业由于有大量的结构化题目和答案,能够更容易地实现大模型的应用。类似的,程序员常用的编码辅助工具也是因为之前积累了大量的代码用例库,使得大模型能够快速理解并生成有价值的输出。


袁首超:在现有企业的技术和业务环境中,很多应用和平台是在 AI 大模型爆发之前已经建立并运行的(即存量应用)。面对 AI 大模型的快速发展,如何将其有效嵌入到这些传统或存量应用中?


岳汉: 我认为关键是设计一种能够自我适应大模型进化的方式。大模型将快速进化,我们的应用需要能够快速自我改造,避免每次大模型变化时都需重新适配,这样可以实现长期发展。具体操作时,需要结合每个产品的特点,分析哪些功能可以与大模型结合。比如,大模型在知识处理和内容生成方面具有优势,可以在许多场景中落地应用。


李波: 每次技术浪潮都会带来业务上的革新,例如从 PC 互联网到移动互联网的转变,信息分发上从搜索延伸到推荐。这次大模型的技术浪潮和过去不太一样的地方是,大模型的影响范围太广了,已经改变了信息的生产、理解到分发的完整链路。从信息的生产环节,大模型在文档编撰、文案写作、广告创意生成等领域已经发挥了巨大的作用;在信息的理解上,从过去相对单一模态的理解已经扩展到了全模态的内容理解,大模型能够非常自如的理解一个混合模态的内容;在信息分发方面,传统搜索正转向大模型驱动的精准问答搜索,推荐领域也在逐渐走向生成式推荐的方向。


陈剑: 我举两个具体场景来说明。首先是在开发代码领域,如何让旧代码与 AI 结合提升效率。针对不同场景,实施方案会有所不同。例如,在研发领域,AI 对新手程序员帮助巨大。调查显示,90% 的新手程序员反馈 AI 编程助手效果很好。但对于工作经验超过 10 年的老程序员来说,反馈大多是负面的,他们认为生成的代码质量较差。老程序员更倾向于用高质量代码训练 AI,而新手程序员的能力边界尚未建立,AI 对他们的帮助更大。因此,我认为未来研发领域的 AI 应用应采用“AI+ 新手程序员”模式,帮助新手提高效率,而对于有经验的程序员,AI 可以协助处理重复性高的工作。


另一个场景是销售领域,例如 AI 销售助手的应用。销售品种繁多,每个品类的细节也不相同,每种产品的核心属性、适用年龄段等都不同。在这种情况下,AI 可以帮助整理高质量的商品信息,提升销售系统的效率。因此,AI 在不同领域的应用范式不同,需要具体情况具体分析。


袁首超: 在电商领域,我们常说 AI 重构经营链路,但从 1 到 2 的转变需要长时间的过渡期。在这个过程中,需要逐步迭代,进行实验和调整,最终实现目标。在落地时,我们应从 AI 在哪些领域能为用户创造更大价值的角度出发,优先解决商家最痛的痛点,例如成本控制和销量提升。我们会根据价值和难易度优先级,选定核心场景进行试点,实施 AB 测试和实时调优,确保获得最佳结果。完成第一个试点后,后续的工作会更容易,按优先级继续推进。


袁首超:在行业应用中,如何进行基座大模型的技术选型,以确保最佳的落地效果?


陈剑: 首先需要考虑的是公司是否长期存在。如果公司不存在,模型也可能会随之消失。其次,当前的模型训练方法和数据质量不尽相同,虽然普遍采用 Transformer 架构,但不同模型的特长和应用场景有很大差异,像提示词的忠诚度等问题可能影响生成的准确性。


因此,从应用角度来看,建议选择两到三个具有特长的模型基座,并结合自己的训练进行微调。大模型虽然智能化程度高,但其能力是有限的,某些领域可能特别强,而在其他领域则可能较弱。所以,最好采用多模型协同和定制化训练的方式,不局限于单一基础模型。


李波: 基模选型的问题不是一个单纯的问题,首先需要明确应用场景。比如,场景是否复杂,是否需要强化推理能力,或者是角色对话场景,是否需要强调口语化能力等等。只有在明确具体需求后,模型选型才有针对性;


在实践中,模型选型可以分为几个步骤。首先,企业需要具备大模型的快速接入能力,方便做模型的横向对比和测试,便于掌握不同基座模型的特性和成本。其次,需要掌握大模工作流的部署能力,像 Coze 或 Dify 等平台可以帮助快速搭建针对垂直业务场景的完整服务流程,这对业务效果评估至关重要。面向特定应用场景,建议先通过简单的 Prompt Engineering 的方式快速搭建 workflow,投入到线上回收反馈;通过线上的反馈,来判断模型的能力缺陷和业务问题的具体难点,以及是否需要进一步通过 Post-train 等方式来强化模型的效果。


岳汉: 我们可以回顾一下当前业界对大模型调用的几种常见方式。大厂如阿里、腾讯、字节等通常会自研大模型;另一种方式是使用开源模型进行本地部署,这在一些企业中也很常见;还有一种则是通过 API 的方式,采用 SaaS 化服务远程调用外部模型。


我认为,基座的选型并不是那么关键,因为不同模型在不同时间段、不同应用场景下的效果可能差异很大。现在可能某个模型表现最好,但一年后,另一个模型可能就会超越它。模型迭代的速度非常快,因此我们更需要关注的是使用大模型的模式选择,是自研、开源本地部署,还是使用 SaaS 服务。特别是在过去两年,大模型领域经历了百模大战、千模大战,但未来几年,模型的数量可能会大幅收敛。因此,更重要的是考虑如何部署我们的模型,这将直接影响到未来的训练和迭代策略。


袁首超: 在技术选型时,首先要明确目标:你希望达成什么效果,重点考虑哪些因素?其次,要考虑未来的升级和迭代支持,避免技术“过时”。第三,选型要兼顾公司基础设施的接受程度,包括维护成本和资源投入。


在基座选型时,根据业务场景选择合适的模型,如内容生产、绘画或大语言模型等。大厂的通用大模型维护性较好,但自研模型在灵活性和迭代效率上可能更适合特定需求。最后,要考虑公司基础设施的适应性,并根据实际情况做出选择。


袁首超:如何构建高质量的大模型行业数据集?


李波: 数据获取主要有几种途径。第一种是开源数据,互联网中一些公开的,相对 Common 类型的数据(如大规模文本、图片、图文对齐语料等)比较容易获得。第二种途径是购买数据,尤其是一些相对垂直领域的数据,在公开场景中较难以获取,可以考虑从一些专门在大模型数据领域深耕的公司来购买。第三种方式是利用大模型来清洗或者合成的方式来获取高质量数据,也是未来会越来越重要的一个途径;数据清洗上,可以利用大模型构建一个 judge 来对比较粗的数据集进行清洗,或者人机协作的方式来清洗;数据合成上,利用大模型对批量业务数据进行打标,或者利用大模型迭代过程中的结果构建偏序数据,也可以针对某个特定问题,针对性进行批量数据合成,来提升模型特定能力等等。


岳汉: 我补充一下高质量数据集的获取渠道,主要有两种:一是外部数据,如开源数据或购买的数据;二是企业内部数据,特别是企业在运营过程中产生的结构化数据。外部数据源相对有限,而企业内部数据的构建与基建布局密切相关。内部数据的存储和结构化处理对于数据集的构建至关重要。


然而,数据获取只是前半部分,关键在于数据处理。在训练模型之前,数据需要进行充分的清洗、分类、去噪和检测。如果这一步没做好,后续补救将会付出巨大的代价。因此,数据质量的检测和处理是确保数据集有效性的关键。


陈剑: 数据集的收集和整理是一个复杂且具有挑战性的任务,可以类比为在奔跑时还要系鞋带。现实世界中提高孩子成绩的方式也有相似之处。例如,孩子可以通过优秀的老师(如 GPT-4)进行辅导,从而获得更高效的知识传授,类似于通过大模型获取高质量数据来训练。除了老师辅导,孩子还可以通过自己做笔记,或者通过不断刷题来巩固学习内容,类似于数据的自主收集和整理。


对于数据集的收集,有几个常见方式。首先,企业可以通过组织内部的方式收集数据。这要求有足够的组织支持,因为如果没有合适的激励机制和资源,员工可能无法高质量地完成数据的收集工作。特别是当这些数据不作为员工的 KPI 时,收集的质量可能不高,甚至可能带有怨气,影响最终的结果。另外一个方法是通过爬虫从互联网获取数据。这种方式可以快速收集大量的公开数据,但需要注意的是,这其中涉及知识产权和数据合规性问题,因此需要谨慎操作。


观众:对于预训练和 SFT 的数据量,老师们有什么建议吗?


陈剑: 以我们自己为例,在育儿知识这一垂直领域,我们拥有大约 3.2w 条高质量数据集,这些数据大部分是公开的。同时,我了解一些中药领域的大型模型,它们的训练数据量大约在 3 到 4 万条之间。当数据量过多时,可能会遇到过拟合的问题,这样模型的泛化能力会下降。因此,如果是一个垂直领域的数据集,数据量大致在 10B 上下,2 到 3 万条高质量数据加上适当的参数调优就足够了。


另外,数据的分布也需要特别注意。对于这 3 万条高质量数据,必须涵盖领域内的所有场景和维度,避免出现大量重复的内容,或者内容过于狭窄、与主题不相关。以育儿领域为例,如果涉及到宝宝发烧怎么办,那么除了发烧的处理方法,还需要涵盖奶粉选择、奶瓶选择、补钙等各个维度的知识。


观众:收集数据时的质量标准是如何制定的?规范如何实施?


岳汉: 尽管安全本身是一个垂直领域,但在这个领域内部,还有很多不同的知识类别。因此,我们将安全知识大致分为十多个类目。每个类目都由该领域的专家或相关的运营团队负责整理和分类。这个过程有些是基于已有的知识进行转换,有些则是重新生成和导出的。


每个领域的知识生成方式可能不同。根据我们的经验,每个领域的知识都应该由该领域的专家或团队负责,因为最终我们训练的模型是要解决该领域的问题。如果知识本身不符合某些标准,那么该领域的问题就无法得到有效解决,最终会影响团队的效率。简而言之,我们依靠人工把控这一过程,当然,也使用一些辅助工具,如自动标注和自动打标,但最终的决定还是依赖于人工确认。


观众:对 SFT 的多样性方面有没有工具推荐?


岳汉: 关于数据的多样性,我们的来源主要分为两部分:一部分来自我们自己整理的知识,另一部分则是通过线上实时生成的,包括用户反馈等。不过,从实际经验来看,线上用户的反馈往往是非常多样化的,用户的问题种类繁多,这些反馈为我们提供了很多启发。通过用户的反馈和实际互动,我们意识到一些问题和问题类型,可能之前没有纳入我们的考虑范围。通过这些反馈,我们能够感知到一些之前未覆盖的数据类型,并在后续进行补充和完善。


李波: 你提到的 SFT 数据,我认为我们需要进一步聚焦,明确是需要训练出一个基座,还是专注于一个垂直领域的业务应用,这两者之间存在较大的差异。在 SFT 数据的处理中,除了依赖人工抽样和标记外,目前还有一个非常重要的方案,就是利用大模型来构建 judge 方案。通过大模型 judge,我们可以从多个维度来评估数据集,或者评估模型本身的能力。通过这种方式,我们可以更好地识别数据集和模型中的缺陷,并进行相应的优化。在构建 judge 的过程中,可以使用一些能力比较强大的大模型,能够有效地帮助我们评估和提升整个系统的表现。


观众:请问各位老师,是否有在探索大模型面向岗位的应用,即为每个员工提供能力提升的支持?同时,是否认为大模型在这一领域的应用是可行的?


袁首超: 我们确实在探索这方面的应用,但整个实施过程仍然依赖于各位老师刚才提到的关键问题——知识的积累。首先,需要通过人工判断什么算是成功的经验,这些成功经验可能是某个优秀案例,能够解决特定场景中的问题。然后,我们会对这些案例进行分类,归类完成后再整合到我们的模型中。最终,我们提供的形式也是偏向问答类的,因此可以归类为知识问答的场景。与现有的基于确定性文件或固定输出键的方式不同,我们在数据输入上需要对内容进行把关,确保输入的数据是高质量的。最终,仍然需要人工判断哪些内容是有价值的、适合作为建议输出的。

活动推荐


在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。



2025-01-07 16:089444

评论

发布
暂无评论

关于MVCC,我之前写错了,这次我改好了!

艾小仙

Java MySQL 数据库 面试 MVCC

日记 2021年2月24日(周三)

Changing Lin

2月春节不断更

修改OpenCV一行代码,提升14%图像匹配效果

Smile

机器学习 OpenCV Python Turtle 图像处理

电商平台:收货地址

worry

电商平台

Python入门-位运算

123568

Python 入门 位运算

华云·云场景应用详解|安超DCM给数据中心“做主”

华云数据

带你快速了解Flutter的发展和应用

anyRTC开发者

flutter 音视频 WebRTC 跨平台 sdk

CPU高速缓存与极性代码设计

华为云开发者联盟

缓存 数据 cpu 存储

现在与以前的你相遇在此刻,让二种不同的风格,创造未来你自己的手艺吧。

叶小鍵

jupyter在加载pkl文件时报错ModuleNotFoundError: No module named 'pandas.core.internals.managers'; '的解决方法

无极限

Python Jupyter Notebook jupyter

容器 & 服务:Docker应用的Jenkins构建

程序员架构进阶

Docker 容器 七日更 28天写作 2月春节不断更

设计模式之代理模式

Geek_7cf491

Java 设计模式 代理模式

以AI之名 | 给千万级合同管理安上“AI”,华为商务经理工作量大解放!

华为云开发者联盟

人工智能 华为 合同 商务 合同管理

Elasticsearch入门,这一篇就够了

知南茶温暖

浅谈Python中遇到extend和append,该怎么区别使用

莫陌默

Python 列表 函数

Spark Shuffle 内部机制(三)

hanke

大数据 spark 开源 数据

工作中当你感觉焦虑的时候,该怎么办?

一笑

28天写作

2021MWC上海召开丨5G与千行百业“和合共生”

云计算

几个小实践带你快速上手MindSpore

华为云开发者联盟

华为 AI mindspore 智慧终端 端边云

效率工具分享-Quicker

十天、

效率 效率工具 工具 工具软件

windows10+python3.8.0(anaconda)+MeCab安装总结

lauqasim

Python Mecab 日文分词

索引失效的场景

new life

MySQL 索引性能

程序员成长第十五篇:编码的注意事项

石云升

程序员 28天写作 2月春节不断更

将上周写的用例画成流程图-第四章,第三讲

mas

kafka consumer group

Eric

cobra-强大的CLI应用程序库

happlyfox

GitHub cli 28天写作 2月春节不断更 Go 语言

设计模式【2.2】-- 工厂模式怎么演变成抽象工厂模式?

秦怀杂货店

设计模式 工厂模式 23种设计模式 工厂方法模式

用例画成流程图 - 第四章,第三讲总结

mas

得不到的永远在骚动——蔡格尼克效应

Justin

心理学 习惯养成 28天写作 游戏设计

(28DW-S8-Day4) 区块链里面2个核心问题

mtfelix

28天写作

Kafka.06 - 数据持久化介绍

insight

kafka 2月春节不断更

LLM 基座选型、数据集构建与产品落地的坑与对策_AI&大模型_InfoQ精选文章