
引言
大概念模型(Large Concept Model,LCM)标志着自然语言处理领域的一次重大转变,它侧重于结构化推理和真正的理解,而不仅仅是预测单词。与大语言模型(LLM)不同,LLM 在需要大量推理的任务中有时候会生成误导性或不一致的信息,而 LCM 依赖结构化知识(如本体和因果图),能够模拟专家分析师的行为和思维方式。这种方法有助于 AI 把握概念之间的关系,解释其推理过程,并做出更可靠的决策。通过解决当前 AI 的缺陷,LCM 为准确决策、科学发现和行业应用带来了新的可能性。
本文以实际的客户支持应用为基础,旨在帮助技术领导层了解如何在企业环境中部署和整合 LCM。
理解 LLM 与 LCM
LLM 是基于海量文本数据训练的 AI 模型,能够理解和生成类似人类的文本。通过学习语言的模式和结构,LLM 可以利用这些信息进行预测,从而回答问题、生成内容或者从提供的数据或内容中提取有价值的见解。
相比之下,LCM 被训练用于理解和推理结构化概念。LCM 捕捉更高层次的想法和关系,而不仅仅是预测下一个单词。这使得 LCM 能够在各种任务中进行更准确的推理、制定更复杂的决策和解决结构化的问题。
当前模型的问题
在过去的几年里,LLM 在很大程度上改变了 AI,让机器能够生成类似人类的文本。然而,LLM 缺乏真正的理解能力,它们会产生“幻觉”,即给出错误的回答。这是因为 LLM 高度依赖于统计模式和概率,这在需要因果关系和上下文的任务中引入了不可靠性。例如,一个医疗 AI 可能会自信地描述一种不存在的药物的副作用,或者一个法律聊天机器人可能会误解案例法,因为它依赖于统计模式而不是真正的推理。
缺乏因果理解
当前的 AI 模型面临的一个关键限制是对因果关系的理解。如果你问:“如果降雨量减少,小麦价格将如何变化?”LLMs 能会参考过去的趋势,但可能会忽略一些与特定地区相关的关键因素,如土壤肥力、地区农业政策或全球供应链。这是因为 LLM 无法把握概念及其之间的关系——它们是基于模式来预测单词,而不是基于结构化推理。
示例:客服的自动化
以企业的客户支持自动化为例,在这个场景中,因果理解的这种限制变得至关重要。不同的客户会发送电子邮件请求支持,可能涉及不同的部门和多种类型的请求,甚至在同一封电子邮件中包含多个请求或后续的请求。由于其固有的限制,基于 LLM 的 AI 系统将无法准确地对所有电子邮件进行分类。
例如,客户的电子邮件可能会说:“尽管我上个月就提出了相同的投诉,但我的月账单仍然不对。”基于 LLM 的系统可能会将其归类为一般的账单问题,而忽略了更深层次的因果信号,例如后端系统出现了影响现有账户账单生成的漏洞。这可能导致重复开票或错误地将邮件路由到不合适的部门。
LCM 如何解决这一问题
大概念模型突破了关键词的局限。因为推理是基于结构化概念,它们可以理解“重复问题”、“过去开过票”和“账单不匹配”在概念上是相互关联的。然后,模型利用历史背景来识别先前票务状态和后端问题之间的因果关系。因此,LCM 将其归类为“系统错误”下的“重复关键问题”,将将其定位为一个技术性问题。除此之外,它还会在“财务部门”下再开一个“发票更正”的工单,解决客户投诉并提供即时解决方案。与此同时,软件团队开始着手修复这个技术问题。
逐个词元处理
LLM 面临的另一个挑战是它们逐个词元处理的方式。它们一次生成一个单词作为输出,而不规划响应的完整结构。这使得 LLM 难以在较长的响应中保持逻辑一致性。通常,这会导致矛盾、事实错误或重复陈述——就像有人在写一篇论文时逐个单词猜测,而不是事先规划整体思路。
尽管 LLM 很强大,但它们缺乏深度推理能力和结构化知识,这限制了它们在医学、金融和科学等领域的可靠性,而准确性和逻辑连贯性对这些领域来说至关重要。
示例:企业商务智能中的文本转 SQL
我们以大型企业中处理文本转 SQL 任务的商务智能聊天机器人为例。用户可能会提出这样的问题:“显示过去八个季度中东地区白金客户的月总收入,不包括退款和试用账户。”基于 LLM 的聊天机器人在这种情况下可能会生成一个部分正确的 SQL,但往往会遗漏一些关键组件,如排除标准、日期范围或跨表连接。这是因为 LLM 线性地生成 SQL 查询,逐字逐句,却忽略了其中存在的语义结构。
LCM 如何解决这一问题
大概念模型在概念层面进行推理,解析意图,映射约束条件,并生成一个完整且逻辑准确的 SQL 查询。它能够理解“不包括退款和试用账户”这个约束条件,并得出结论,需要与“客户类型”和“月收入”表进行连接,从而确保端到端逻辑的一致性。
理解大概念模型
大概念模型摒弃了基于词元的处理方式,而是专注于在抽象嵌入空间中进行层次化推理,理解其中的概念及其关系,这与人类的思维方式类似。LCM 的设计独立于语言,能够在语义层面独立地处理底层推理。
例如,大语言模型可能将“干旱减少小麦产量”这一短语视为一连串孤立的单词,而 LCM 则将其解释为一种因果关系,进而理解更宏观的语境。
知识驱动的推理 —— LCM 以定义概念关系的知识图谱为基础。例如,知识图谱明确表示了“干旱 → 影响 → 农作物产量”这样的关系,而不仅仅是预测下一个可能的单词。
多模态理解 ——与主要关注文本的 LLM 不同,LCM 可以处理语音、图像,甚至手语,并通过共享的概念空间将它们连接起来。
逻辑与统计的混合——LCM 结合了符号 AI(规则和逻辑)与机器学习,使它们能够系统地进行推理。例如,给定“所有的干旱都会损害农作物,某地区正处于干旱状态”,LCM 可以从逻辑上得出“某地区预计将遭受农作物损失”的结论。
LCM 的工作原理有何不同
无论是 LLM 还是 LCM,它们都以文本生成、总结、问答、翻译、分类、数据和搜索增强等为目标。从这个角度来看,LCM 和 LLM 之间的根本区别在于它们如何处理这些任务。例如,在语言翻译任务中,LLM 的表现主要取决于它们训练时所使用的数据和语言,而 LCM 则使用语义对象和抽象表示(SONAR)。
SONAR 是一个经过训练或结构化的嵌入空间,旨在捕捉概念的相似性和结构,而不仅仅是语言模式。它使模型能够在密集的向量空间中更好地对抽象概念(如正义、经济或意识)进行推理,同时保留语义和关系属性。SONAR 自动编码句子的能力也很强大,即把句子转换成向量再转换回来,几乎没有损失。因此,它能够理解和翻译 200 多种语言,而无需进行额外的语言训练。
LLM 擅长流畅地交流,而 LCM 则在谨慎思考方面展现出优势。
从更广泛的视角来看,LCM 和 LLM 之间的区别如下:
概念优先的方法
LCM 采用了概念优先的方法,在进行数据驱动的学习之前,根据高层次的概念来理解和构建知识。这种方法并非完全依赖大量的非结构化数据,而是确保模型在进一步训练之前,对给定领域内的关键原则、关系和层次结构有一个基础性的理解。
这种概念优先的方法赋予了 LCM 在不同语言和语境中泛化知识的强大能力,使其远超 LLM。例如,经过英语医学数据训练的 LCM 能够用斯瓦希里语诊断疾病——不是通过简单的直接翻译,而是通过识别普遍的医学概念。
LCM 标志着 AI 的进化方向,关注意义而非单纯的单词模式,从流畅的文本生成转向真正的理解和推理。
大概念模型——架构
大概念模型建立在一种混合架构之上,这种架构结合了结构化的知识表示和神经网络的适应性。这使它们能够在处理现实世界的复杂性的同时进行逻辑推理,这是纯统计 AI 模型的一个进步。
LCM 的核心是一个结构化、层次化的流程。输入文本首先被分解为句子,这些句子被视为基本的概念单位。然后,这些句子通过 SONAR 进行处理。

大型概念模型的基本架构(来源)
经过编码后,概念序列由完全在嵌入空间中运行的模型处理。这种与语言无关的方法使 LCM 能够在不受任何特定语言或输入格式限制的情况下进行推理,使它们能够超越文本和语音。生成的概念随后通过 SONAR 解码回语言或其他模态,使模型能够以多种语言或格式输出,而无需重新运行模型。
在这个领域出现了两种关键架构:基础 LCM(Base-LCM),即最初的尝试,以及基于扩散的 LCM(Diffusion-Based LCM),一种受图像生成技术启发的高级版本。两者都利用了这种结构化的流程,确保 AI 响应更具逻辑性且能够感知上下文。
基础 LCM——第一步
基础 LCM 架构是大型概念模型的第一步。它的工作原理与大语言模型类似,但不是预测“下一个单词”,而是预测结构化概念空间中的“下一个概念”。
基础 LCM 的工作原理
模型接收一系列概念,并学习预测下一个概念。它使用基于 Transformer 的架构,并增加了额外的层:
预处理网络(PreNet):调整概念嵌入。
Transformer 解码器:处理概念之间的关系。
后处理网络(PostNet):将输出映射回原始概念空间。

基础 LCM 架构图(来源)
训练过程通过最小化预测概念和实际概念之间的误差来实现,使用了均方误差(MSE)损失。
Diffusion-Based LCM——更智能的概念预测方式
受图像生成扩散模型的启发,这种架构通过逐步消除“不确定性”或“噪声”来完善下一个概念的预测。
Diffusion-Based LCM 的工作原理
以从随机噪声中生成一张猫的图像为例——每一步都消除噪声,直到出现清晰的图像。Diffusion-Based LCM 将同样的想法应用于概念预测,通过多个步骤逐步完善预测。
以下是两种 Diffusion-based LCM 的方法:
单塔 LCM——在这种方法中,模型处理一系列概念,只有最后一个概念是“嘈杂的”(不确定的)。然后,逐步细化这个嘈杂的概念,直到得出清晰的预测。这与基础 LCM 类似,不同的是它通过运行多个细化步骤来改进预测。
双塔 LCM——在这种方法中,模型将上下文编码与概念细化分离开来。第一个模型理解前面的概念,而第二个模型对下一个概念进行去噪。然后,模型使用交叉注意力机制来提高预测的准确性。

Diffusion-based LCM 架构图示 | 左侧——单塔 LCM | 右侧——双塔 LCM。(来源)
研究表明,Diffusion-based LCM 在 ROUGE-L 分数(衡量模型在生成摘要中保持意义的能力)和连贯性分数(评估预测的逻辑流程和一致性)方面显著优于基础 LCM。
基础 LCM 和 Diffusion-Based LCM 的局限性
基础 LCM 架构的主要问题是,LCM 在表示概念时使用的是固定的嵌入空间(如 SONAR),因此它难以处理模糊性。它更适用于处理简单且较短的句子,但在处理复杂且关系松散的句子时会遇到困难。此外,它无法可靠地处理数字、链接或代码。另一个问题是,有时候一个句子可能包含多个概念,但模型会将其视为一个单一的概念。在许多情况下,给定输入之后可能存在多个逻辑上合理的概念,但模型只能选择一个。这些局限性催生了 Diffusion-Based LCM,后者能够更有效地处理多种可能性。
Diffusion-based LCM 在处理多种可能的输出方面优于基础 LCM,但它们也存在一些局限性。扩散模型更适合用于处理连续数据(如图像或音频),然而文本数据具有更强的结构化和离散性特征。这使得扩散模型更难生成准确或有意义的文本结果。Meta 尝试通过量化模型(如 Quant-LCM)来解决这一问题,但 SONAR 空间并非为量化而设计,因此量化后的结果往往较为复杂,且难以有效应对数据稀疏性问题。
在 Meta 的消融实验中,Diffusion-based 优于 Quant-LCM,我没有在本文未包含这些模型的详细信息。为了实现进一步改进,迫切需要开发一种更优的文本表示方法,以在结构化和灵活性之间达到更好的平衡。
大概念模型的实际应用
大概念模型的概念理解、结构化推理和多步逻辑思维能力使其更适合被用于需要更复杂推理、上下文和概念的应用中。接下来,我们将详细讨论基于我当前项目经验的两个 LCM 的实际应用场景。
高级客户支持工单与解决方案
一家管理全球复杂基础设施的大型组织(涵盖商业园区、企业大楼、大学、政府机构和制造单位等)在其客户支持运营方面面临独特的挑战——规模大、多语言互动、任务复杂、大量请求重复、紧急性或严重性问题以及个性化需求。传统的基于 LLM 的系统需要针对每个地区或机构类型分别部署定制化的解决方案,在应对这些挑战时显得力不从心。在大型概念模型通过在概念层面进行推理,而不是仅仅处理关键词,带来了变革性的优势。LCM 能够深入分析传入的请求,正确分类 50 多个部门的 450 多种支持任务类型,并生成结构化的支持工单。
当 LCM 与 LLM+RAG 结合使用时,还能实现智能自动响应——确认用户请求,根据知识库提供自助解决方案或逐步故障排除流程,并自主处理数据库查询。凭借概念层面的理解和多语言能力,LCM 帮助全球支持中心用本地语言(中东、欧洲和亚洲 15 种以上的语言)提供无缝、文化敏感且高度个性化的协助。
从自然语言生成 SQL 语句
继续上面的高级客户支持工单与解决生态系统(涵盖多个国家、基础设施设施和数据库),我们来看看数据驱动的查询自动化,这是一项复杂程度更高的任务。尽管 LLM 能够执行基本的文本到 SQL 翻译,但在多步理解以及将用户意图精准映射到正确的数据库、访问权限和上下文准确的查询方面存在困难。大概念模型通过在概念层面进行推理,从根本上为这一过程带来了质的飞跃。它们在生成 SQL 之前会系统地理解用户意图、操作上下文和模式关系。
这不仅大幅减少了错误率,显著提升了准确性,并且能够更深入地理解特定于部门或地理位置的数据处理规则的细微差别。凭借多语言输入能力,LCM 可以轻松处理 15 种以上自然语言查询,并提供大规模的智能自动化支持解决方案。相比之下,没有概念推理的 LLM 可能会误解查询、暴露敏感数据,甚至危及数据库的完整性——而这些都是 LCM 可以有效防范的风险。
监管和合规申报
我目前正在做的另一个项目是为注册投资顾问领域的 SEC(美国证券交易委员会)监管和合规申报实现自动化。这一领域受到严格监管,要求以精准、一致且具备上下文理解的方式,紧跟不断演变的法规要求。传统的 LLM 自动化能力通常达不到要求,因为这些任务需要深入的概念映射,理解规则并将其与复杂的金融数据映射起来,并按照监管模式和格式结构化信息。
大概念模型非常适合用于应对这一挑战,因为它们能够跨越多个相互关联的合规概念进行推理,精准地对复杂的金融信息进行分类,验证信息的完整性,并生成符合 SEC 标准的结构化输出。在这一领域,监管机构的各种申报文件及其定期更新要求对来自不同财务披露、数据源、通信和运营细节的信息进行交叉引用和分析。LCM 提供了智能自动化功能,可用于创建申报文件的初稿,通过快速处理提升准确性、节省大量时间,进而进一步降低风险。
LCM 的局限性
尽管 LCM 相较于传统大语言模型已经取得了显著进步,但它们也并非毫无瑕疵。在选择 LCM 时,必须对它们的局限性做出考量。理解这些局限性对于做出明智的架构决策来说至关重要。
LCM 需要比 LLM 更复杂的管道,这使得训练和微调模型变得更加昂贵且极为耗费资源。
LCM 需要在概念工程和整合数据源方面进行大量的前期投资。
LCM 需要带有概念标签的数据集,而这些数据集目前没有公开可用的版本。
LCM 确实更擅长结构化推理,但理解其内部概念路径仍然很困难,这给审计工作带来了巨大的挑战。
LCM 的概念层在推理时也需要更多的内存和算力。
LCM 仍在兴起阶段,目前只有少数开源模型或数据集可用。
微调 LCM 通常需要重新构建部分概念空间或概念关系结构。
不同 AI 推理方法的比较
随着 AI 系统的不断发展,不同的架构展现出了不同的能力和优势。LLM、LLM + RAG 和 LCM 代表了不同的 AI 推理和可靠性解决方案。下表对这三种架构进行了比较并突出了关键差异,帮助你选择合适自己的模型。
配置 Meta 的大概念模型
让我们开始动手探索 Meta 的大概念模型吧。
克隆代码库
获取官方 LCM 代码:
准备环境
在这里我使用的是配备 8 个 vCPU、30 GB 内存和 1 个 NVIDIA Tesla P4 GPU 的 Google Cloud 实例。
使用以下命令安装 uv:
克隆大概念模型代码库:
创建包含所有必要包的虚拟环境:
安装 NVIDIA 驱动程序:
安装 CUDA:
安装 NVIDIA 工具:
重启实例
安装 CUDA:
检查 NVIDIA 驱动程序安装:
创建数据目录:
安装 build-essentials 和 g++:
Fairseq2 依赖 libsndfile1,所以安装它:
使用 uv 安装支持 GPU 的 Torch:
使用 uv 安装 fairseq2:
在环境中安装大概念模型:
测试安装是否成功
在代码库的根目录下创建 prep_data 目录:
LCM 提供了一个样本处理管道,可用于准备训练数据,我们用它来验证 LCM 安装情况:
输出
大约 25 分钟后,你将获得以下输出。这个流程清晰地展示了如何从 HuggingFace 平台获取数据集,并运用 SONAR 和 SaT 技术对其进行处理。脚本提供了从 HuggingFace 拉取数据的示例,并在 prep_data 文件夹中以 parquet 格式创建名为 0_467e0daf78e07283_0_0.parquet 的数据文件。

此外,你可以在实例中添加更多 GPU,并按照代码库中 README.md 文件的说明运行训练。目前,Meta 尚未发布权重或训练模型。因此,你需要自行训练。
Meta 在实验研究中使用的是 Finewebedu 数据集来训练模型,因此我们无法在我们的系统上进行模型的训练或微调。所有模型都使用 1.6B 参数进行了 25 万优化步骤的训练,总批量大小为 22.9 万 概念,这一训练过程是在 Meta 的 32 个 A100 GPU 研究超级集群上完成的。
AI 和 LCM 的未来发展之路
AI 的未来发展方向在于将大概念模型的结构化推理与大语言模型的语言流畅性相结合。这种融合可能会创造出能够分析复杂场景并清晰传达见解的 AI 系统。
想象一个由 AI 驱动的战略顾问:
使用 LCM 模拟市场趋势并预测结果。
利用 LLM 以类似人类的叙事方式阐释决策逻辑。
持续从现实世界的反馈中学习并更新知识。
因此,这种融合方法将使专家级分析对更多人开放,同时保持人类的监督。监管机构和政府,如美国政府,已经要求对高风险 AI 系统提供可审计的推理路径,确保推理过程的透明度和可追溯性。
提高 AI 的可解释性
LCM 的最大优势之一是能够清晰地解释决策过程。与依赖复杂神经激活的传统 AI 模型不同,LCM 能够以一种人类易于理解的方式构建其推理逻辑。
例如,基于 LCM 的 AI 在推荐治疗方案时能够清楚地展示患者症状是如何与可能的诊断和治疗方案关联起来的。这种透明度有助于建立信任,使医生能够验证并进一步改进 AI 的建议,从而获得更好的结果。
人机协作
LCM 被设计出来是为了与人类专家并肩工作,而不是取代他们。它们按照与人类思维一致的方式来组织知识,从而成为人类的智能伙伴,而非难以捉摸的黑盒子系统。
这有望改变诸多行业,例如:
科学家可以利用 LCM 更快地验证假设并发现见解。
商业领袖可能会依赖它们来评估市场策略并预测风险。
通过将结构化推理与灵活的 AI 相结合,LCM 开启了一个崭新的未来——人类和 AI 将更加高效地合作,共同解锁更深刻的洞察,并做出更明智的决策。
结论
大概念模型是朝着能够推理而不仅仅是预测的 AI 迈出的重要一步。通过构建知识结构,而不是单纯依赖模式识别,它们解决了 AI 领域中虚假信息泛滥以及缺乏可解释性等重大挑战。尽管采用 LCM 需要多方协作——从完善知识提取到标准化审计——但 LCM 无疑拥有改变医疗保健、治理以及商业战略等诸多领域的巨大潜力。AI 的未来不是取代人类判断,而是通过更清晰的推理和更深入的见解来增强人类判断。
参考文献
Arxiv: Large Concept Models - Language Modeling in a Sentence Representation Space
SONAR: Sentence-Level Multimodal and Language-Agnostic Representations
【声明:本文由 InfoQ 翻译,未经许可禁止转载。】
查看英文原文:https://www.infoq.com/articles/lcm-paradigm-shift-ai-reasoning/
评论