
像Perplexity和Arc这样的 AI 驱动的搜索工具,正迅速成为数百万用户寻求即时答案的首选平台。这些工具承诺对引用的资源进行快速、对话式的响应,使他们感觉更像是与智能助手交谈,而不是使用传统的搜索引擎。然而,存在一个日益严重的问题:这些系统经常产生幻觉。
换句话说,它们自信地编造事实,错误引用来源,并重复过时的信息。对用户来说,这意味着你可能会得到一个听起来正确的答案,但实际上是错误的。例如,加拿大航空公司的聊天机器人曾自信地向一位悲痛的客户提供了一个虚假的退款政策,导致该航空公司被法律责令赔偿客户。
虽然许多人将责任归咎于不良数据或不清晰的提示,但真正的问题更深刻,与大多数 AI 模型的架构有关:transformer。在本文中,我将解释为什么 transformer 会产生幻觉,SSMs如何提供了一个有希望的解决方案,以及这种转变对 AI 搜索未来可能意味着什么。
为什么 transformer 会产生幻觉
transformer 是 GPT-4 等流行 AI 模型的支柱。它们通过同时分析文本中所有单词之间的关系来预测句子中的下一个单词。这种注意力机制对于生成流畅连贯的文本非常强大,但它也有一些权衡:
词元(token)预测,而不是寻求真相
transformer 旨在生成统计上可能的文本,而不一定是事实正确的文本。在训练数据可能存在问题的情况下,例如未填补的空白或一定程度的噪声或模糊性,模型最终以接近的猜测填补这些空白,这些猜测似乎合理正确,但并不总是与提示的上下文或过去的信息相协调。
计算过载
transformer 分析每个单词之间的关系,这在长文本中变得昂贵且效率低下。因此,它们有时会走捷径,丢失重要的上下文,从而增加了错误的风险。
来源盲区
当给出多个来源时,transformer 并不总是能判断哪些是可靠的。这种不可靠性可能导致引用 AI 生成的或过时的信息,正如 Perplexity 引用了一个关于AI生成的京都节日的LinkedIn帖子一样。
最终结果是,AI 搜索工具可以表现得像有说服力的故事讲述者。它们自信地回答错误,虽然听起来不错,但并不总是准确。
状态空间模型:朝着上下文感知准确性迈出的一步
在许多基于序列的任务中,SSMs 正在成为有希望替代 transformer 的方案。与 transformer 不同,SSMs逐步处理信息,一边处理一边更新记忆库。可以说,这种方法类似于人类阅读和保留信息的典型框架。
SSMs 的工作原理
使用逐步分析,SSMs 逐条阅读信息,逐步构建理解。这降低了上下文过载的风险,并帮助模型跟踪重要细节。
SSMs 在计算上更高效。SSMs 的内存和计算需求随着输入长度呈线性增长,而不是像 transformer 那样呈指数增长。因此,SSMs 可以处理更长的文本或序列,而不会遇到 transformer 中所发现的性能问题。
SSMs 在受控状态下存储关键事实,这有助于最小化来自冲突信息的错误。在 AI 对话系统中,维护一致的内部状态对于确保连贯和上下文相关的交互至关重要。例如,微软对目标导向对话系统的研究强调了复杂任务(如假期规划)中记忆的必要性。这些任务涉及多个参数,并要求系统在对话中记住用户的偏好和约束。如果没有记忆,系统将难以提供一致的响应,从额导致用户沮丧。
这方面的一个技术示例是MemoryBank机制,它通过整合长期记忆来增强大语言模型(LLMs)。MemoryBank 允许模型回忆相关的记忆,随着时间的推移更新它们,并适应用户的个性。这是通过受艾宾浩斯遗忘曲线启发的记忆更新机制实现的,使 AI 能够根据它们的重要性并经过的时间忘记和加强记忆。
最近的研究表明,SSMs,特别是像Mamba这样的模型,可以在许多语言任务上与 transformer 竞争,特别是那些涉及长序列或需要随时间跟踪信息的任务。虽然 transformer 在某些领域仍然有优势,但 SSMs 正在缩小差距,并为某些应用提供独特的优势。
案例研究 1:Perplexity 的幻觉陷阱
Perplexity,作为领先的 AI 驱动搜索引擎之一,为架构的重要性提供了一个清晰的例子。尽管使用检索增强生成(RAG)来获取实时数据,但 Perplexity引用了不存在的越南市场和 AI 生成的旅行指南。发生这种情况有几个原因。
通过信任不可靠的来源,transformer 平等地对待所有检索到的数据,即使是人工智能生成的虚假信息。像BERT和GPT这样的 Transformer 模型被设计为基于从大型数据集中学到的模式来处理和生成文本。不幸的是,它们缺乏内在的机制来评估它们处理的信息的准确性。这个限制意味着当这些模型检索信息时,尤其是通过像 RAG 这样的技术检索信息时,它们可能会对所有来源给予同等的权重,而不管它们的可靠性如何。
例如,如果一个模型从一篇著名的学术论文和一篇伪造的人工智能生成的文章中检索数据,它可能会将两个来源整合在一起,而不区分它们。这种不加区别的处理可能导致虚假信息的传播,因为模型本身无法验证检索内容的真实性。
上下文坍缩
在比较多个来源时,transformer 往往会过度强调重复的短语或模式,而不是真正验证事实。Transformer 模型,特别是那些使用自注意力机制的模型,在识别和利用文本中的模式方面表现出色。然而,当模型遇到多个来源中的重复短语或模式时,这种优势可能就变成了弱点。
模型可能不会批判性地评估信息的事实准确性,而是可能将更高的重视度赋予某些短语或结构的频率。这种现象被称为上下文坍缩,当模型过度强调重复元素时就会发生,可能导致加强不准确的信息。例如,如果几个来源错误地声明一个特定事件发生在特定日期,模型可能会优先考虑这种重复的信息,即使它是错误的,都是因为它的模式识别能力。
如果 Perplexity 建立在基于 SSM 的架构上,则可以通过利用结构化记忆和长期上下文感知来减少不一致性和幻觉。
目前,Perplexity 主要结合 RAG 运行在基于 transformer 的架构上,这使它能够从外部来源如网页或专有文件中获取和整合实时信息。虽然这种设置提供了最新的数据访问,但它缺乏持久记忆,并且独立处理每个查询。因此,随着时间的推移,系统经常很难保持事实的一致性,特别是在多轮交互或需要跨多个来源推理的复杂查询中。
在顺序核查和有效的交叉参照方面也将看到进一步的改进。在保持事实核查记忆的同时,一个一个地核查信息来源,使虚假信息更难漏过。例如,在 2025 年洛杉矶抗议期间,人工智能工具 Grok 逐步验证了病毒式传播的说法,通过元数据和新闻来源揭穿假视频,然后使用该内存标记类似的虚假内容。就有效的交叉引用而言,处理长文档或许多来源而不丢失重要细节是可能的,因为 ssm 就是为这种任务而设计的。
相比之下,基于 SSM 的架构,如在Mamba或RWKV等模型中使用的架构,提供了长序列上连续记忆的优势。这些模型被设计为模拟信号随时间的演变,使它们能够保留关键事实并抑制不相关或矛盾的数据。
例如,在医学成像中,一个基于 Mamba 的模型AM‑UNet被用来从 CT 扫描中准确分割宫颈癌肿瘤,展示了连续记忆如何帮助保留长序列数据中的重要模式。类似地,如果 Perplexity 将 SSM 整合到它的架构中,它可以在不同会话中保持事实和用户偏好的结构化内部表示。这种集成将防止从不可靠的来源获取重复的错误信息,并随着时间的推移提供更连贯和个性化的响应。
在顺序验证和有效的交叉引用方面也会看到进一步的改进。在保持事实检查记忆的同时,逐个检查来源,使得虚假信息更难溜走。例如,在 2025 年洛杉矶抗议活动中,人工智能工具Grok逐步验证了病毒式传播的说法,通过元数据和新闻来源揭穿了一段假视频,然后使用那个记忆标记后来的类似虚假内容。在有效的交叉引用方面,处理长文档或许多来源而不失重要细节是可能的,因为 SSM 就是为这类任务而设计的。
案例研究 2:RoboMamba 在机器人技术中的精确性
RoboMamba是一个专注于机器人的 SSM,展示了这种架构在搜索之外的实际好处。在实验室测试中,RoboMamba 显著减少了由幻觉引起的失败行动。这一成功是通过实时错误纠正实现的。当传感器检测到滑动时,RoboMamba 可以在执行任务的过程中调整对物体的抓握,这是 transformer 由于上下文过载而难以做到的。在做出上下文感知的决策时,该模型在不可预测环境中优先考虑安全协议而不是速度,从而减少了危险错误的风险。
这种精度对于外科手术机器人和自动化制造等任务至关重要,在这些任务中,一个幻觉就可能造成严重后果。
SSMs 与其他解决方案相比如何
研究人员尝试了几种方法来减少人工智能模型中的幻觉,包括从人类反馈中强化学习(RLHF),这涉及到人类对人工智能输出进行评级,以帮助模型学习什么是可接受的。虽然 RLHF 是有帮助的,但它不能解决 transformer 在不确定时猜测的潜在趋势。
另一种方法,知识增强型大语言模型(Knowledge-Augmented LLMs)整合了结构化数据库,但其核心仍然依赖于 transformer 架构。例如,在增强的Text-to-SQL系统中,模型首先从结构化数据库中检索相关的模式信息或示例查询,然后使用 transformer(如 GPT-3.5 或 Codex)生成适当的 SQL 查询。这种方法允许大语言模型将其输出基于真实数据,同时仍然利用其生成能力。
SSMs 通过改变信息的处理和记忆方式,提供了一种根本不同的方法。它们在准确性和长期一致性很重要的任务中特别强大,例如法律文件审查、医学研究和机器人技术。
下表说明了上述方法工作方式之间的差异。
表 1:RLHF 与 SSMs 的优势和劣势对比
这对日常用户意味着什么
对大多数人来说,转向 SSMs 可能意味着很多事情,例如更少的虚假引用、更好地回答复杂的问题,甚至离线功能。AI 驱动的搜索工具会在引用之前验证来源,减少被虚假引用误导的风险。SSMs 通过保持结构化记忆和长期上下文感知,比传统的基于 transformer 的架构具有显著优势。这种能力使 AI 系统在引用之前验证来源,从而减少传播错误信息的风险。
例如,一项评估生成式搜索引擎的研究发现,现有的系统通常包含不支持的陈述和不准确的引用。平均而言,只有 51.5%的生成句子被引文完全支持,只有 74.5%的引文支持其关联句子。这些发现强调了 AI 系统需要改进来源验证流程以提高可靠性。
此外,使用 RAG 已被证明可以通过将响应基于实际文档来减少AI幻觉。通过从自定义数据库中提取信息,RAG 缩小了 AI 的关注范围,并有助于确保事实声明可以归因于来源。然而,专家强调 RAG 实施的质量至关重要,在验证 AI 生成的内容方面,人工监督仍然至关重要。
SSMs 还可以为复杂或罕见的问题提供更好的答案。SSMs 可以处理长或复杂的查询而不会崩溃,使它们成为专业搜索(如罕见疾病或技术主题)的理想选择。
由于 SSMs 效率高,它们可以在你的手机或笔记本电脑上本地运行,减少对基于云处理的需求,提高隐私性。
想象这样一个问题:“XYZ 综合症的最佳治疗方法是什么?”基于 SSM 的工具会逐个检查医学期刊,标记有冲突的研究,并突出共识——所有这些都不会编造答案或犯危险的错误。
SSMs 的优势和不足
虽然 SSMs 前景广阔,但它们并不完美。研究表明,transformer 在需要复制长文本块或记住输入中远距离的确切细节的任务上仍然表现得更好。这是因为 transformer 可以一次性“查看”整个上下文,而 SSMs 将信息压缩到固定大小的记忆中。
然而,SSMs 在许多任务中都很出色。当输入非常长(如法律合同和科学研究)时,SSMs 因其线性时间复杂度而表现出色,使它们能够高效地处理大量文档。例如,像 Mamba 和S4这样的模型在长距离序列建模任务中表现出色,如评估推理能力和不同数据类型处理的长程竞技场(LRA)基准。这些模型可以捕获长上下文中的层次依赖关系,使其更适合于涉及长输入的任务。
随着时间的推移,一致性和准确性比复制确切的细节更重要。在需要持续准确性和上下文理解的应用中,SSMs 保持结构化记忆和长期的上下文感知,减少不一致性和幻觉。在对话系统中,SSMs 可以跟踪用户偏好和对话历史,以确保随随着时间的推移能保持一致和准确的响应。这种能力对于保持上下文和一致性比精确复制细节更重要的应用程序至关重要。
在小型设备或实时应用中运行模型可以满足效率和降低计算成本的需要。SSMs 被设计为计算效率高,使它们适合在资源有限的设备上部署。例如,一项研究表明,SSM S4D 在 Intel 的 Loihi 2 神经形态处理器上的高效逐词元(token)推理。这种实现在能耗、延迟和吞吐量方面优于传统的递归和卷积模型,突出了 SSMs 在实时应用中的潜力。
研究人员目前正在探索混合模型,这些模型结合了两种架构的优势,例如在 SSM 中添加类似注意力的机制以更好地检索上下文。
AI 搜索和 SSM 的未来
一些行业已经开始向 SSM 转型。像 Mamba-2 这样的混合模型结合了 SSM 的效率和一些类似 Transformer 的灵活性,使它们适合既需要长期记忆又需要关注细节的任务。
这种混合架构的一个显著例子是 Mamba-2-Hybrid 模型,它结合了 43%的 Mamba-2、7%的注意力和 50%的 MLP 层。在一项全面的实证研究中,这种混合模型在 12 个标准任务中的表现超过了一个 8B 参数的 Transformer 模型,实现了+2.65 个百分点的平均提升。此外,它在推理过程中展示了高达 8 倍的词元生成速度,突出了其效率和可扩展性。
当扩展到支持 16K、32K 和 128K 词元的长上下文序列时,Mamba-2-Hybrid 继续在平均 23 个长上下文任务中接近或超过 Transformer 模型的性能。这些结果强调了将Mamba-2的结构化状态空间建模与选择性注意力机制相结合,以平衡复杂任务中的效率、可扩展性和性能的有效性。
在企业采用方面,银行、医院和律师事务所正在测试 SSM,用于准确性至关重要且不可接受幻觉的任务。同样,SSM 被应用于从基因组学和药物设计到时间序列预测和推荐系统的广泛研究领域。
随着研究人员继续改进 SSM 并解决其当前的局限性,我们可以预期看到更多基于这些架构的 AI 工具,特别是在信任和准确性不可妥协的领域。
结论:通过更好的 AI 架构建立信任
构建最佳的 AI 搜索引擎的竞争不再仅仅是关于速度或花哨的功能,而是关于信任的。虽然 Transformer 推动了第一波聊天机器人和 AI 搜索工具的发展,但它们倾向于产生幻觉,使得它们在对真实性至关重要的任务中不可靠。SSM 以其逐步分析和结构化记忆,为 AI 提供了一条新的路径,它不仅回答问题,实际上还能理解问题。
随着 Perplexity 和 RoboMamba 等工具的发展,胜出者将是那些优先考虑架构完整性而非快速修复的工具。下一代 AI 搜索不仅会检索答案,还会逐个验证事实以构建答案。
参考文献:
原文链接:
https://www.infoq.com/articles/state-space-solution-to-hallucinations-state-space-models/
评论