
在最近的一篇研究论文中,OpenAI 指出,大语言模型(LLM)之所以容易产生幻觉,是因为现有的标准训练和评估方法倾向于奖励猜测,而非鼓励模型承认自身的不确定性。这一发现或许能够为减少幻觉现象以及构建更加可靠的 AI 系统提供新的思路,但对于幻觉本身的定义目前学界尚未达成共识。
OpenAI 研究人员指出,幻觉并非神秘现象,而是源于预训练阶段的错误。由于模型在训练过程中仅接触到正面示例,因此无法区分错误陈述与事实。即便所有预训练数据都被明确标记为真实或虚假,这些错误依然难以避免。
这些错误在后训练阶段依然存在,根源在于模型的评估方式。简而言之,当前的评估方法主要依据模型的准确性进行排序和排名,同时对模型表现出的不确定性或拒绝回答进行惩罚。这形成了一种恶性循环,LLM 为了在相对有限的评估测试中提高准确性逐渐学会了猜测。
我们发现,现有的主流评估方法几乎一致地对不确定性进行惩罚,这正是问题的根源所在——存在大量不一致的评估方式。假设模型 A 是一个经过对齐的模型,它能够准确地发出不确定性信号,并且从不产生幻觉。而模型 B 与模型 A 类似,但 B 从不表现出不确定性,且在不确定时总是选择“猜测”。在这种情况下,按照大多数当前基准测试所采用的 0-1 评分制,模型 B 会优于模型 A。
基于这一见解,OpenAI 研究人员得出结论,减少幻觉需要重新思考模型的评估方式。他们提出了一种方法:对自信的错误给予比表达不确定性更严厉的惩罚,从而让模型在适当地表达不确定性时获得相对的奖励。尽管这一想法已经引起了部分关注,但 OpenAI 团队却采取了更为激进的立场:
仅仅在现有的评估体系中增加一些新的不确定性感知测试是远远不够的。目前广泛使用的基于准确性的评估方法需要进行全面更新,使其评分机制能够有效遏制模型的猜测行为。如果主要的排行榜继续对幸运的猜测给予奖励,那么模型就会继续学习通过猜测来获取高分。修复排行榜可以扩大幻觉减少技术的采用,包括新开发的技术以及先前研究中的技术。
事实上,OpenAI 研究人员报告称,他们在 GPT-5-thinking-mini 中减少幻觉的努力已经取得了显著成效,错误率从 o4-mini 的 75% 降低到了 26%。然而,正如 meshugaas 在 Hacker News 上指出的那样,这也意味着“超过一半的回答最终会是‘我不知道。’”。他们表示,“没有人会使用那种东西”。
尽管 OpenAI 研究人员表示他们有信心能够避免幻觉现象,但他们也承认,由于幻觉本身的复杂性和多面性,目前学界对于幻觉到底是什么尚未达成共识。
他们的乐观态度受到了对 LLM 拟人化批评的抑制。在 Hacker News 上,didibus 着重指出了将 LLM 错误标记为幻觉背后的营销动机,并强调“如果你停止将它们拟人化,回归到它们作为预测模型的本质,那么预测出错也就不足为奇了”。
在 LLM 幻觉争论的一端是 ThoughtWorks 首席技术官 Rebecca Parsons。Martin Fowler 报道称,她认为 LLM 幻觉不是错误,而是一种特性:
LLM 所做的事情本质上就是产生幻觉,只不过我们发现其中一些幻觉对我们来说是有用的。
关于 LLM 幻觉争论的另一种观点,Gary Marcus 强调,尽管 LLM 模仿了人类语言的结构,但它们对现实没有任何真正的把握,它们对自己输出内容的肤浅理解,使得它们无法进行有效的事实核查。
【声明:本文由 InfoQ 翻译,未经许可禁止转载。】
查看英文原文:https://www.infoq.com/news/2025/10/openai-llm-hallucinations/
评论