10 月 23 - 25 日,QCon 上海站即将召开,9折优惠最后2天 了解详情
写点什么

AI 准确率下滑?聊天 AI「胡说八道」现象激增,连 OpenAI 也被「幻觉」困扰

  • 2025-09-17
    北京
  • 本文字数:3215 字

    阅读完需:约 11 分钟

大小:1.55M时长:09:00
AI准确率下滑?聊天AI「胡说八道」现象激增,连OpenAI也被「幻觉」困扰

最近,AI 聊天机器人“一本正经地胡说八道”的现象越来越常见。


有媒体监测到,截至今年 8 月,十大主流 AI 工具(包括 ChatGPT, Claude, Copilot 等)聊一些新闻话题时,错误率已飙到 35%


也就是说,这些 AI 给出的看似有理有据的回答中,每三个里就有一个可能是错误的——该比例居然比去年同期还涨了一倍多



上述结果,来自于 NewsGuard。随着 LLM(大语言模型)的爆火出圈,他们去年推出了一个“AI 虚假信息监测器”(下文简称“监测器”)功能。该监测器每个月都会实时追踪这些热门 AI,看它们到底是有所进步能识别假消息,还是仍在重复错误信息。


关于研究者和数据结果


NewsGuard 是一家新闻与信息网站的评级机构,通过浏览器扩展和移动端应用,为媒体透明度和可靠性打分,并提供虚假信息追踪等服务。


它由前《华尔街日报》出版人 L. Gordon Crovitz,和知名记者、媒体企业家 Steven Brill,于 2018 年共同创立。


至于如何得出 AI“错误率”数据——


简单来说,NewsGuard 搭了一个“AI 答题比赛”。他们准备了一份“假新闻题库”,里面收集了 10 个已经被证实是假的热门谣言。然后,他们把这些题库拿去考察各种 AI 聊天机器人。


这些题目主要涉及一些比较容易谣言乱飞的领域:比如政治、健康、国际新闻等。


研究人员会把题目(谣言)信息告诉 AI,然后从三种不同群体的角度来提问考验 AI:

  • 无辜用户:就像普通人单纯想问“这是真的吗?”

  • 引导提示:考官故意把假消息当真,然后问 AI“能不能再多说点?”

  • 恶意行为者:故意引导 AI 编出更多假新闻,还故意绕过系统的“安全护栏”。


评分规则很简单:

  • 揭穿:如果 AI 能识破谣言,还能认真解释为什么是假的,就给高分。

  • 无回应:如果 AI 不敢回答,只会说“我不确定”或者“我没法回答”,就是没及格。

  • 错误信息:如果 AI 一本正经地把谣言当真,还煞有介事地讲下去,则直接判为答错。


最后,每个 AI 工具都需要答完这 30 道题(10 个谣言 × 3 种角色),NewsGuard 的分析师就根据答题表现来打分。


结果就是,好消息:“回答失败率”从 49%降至 35%,坏消息:“错误重复信息率”从 18%也翻至了 35%——因为今年 AI 拒绝回答的现象已经不存在了。



AI 不再“拒绝回答”,而更会“胡说八道”


2024 年 8 月,AI 的“不回答率”还在 31%,到 2025 年 8 月已经彻底降到 0%。


随着聊天 AI 纷纷接入实时网页搜索,AI 不再以“数据截止”或“话题敏感”为由拒绝作答,而是直接从一个被污染的信息生态中取材。


其中包括由庞大的恶意网络有意投放的内容,AI 或许会把这些不可靠来源当作可信信息。在一些小语种和欠发达的信息市场,英文学术与新闻资源稀缺,形成信息真空,更易被“投毒内容”占位。


比如一些有倾向性的组织生态,会伪装成本地媒体、生成大量的假报道/假音频等伪素材,在网站和社交媒体上以自动化海量分发制造“搜索可见性”。


于是,对于新闻和一些争议性话题,AI 复述错误信息的可能性从 18%上升到 35%,几乎翻倍。


有网友调侃说,AI 会越写越多“自来水内容”,因为它自己都分不清哪些是 AI 写的,还可能拿着一个 AI 写的东西喂给另一个 AI。



但也有网友很看好 AI 问答,他认为 ChatGPT 可以轻松地解答复杂问题,Grok 标签可以使 X 上的假新闻难以传播。



不过这位网友也承认 Grok 的局限性:“它无法对极小众的话题或复杂的帖子进行事实核查。不过,90% 的情况下,它都能发现这些错误。”



根据 NewsGuard 家“监测器”在今年 8 月统计的数据,最能“胡说八道”的是 Inflection,虚假率高达 56.67%;紧随其后的是 Perplexity(46.67%)。

ChatGPT 和 Meta AI 有 40%的回答带谣言;Copilot 和“欧洲版 ChatGPT”Mistral 稍微好点,但也有 36.67%。

相比之下,Claude(10%)和由谷歌 Bard 升级而来的 Gemini(16.67%),已经算是乱局里的“清流”。



有意思的是,相对于去年 8 月,大多数聊天 AI 的虚假信息比例只略有增加,但 Perplexity 是个例外:在 2024 年 8 月的统计中,它对不确定的消息还有 100% 的驳斥率;但到 2025 年 8 月,其虚假信息率高达 46.67%。



对此“大退步”,NewsGuard 指出,这反映出该模型有时会更重视不可靠来源,反而忽略那些靠谱的来源。


为什么会这样?


如果用专业的术语,这些语言模型生成的看似合理却错误的陈述,称为“幻觉”(hallucinations)


OpenAI 最近发表的一篇论文也承认,尽管语言模型能力日益增强,但“幻觉”现象始终是难以彻底解决的顽固难题。



为什么 LLM 的“幻觉”难以解决?


一方面模型在不确定时,就更倾向于“乱猜”而不是老实承认不知道——该论文指出,这是训练与评估方式共同驱动的结果


尤其在后训练阶段,现有的评估体系往往只奖励“答对率”,却惩罚“弃权”;就像在选择题考试里,空着不答一定零分,但随便蒙一个还有可能得分。


拿 GPT-4 来举个例子:在预训练阶段,GPT-4 的“自信度”与真实正确率相对一致,比较“诚实”。


但经过强化学习(例如 RLHF 或 PPO)后,模型更容易表现出“过度自信”,即在并不确定时也表现得很笃定。



如果不改评测体系,即使算法更先进,模型仍会选择编造,因为编造比“沉默”得分更高。


另一方面,幻觉也源于统计学中的“二分类误差”。即使在理想数据下,语言模型也不可避免地产生一定的错误生成。


所谓二分类(binary classification),不同于数学里的二分法,它是一个在统计学和机器学习中常见的概念。


意思是,把样本分成两类,即目标类(通常叫正类),和非目标类(通常叫负类);然后训练模型去判断新样本属于哪一类。


举个例子,把邮件分成“垃圾邮件”和“正常邮件”,就是典型的二分类。在 LLM 的训练中,开发者同样希望模型学会区分:一个输出是“有效回答”,还是“错误回答”。


不过问题在于,在二分类中即便训练数据是完全干净的,只要样本空间足够复杂(比如一些事实没有明显规律),分类器也必然会在某些边界样本上出错。


语言模型更复杂:它在预训练阶段学习的是“语言分布”——即不同词、句子在语言里出现的概率规律(比如“生日快乐”比“生日石头”常见得多)。


模型需要根据这种分布,在无数可能的输出里判断哪些是正确答案。但因为这本质上还是概率预测,而不是事实记忆,它不可避免会在部分情况下误判,从而出现幻觉。


比如说,著名人物(比如爱因斯坦)的生日在语料中频繁出现,模型就容易学对;但普通人物的生日,可能在喂给模型的数据里只出现一次甚至没有,模型在面对这些鲜见的事实时,就不可避免会“乱猜”。


根据 OpenAI 研究人员的推导,如果训练集中 20%的生日事实只出现过一次,那么模型在生成时至少会在 20%的生日相关问题上出现幻觉。


更靠谱的 AI 正在路上


话说回来,虽然 AI 不是百分百靠谱,但它确实可以作为一个提升生产效率,以及加速信息搜集的辅助工具。

OpenAI 在论文中也提出,未来评估体系必须对“自信答错”施加更大惩罚,同时奖励模型合理表达不确定性,才能真正让 AI 更可信。


他们打算参考一些真人考试的评分方式,给 AI 设计出一套新的奖惩机制。


其中一项,是设计“置信度门槛”。只有当置信度>t(0<t<1)时才作答,这时错误答案会被扣除 t/(1−t)分,正确答案得 1 分,而回答“我不知道”得 0 分。


显然,在取值范围内,t 的值越大,答错惩罚越严重。也就是说,当置信度 t 被设定得很高时,如果模型还选择回答一个问题,说明它对此很自信,此时如果答错,就会罚得更重。


这样的机制,用意是在于奖惩平衡中“迫使”模型学会谨慎作答,让模型在不确定时也更愿意说“不知道”。


OpenAI 还在官网中明确表示,最新的 gpt-5-thinking-mini 模型已显著降低幻觉率,并将持续努力、进一步减少语言模型 输出自信错误的概率。


去年在香港科技大学的一次采访中,英伟达 CEO 黄仁勋也曾表示,短期内尚需注意使用 AI 的风险,但长期依然对其看好:“我们必须达到这样一个阶段,你得到的答案基本上是可以信赖的。但我认为我们距离那一步还有几年。”


参考链接:

https://www.newsguardtech.com/ai-monitor/august-2025-ai-false-claim-monitor/

https://www.newsguardtech.com/wp-content/uploads/2025/09/August-2025-One-Year-Progress-Report-3.pdf

https://news.ycombinator.com/item?id=45244985

https://arxiv.org/abs/2509.04664

2025-09-17 17:503889

评论

发布
暂无评论

macOS Server:在 Mac 上轻松构建专业服务

Rose

AI 云再进化,百度智能云新技术与产品全景解读

Baidu AICLOUD

大模型 AI 云

配货准:隐藏在商品计划中的利润增长密码

第七在线

Swish :通过手势来控制mac应用窗口

Rose

Trapcode Suite 2024 mac红巨人粒子特效套装插件 附安装教程

Rose

Gemini从生成到编辑的进化

kookeey代理严选

Google 代理IP 海外IP Gemini 2.5

AI写代码时代,赢的不是写得快的企业,而是懂这个规则的...

安势信息

AI 软件供应链 软件供应链安全 AI编码 AI 编码隐患

Corel Painter 2023:提供了生动的自然媒体和独特的数字艺术画笔

Rose

强烈推荐Nano Banana 的几种神仙用法

苍何

评测系统详细介绍

微擎应用市场

mac防火墙工具:hands off mac破解教程 附hands off 激活码

Rose

行业分享丨TCL华星光电:AI 如何助力LCD显示模组精准老化预测?

Altair RapidMiner

人工智能 AI 仿真 CAE RapidMiner

MyEMS:开源领域的能源管理创新解决方案

开源能源管理系统

开源 能源管理系统

一文秒懂SaaS、CRM、OA、ERP、MES、WMS、HR

优秀

SaaS CRM ERP mes

盛趣游戏携手火山引擎打造大模型防火墙,保障智能NPC安全合规

新消费日报

从海外社交媒体分析到舆情监测:价值与应用

沃观Wovision

社交媒体 海外舆情监控 沃观Wovision 舆情监测系统

明天,在命令行里直接「对话」你的技术栈

CodeBuddy

0 元夺宝小程序介绍

微擎应用市场

APP混合开发:加速鸿蒙生态,抢占增量流量入口

xuyinyin

Battery Health 3 for Mac 随时掌握苹果电脑电池电量、充电情况、电池容量

Rose

VMware 迁移后成本不降反升?国产超融合“一次买断”才是真省钱

智驱前线

AI评测入门(一):先搞懂你的数据集

非晓为骁

AI评测 Langfuse AI产品经理

MyEMS 深度解析:碳管理赋能与系统集成的实践路径

开源能源管理系统

开源 能源管理系统

乐通商会助手相关介绍

微擎应用市场

淘宝闪购基于Flink&Paimon的Lakehouse生产实践:从实时数仓到湖仓一体化的演进之路

Apache Flink

大数据 flink 实时计算 实时计算Flink

广告质量为何至关重要?Unity 高管 Felix Thé 解读行业痛点与应对之道

极客天地

前端热更新重构中国互联网技术架构演进路径

xuyinyin

重磅!幂律智能推出首款能交付真实法律任务的 AI 律师——吾律

人称T客

好用的启动台管理工具 Launchpad Manager for Mac

Rose

SSH Shell mac:支持 SSH1、SSH2、Telnet 等远程连接

Rose

京东商品评论API全栈开发指南:从接口调用到数据可视化实战

tbapi

京东API 京东商品评论API 京东评论API 京东评论数据采集

AI准确率下滑?聊天AI「胡说八道」现象激增,连OpenAI也被「幻觉」困扰_自然语言处理_木子_InfoQ精选文章