最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

防止 AI 胡说八道!OpenAI 公布最新大模型训练方法,监督 AI 像人类一样思考

  • 2023-06-01
    北京
  • 本文字数:2830 字

    阅读完需:约 9 分钟

防止AI胡说八道!OpenAI公布最新大模型训练方法,监督AI像人类一样思考

当 AI 一本正经地胡说八道时,需要用“魔法”打败“魔法”。

OpenAI 正寻求新方法对抗“AI 幻觉”


据 CNBC 报道,本周三,OpenAI 宣布计划采取一种新的 AI 模型训练方法,以解决“AI 幻觉”难题。


“AI 幻觉”指的是聊天机器人用编造的信息进行回应,这是 AI 的自信反应。当模型有“幻觉”(输出欺骗性数据的倾向)时,其使用的的训练数据并不能证明输出的合理性。比如,ChatGPT 或 Bard 等模型有时看似在滔滔不绝陈述事实,但实际内容却是“一本正经胡说八道”。


OpenAI 研究人员在报道中写道,“即使是最先进的模型也很容易生成虚假信息——在不确定情况时,它们往往表现出捏造事实的倾向。这种幻觉在需要多步推理的领域尤其严重,其中一个环节上的逻辑错误就足以破坏整个解答过程。”


OpenAI 为幻觉问题提出了新的策略:在 AI 模型训练当中设置新的奖励机制,不仅奖励其获得正确的最终结论,更要奖励它们在得出答案的过程中做出的每个正确推理步骤。


研究人员表示,这种方法被称为“过程监督”,而非“结果监督”。由于能够鼓励模型更多遵循人类的“思维”方法链,所以过程监督方法也许能提高 AI 输出的可解释性。


OpenAI 公司数学生成(mathgen)研究员 Karl Cobbe 在采访中指出,“检测和缓解模型中的逻辑错误或者幻觉,将是构建高一致性 AGI(通用人工智能)的关键一步。”虽然 OpenAI 之前没有发明出过程监督方法,但如今亡羊补牢,为时未晚。“这项研究的动机在于解决幻觉问题,使得模型具备解决挑战性推理问题的强大能力。”


Cobbe 还提到,OpenAI 已经发布一套附带数据集,其中包含 80 万个人类标注,用于训练研究论文中描述的这套模型。

解决“AI 幻觉”难题任重道远


随着 AI 技术得到广泛应用,“AI 幻觉”带来的潜在问题也开始浮现,并引发大众担忧。


以谷歌 2 月发布Bard时的宣传为例,这款聊天机器人对詹姆斯·韦伯太空望远镜做出了错误描述。最近,ChatGPT 又在纽约联邦法院一份文件中引述了“不存在的”案件,涉案律师可能因此面临处罚。


美国律师 Steven A. Schwartz 向 ChatGPT 求助,想要为自己诉哥伦比亚国家航空一案找点支持案例,ChatGPT 却给出了根本不存在的判例建议。Schwartz 声称他“没有意识到 ChatGPT 给出的内容可能是假的”。但从他跟机器人的聊天记录来看,他还是保持了一丝怀疑,想要进一步检查这些信息。但很遗憾,他选择询问 ChatGPT 来确认内容真实性,系统则再次做出误导,向他保证这些虚构判例完全真实合法。


此前在接受《纽约时报》采访时,OpenAI 的联合创始人 Ilya Stutskever 曾坦言 AI 幻觉是个大问题,但很有可能被“治愈”:我们现在的做法是雇人教会 ChatGPT 如何表现。你只需要与它互动,它就能从你的反应中推断出你想要的东西,比如,你对输出结果不满意。因此,它应该在下一次做些不同的事情。我认为这种方法很有可能(a quite a high chance)完全解决幻觉的问题。


随着 OpenAI 最新 AI 模型训练方法的公布,如何解决“AI 幻觉”难题再次引发讨论。


电子隐私信息中心高级顾问兼 AI 与人权项目负责人 Ben Winters 对 OpenAI 的训练方法表示怀疑,称实际效果要在检查了完整的数据集和随附示例后才能确定。


Winters 强调,“我只是觉得单凭这一种措施,不足以在实际应用场景当中显著降低 AI 生成错误信息和不正确结果的问题……另外,他们会不会把研究成果全面纳入产品也非常重要。如果不是,这反而会引发其他严重问题,比如操纵模型有选择地向公众发布信息。”


考虑到还不清楚 OpenAI 论文有没有经过同行评审或者其他形式的评审,布朗大学技术责任中心主任 Suresh Venkatasubramanian 认为这项研究的意义更多在于初步观察,而非实际应用。


Venkatasubramanian 指出,“在对此给予肯定之前,首先得等待这项成果在研究领域得到证实。这个世界上,很多结果总会定期出现。因为大语言模型的工作方式总体上并不稳定,所以在某一种设置、模型和上下文中起效的东西,很可能在另一种设置、模型和上下文中毫无作用。人们最担心的「幻觉」,其实是模型可能捏造的引用和参考资料。但文中没有能解决这个问题的证据。……我不是说一定解决不了,只是说这篇论文缺乏相关证据。”

在强调 ChatGPT 局限性方面,OpenAI 做得还不够


OpenAI 能够意识 ChatGPT 的“AI 幻觉”问题,但在强调 ChatGPT 局限性方面,OpenAI 做得还不够。


在 ChatGPT 的主页上,OpenAI 发布的一条警告内容称“可能偶尔会产生不正确信息”,这也是其系统功能和局限性部分的九条须知之一。但这条警告内容放在任何信息源上都同样适用,对于 ChatGPT 这样一种强大、身处炒作大潮的风口浪尖且容易被严重误解的技术成果,OpenAI 在引导用户方面做得还远远不够,OpenAI 应该投入更多精力,明确强调 ChatGPT 无法稳定区分事实和“幻觉”。


据 The Verge 报道,过去几个月间,很多人都被 ChatGPT 的“胡说八道”所愚弄和影响。值得庆幸的是,大多数案例都微不足道,几乎没有造成负面冲击,ChatGPT 最多也就是捏造了一篇新闻报道、一篇学术论文或者一本不存在的书。但在个别案例中,ChatGPT 的错误信息确实可能引发严重后果。


今年 5 月,得克萨斯州农工大学的一位教授就使用聊天机器人检查学生是不是在靠 AI 写水文章。ChatGPT 倒是非常热情,表示所有论文都是由 AI 生成的,但却拿不出什么真凭实据。教授深信不疑而且大为光火,威胁要让学生们挂科甚至毕不了业,好在最终大家发现了这个错误。


这些事件并不会彻底毁掉人们对于 ChatGPT 等聊天机器人的期待和认可。只要配合正确的场景和适当的保护措施,这些 AI 工具仍然能在信息检索等任务中发挥巨大作用。目前也有各种有趣的研究正在推进,表明此类系统也许能在未来更好地尊重客观事实。


但当下,这类 AI 产品的局限性需要引起人们足够的重视。企业需要向大众强调 AI 产品的局限性,媒体也需要承担相应的报道责任。


干预措施并不需要特别复杂,但必须得有。比如,为什么 ChatGPT 无法识别用户想要的是事实性依据,并提醒对方“请注意检查信息来源”?在用户要求它判断特定文本是否由 AI 生成时,ChatGPT 为什么就不能明确表示“对不起,我没有能力做出判断”?


当然,OpenAI 一直在努力改进这些问题。自 ChatGPT 推出以来,它已经变得越来越坦率、会直言自己存在局限性。最经典的表述就是“作为一个 AI 语言模型,我……”。但不一致问题仍然存在,比如,当问它“你能检测出 AI 生成的文本吗?”它回答说“检测结果不一定准确。”但向它输入了一大段内容,并提出同样的问题时,它只是简单回答“是的,这段文字是由 AI 生成的。”


此外,当要求 ChatGPT 提供一份测量专业书籍推荐清单时,它给出的答案共有 10 本书,其中不少质量很高,但有 2 本则是完全虚构的。如果不是在刻意检查,可能根本就不会注意到这个问题。当用户和 ChatGPT 交流多了,并且验证后就会发现,ChatGPT 这类 AI 产品经常“胡说八道”。


面对这样的现状,“可能偶尔会产生不正确信息”之类的免责声明显然远远不够。


参考链接:


https://www.cnbc.com/2023/05/31/openai-is-pursuing-a-new-way-to-fight-ai-hallucinations.html

https://www.theverge.com/2023/5/30/23741996/openai-chatgpt-false-information-misinformation-responsibility

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-06-01 14:367019

评论

发布
暂无评论
发现更多内容

继GitHub的Copilot收费后,亚马逊推出了 CodeWhisperer,感觉不错哟!

Python猫

Python

跟着卷卷龙一起学Camera--CameraService

卷卷龙

ISP 9月月更

Redis命令传播的心跳检测

急需上岸的小谢

9月月更

Java 多线程:并发编程的三大特性

Java快了!

Java多线程

SpringBoot数据库管理 - 用Liquibase对数据库管理和迁移?

Java快了!

数据库 spring-boot

【蓝桥杯Web】2022年第十三届蓝桥杯Web大学组省赛真题解析(精华版)

海底烧烤店ai

算法 前端 JavaScrip 9月月更

mysql实数类型和字符串类型

急需上岸的小谢

9月月更

户外LED广告屏如何才能保养好?

Dylan

LED显示屏 led显示屏厂家

Plato Labs推出的SeedX,公测15天570万美金净利润

鳄鱼视界

NtyCo纯C协程的原理分析

C++后台开发

后台开发 协程 后端开发 异步IO C++开发

手把手教你如何使用 Timestream 实现物联网时序数据存储和分析

亚马逊云科技 (Amazon Web Services)

数据分析 物联网 数据存储

5 个 Promise 要避免的常见用法~

掘金安东尼

前端 9月月更

MFC与Qt多个控件响应统一响应消息处理

中国好公民st

c++ qt 9月月更

羊了个羊”通关修改思路

Java-fenn

Java

Java程序员:为了跳槽刷完1000道真题,没想到老板直接给我升职了!

收到请回复

Java 云计算 开源 架构 编程语言

阿里前端常见面试题总结

loveX001

JavaScript 前端

只要32天就能拿下Offer?框架+性能优化+微服务+分布式,Java程序员必备!

收到请回复

Java 云计算 开源 架构 编程语言

Cryptocell-712安全引擎概述

Java-fenn

Java

Elasticsearch聚合学习之四:结果排序

程序员欣宸

elasticsearch 9月月更

白天建筑师,晚上CG艺术家,他将建筑的华丽发挥极致

Renderbus瑞云渲染农场

云渲染 云渲染农场 渲染农场

担心今年的金九银十收不到满意的offer?这份18位阿里架构师耗时60天整合的面试总结太香了!

收到请回复

Java 云计算 开源 架构 编程语言

2022年第十三届蓝桥杯Web国赛真题解析

海底烧烤店ai

前端 JavaScrip 9月月更

Sentinel哨兵机制

急需上岸的小谢

9月月更

Plato Labs推出的SeedX,公测15天570万美金净利润

EOSdreamer111

C++学习---cstdio的源码学习分析02-文件删除函数remove

桑榆

c++ 源码阅读 9月月更

【蓝桥杯Web】2022年第十三届蓝桥杯Web大学组省赛真题解析(完整版)

海底烧烤店ai

算法 前端 JavaScrip 9月月更

超详细:这份全网首发的Kafka技术手册,从基础到实战一应俱全!

收到请回复

Java 云计算 开源 架构 编程语言

DPDK源码分析之DPDK基础概览

于顾而言

DPDK DPDK开发

MyBatis-Plus(三、增删改查)

MySQL MyBatisPlus 9月月更

【Vue3】 评论列表(简易)-- 思路与实现分析

Sam9029

JavaScript Vue Vue3 9月月更

Github最新霸榜!号称架构师修炼之路的“葵花宝典”限时开源

了不起的程序猿

阿里巴巴 编程 程序员 架构 架构师

防止AI胡说八道!OpenAI公布最新大模型训练方法,监督AI像人类一样思考_文化 & 方法_凌敏_InfoQ精选文章