NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

防止 AI 胡说八道!OpenAI 公布最新大模型训练方法,监督 AI 像人类一样思考

  • 2023-06-01
    北京
  • 本文字数:2830 字

    阅读完需:约 9 分钟

防止AI胡说八道!OpenAI公布最新大模型训练方法,监督AI像人类一样思考

当 AI 一本正经地胡说八道时,需要用“魔法”打败“魔法”。

OpenAI 正寻求新方法对抗“AI 幻觉”


据 CNBC 报道,本周三,OpenAI 宣布计划采取一种新的 AI 模型训练方法,以解决“AI 幻觉”难题。


“AI 幻觉”指的是聊天机器人用编造的信息进行回应,这是 AI 的自信反应。当模型有“幻觉”(输出欺骗性数据的倾向)时,其使用的的训练数据并不能证明输出的合理性。比如,ChatGPT 或 Bard 等模型有时看似在滔滔不绝陈述事实,但实际内容却是“一本正经胡说八道”。


OpenAI 研究人员在报道中写道,“即使是最先进的模型也很容易生成虚假信息——在不确定情况时,它们往往表现出捏造事实的倾向。这种幻觉在需要多步推理的领域尤其严重,其中一个环节上的逻辑错误就足以破坏整个解答过程。”


OpenAI 为幻觉问题提出了新的策略:在 AI 模型训练当中设置新的奖励机制,不仅奖励其获得正确的最终结论,更要奖励它们在得出答案的过程中做出的每个正确推理步骤。


研究人员表示,这种方法被称为“过程监督”,而非“结果监督”。由于能够鼓励模型更多遵循人类的“思维”方法链,所以过程监督方法也许能提高 AI 输出的可解释性。


OpenAI 公司数学生成(mathgen)研究员 Karl Cobbe 在采访中指出,“检测和缓解模型中的逻辑错误或者幻觉,将是构建高一致性 AGI(通用人工智能)的关键一步。”虽然 OpenAI 之前没有发明出过程监督方法,但如今亡羊补牢,为时未晚。“这项研究的动机在于解决幻觉问题,使得模型具备解决挑战性推理问题的强大能力。”


Cobbe 还提到,OpenAI 已经发布一套附带数据集,其中包含 80 万个人类标注,用于训练研究论文中描述的这套模型。

解决“AI 幻觉”难题任重道远


随着 AI 技术得到广泛应用,“AI 幻觉”带来的潜在问题也开始浮现,并引发大众担忧。


以谷歌 2 月发布Bard时的宣传为例,这款聊天机器人对詹姆斯·韦伯太空望远镜做出了错误描述。最近,ChatGPT 又在纽约联邦法院一份文件中引述了“不存在的”案件,涉案律师可能因此面临处罚。


美国律师 Steven A. Schwartz 向 ChatGPT 求助,想要为自己诉哥伦比亚国家航空一案找点支持案例,ChatGPT 却给出了根本不存在的判例建议。Schwartz 声称他“没有意识到 ChatGPT 给出的内容可能是假的”。但从他跟机器人的聊天记录来看,他还是保持了一丝怀疑,想要进一步检查这些信息。但很遗憾,他选择询问 ChatGPT 来确认内容真实性,系统则再次做出误导,向他保证这些虚构判例完全真实合法。


此前在接受《纽约时报》采访时,OpenAI 的联合创始人 Ilya Stutskever 曾坦言 AI 幻觉是个大问题,但很有可能被“治愈”:我们现在的做法是雇人教会 ChatGPT 如何表现。你只需要与它互动,它就能从你的反应中推断出你想要的东西,比如,你对输出结果不满意。因此,它应该在下一次做些不同的事情。我认为这种方法很有可能(a quite a high chance)完全解决幻觉的问题。


随着 OpenAI 最新 AI 模型训练方法的公布,如何解决“AI 幻觉”难题再次引发讨论。


电子隐私信息中心高级顾问兼 AI 与人权项目负责人 Ben Winters 对 OpenAI 的训练方法表示怀疑,称实际效果要在检查了完整的数据集和随附示例后才能确定。


Winters 强调,“我只是觉得单凭这一种措施,不足以在实际应用场景当中显著降低 AI 生成错误信息和不正确结果的问题……另外,他们会不会把研究成果全面纳入产品也非常重要。如果不是,这反而会引发其他严重问题,比如操纵模型有选择地向公众发布信息。”


考虑到还不清楚 OpenAI 论文有没有经过同行评审或者其他形式的评审,布朗大学技术责任中心主任 Suresh Venkatasubramanian 认为这项研究的意义更多在于初步观察,而非实际应用。


Venkatasubramanian 指出,“在对此给予肯定之前,首先得等待这项成果在研究领域得到证实。这个世界上,很多结果总会定期出现。因为大语言模型的工作方式总体上并不稳定,所以在某一种设置、模型和上下文中起效的东西,很可能在另一种设置、模型和上下文中毫无作用。人们最担心的「幻觉」,其实是模型可能捏造的引用和参考资料。但文中没有能解决这个问题的证据。……我不是说一定解决不了,只是说这篇论文缺乏相关证据。”

在强调 ChatGPT 局限性方面,OpenAI 做得还不够


OpenAI 能够意识 ChatGPT 的“AI 幻觉”问题,但在强调 ChatGPT 局限性方面,OpenAI 做得还不够。


在 ChatGPT 的主页上,OpenAI 发布的一条警告内容称“可能偶尔会产生不正确信息”,这也是其系统功能和局限性部分的九条须知之一。但这条警告内容放在任何信息源上都同样适用,对于 ChatGPT 这样一种强大、身处炒作大潮的风口浪尖且容易被严重误解的技术成果,OpenAI 在引导用户方面做得还远远不够,OpenAI 应该投入更多精力,明确强调 ChatGPT 无法稳定区分事实和“幻觉”。


据 The Verge 报道,过去几个月间,很多人都被 ChatGPT 的“胡说八道”所愚弄和影响。值得庆幸的是,大多数案例都微不足道,几乎没有造成负面冲击,ChatGPT 最多也就是捏造了一篇新闻报道、一篇学术论文或者一本不存在的书。但在个别案例中,ChatGPT 的错误信息确实可能引发严重后果。


今年 5 月,得克萨斯州农工大学的一位教授就使用聊天机器人检查学生是不是在靠 AI 写水文章。ChatGPT 倒是非常热情,表示所有论文都是由 AI 生成的,但却拿不出什么真凭实据。教授深信不疑而且大为光火,威胁要让学生们挂科甚至毕不了业,好在最终大家发现了这个错误。


这些事件并不会彻底毁掉人们对于 ChatGPT 等聊天机器人的期待和认可。只要配合正确的场景和适当的保护措施,这些 AI 工具仍然能在信息检索等任务中发挥巨大作用。目前也有各种有趣的研究正在推进,表明此类系统也许能在未来更好地尊重客观事实。


但当下,这类 AI 产品的局限性需要引起人们足够的重视。企业需要向大众强调 AI 产品的局限性,媒体也需要承担相应的报道责任。


干预措施并不需要特别复杂,但必须得有。比如,为什么 ChatGPT 无法识别用户想要的是事实性依据,并提醒对方“请注意检查信息来源”?在用户要求它判断特定文本是否由 AI 生成时,ChatGPT 为什么就不能明确表示“对不起,我没有能力做出判断”?


当然,OpenAI 一直在努力改进这些问题。自 ChatGPT 推出以来,它已经变得越来越坦率、会直言自己存在局限性。最经典的表述就是“作为一个 AI 语言模型,我……”。但不一致问题仍然存在,比如,当问它“你能检测出 AI 生成的文本吗?”它回答说“检测结果不一定准确。”但向它输入了一大段内容,并提出同样的问题时,它只是简单回答“是的,这段文字是由 AI 生成的。”


此外,当要求 ChatGPT 提供一份测量专业书籍推荐清单时,它给出的答案共有 10 本书,其中不少质量很高,但有 2 本则是完全虚构的。如果不是在刻意检查,可能根本就不会注意到这个问题。当用户和 ChatGPT 交流多了,并且验证后就会发现,ChatGPT 这类 AI 产品经常“胡说八道”。


面对这样的现状,“可能偶尔会产生不正确信息”之类的免责声明显然远远不够。


参考链接:


https://www.cnbc.com/2023/05/31/openai-is-pursuing-a-new-way-to-fight-ai-hallucinations.html

https://www.theverge.com/2023/5/30/23741996/openai-chatgpt-false-information-misinformation-responsibility

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-06-01 14:367029

评论

发布
暂无评论
发现更多内容

Android技术分享| 一对一音视频呼叫邀请开发流程(一)

anyRTC开发者

android 音视频 移动开发 视频通话 呼叫邀请

拿来即用!Get计算机视觉核心知识,看这本书就够了!

博文视点Broadview

超多精美礼品等你来拿!2022年中国混沌工程调查启动

混沌工程实验室

混沌工程

Python爬虫抢购某宝秒杀商品

弑着去忘记う

后端

安全狗《云原生安全威胁分析报告》首次提出双检测模型

Geek_2d6073

如何在 UE4 中制作一扇自动开启的大门

HelloWorld杰少

8月月更

Mysql重启后innodb和myisam插入的主键id变化总结

知识浅谈

8月月更

TiFlash 计算层概览

TiDB 社区干货传送门

数据库 分布式数据库 TiDB

阿里巴巴2022最新Java架构师进阶宝典!助力程序员金九银十面试跳槽涨薪

程序员小毕

Java 程序员 架构 面试 算法

fastposter v2.9.0 程序员必备海报生成器

物有本末

fastposter 海报生成器 海报编辑器 海报生成 图片生成

leetcode 448. Find All Numbers Disappeared in an Array 找到所有数组中消失的数字(简单)

okokabcd

数组 LeetCode 数据结构与算法

大数据培训学习开发技术费用

小谷哥

大型连锁百货运维审计用什么软件好?有哪些功能?

行云管家

IT运维 运维审计 运维软件 百货

树莓派 USB摄像头 实现网络监控( MJPG-Streamer)

Five

树莓派 网络监控 #web 8月月更

上海web前端培训课程

小谷哥

Webpack5新特性:使用 Assets Module 处理图片和字体资源

昆吾kw

前端 前端工程化 webpack

SpringBoot如何优雅地进行响应数据封装、异常处理?

程序员小毕

Java 源码 程序员 面试 spring-boot

什么是研发效能的「黄金三角」?如何助力企业提升效能?

万事ONES

tinymce 如何实现动态国际化

Five

插件开发 tinymce 富文本编辑器 8月月更

使用域名注册服务 Domains配置域名【华为云至简致远】

科技云未来

域名配置 端口映射

浅谈程序员的职业操守

阿里技术

java培训机构与自学的优缺点有什么

小谷哥

易观分析:2022年Q2中国网络零售B2C市场交易规模达23444.7亿元

易观分析

B2C 网络零售

字节算法大神手写算法笔记,已连续多次霸榜 GitHub Trending 首页

冉然学Java

GitHub 算法 Java 分布式 字节

Tinymce plugins [Tinymce扩展插件集合]

Five

插件开发 tinymce 富文本编辑器 8月月更

通过Gitea实现内外网repo管理

DisonTangor

git

七夕专属限定:1 分钟 Serverless 极速抽盲盒

hum建应用专家

云计算 Serverless

前端高频面试题

helloworld1024fd

web前端面授培训课程

小谷哥

近邻搜索算法浅析

得物技术

深度学习 算法 Faiss 近邻搜索 乘积量化

源码阅读其实很简单!阿里业务架构师手写JDK源码笔记(2022版)真香

Java永远的神

Java 程序员 面试 程序人生 jdk源码

防止AI胡说八道!OpenAI公布最新大模型训练方法,监督AI像人类一样思考_文化 & 方法_凌敏_InfoQ精选文章