【AICon】硅谷视野+中国实践,汇聚全球顶尖技术的 AI 科技盛会 >>> 了解详情
写点什么

OpenAI 出手后,GPT-4 真的不懒了?网友不买账:只靠打补丁恐怕无济于事!

  • 2024-01-29
    北京
  • 本文字数:3236 字

    阅读完需:约 11 分钟

大小:1.55M时长:09:03
OpenAI出手后,GPT-4真的不懒了?网友不买账:只靠打补丁恐怕无济于事!

大模型会从人类经验中学习,如果人类本身越来越懒,那模仿人类的程序是不是也会越来越懒?

OpenAI 发布更新,解决 GPT-4“变懒”问题

 

近日,OpenAI 在一篇博文中发布了多项更新,并表示更新后的 GPT-4 Turbo“拥有比之前预览模型更好的代码生成等能力,且减少了模型在任务中途罢工的「变懒」情况。”但该公司并没有对更新内容做进一步解释。

 

OpenAI 在帖子中提到,由于知识库更新,已经有超过 70%的 GPT-4 API 用户转向了 GPT-4 Turbo。OpenAI 表示,未来几个月内将陆续推出更多 GPT-4 Turbo 更新,包括发布具有视觉模态处理能力的 GPT-4 Turbo 正式版。这意味着用户将可输入各类多模态提示词,例如文本到图像生成提示。

 

此外,OpenAI 还推出了被称为“嵌入”的小体量 AI 模型。OpenAI 对于嵌入的定义,是“代表自然语言或代码等内容中概念的数字序列”。以此为基础,即可搭配检索增强生成(简称 RAG,一种从数据库获取信息、而非生成答案的 AI 方法)应用找到各类可访问内容间的关系。这些新模型、text-embedding-3-small 嵌入乃至更强大的 text-embedding-3-large 版本现均已正式开放。



经过改进的各 GPT 模型现已通过 API 开放,包括质量更高、价格更低廉的嵌入模型(e.gone 模型的成本仅为此前嵌入模型的五分之一,但性能更强)。

用户抱怨 GPT-4 学会偷懒:越来越像人类了?

 

2023 年 12 月,有不少用户抱怨称,“这段时间使用 ChatGPT 或 GPT-4 API 时,会遇到高峰期速度非常慢、敷衍回答、拒绝回答、中断会话等一系列问题”。

 

比如,某些时候,GPT-4 系统会给出一些特别模糊的答案,特别是关于 Docker、Kubernetes 以及其他 CI/CD 的问题。此外,GPT-4 还学会了“废话文学”——不直接回答问题,只是堆叠素材来讲解应该怎样回答问题。有用户反映,哪怕明确要求不要使用空白占位符,模型也仍然会用占位符把回答截得七零八落。这种限制回复质量的作法倒是替服务商节约了资源,但却极大浪费了普通用户的时间。

 

用户 jonathanallengrant 在 OpenAI 社区一个名为“为什么我觉得 GPT 变懒了”的帖子中提到:“不少人注意到自从 Dev Day 活动以来,模型的输出上限就变成了 850 个 token。换言之就是 ChatGPT 变懒了,不光留出大量空白,还常常在同一条消息里半天停在原地。我相信这应该是 OpenAI 正在以某种方式扩展模型的推理方法。”

 

用户 manchkiran 表示自己也遇到过类似的情况,并吐槽“现在的模型绝对是变懒了,只会快速搜索并给出 Bing 引擎的链接”,他猜测大模型变懒的原因或许与“微软加入 OpenAI 董事会后下调了算力分配”有关。

 

sasindujayashmaavmu 则从另一个角度分析了 GPT-4 变懒的原因:“我觉得这可能是人机回圈的锅……大模型会从人类经验中学习,所以如果人类本身越来越懒,那模仿人类的程序也会越来越懒。”

 

对于漫天盖地的吐槽声,ChatGPT 官方通过 X 平台通知用户,“我们听到了你们关于 GPT-4 变得越来越懒的反馈!我们自 11 月 11 日起就没有更新过模型了,当然这不是故意的。”

OpenAI 出手后,GPT-4 真的不懒了?

 

OpenAI 本次更新承诺解决了 GPT-4“变懒”问题,根据社区用户反馈来看,如今的 GPT-4 似乎真的聪明多了。

 

用户 Distinct_Salad_6683 提到,最近自己发现 GPT 在编码能力有所提升,能够根据提示词快速提供完整的示例。之前 GPT 经常会拒绝给出具体示例,只是在描述自己要求它干的工作,并用“在此处插入函数逻辑”之类的废话来搪塞问题。

 

也有用户“阴阳”OpenAI:软件只要更新一下就能解决“变懒”,真羡慕。要是能有补丁帮我扛过礼拜一就好了。

 

由于 OpenAI 并未对更新内容做进一步解释,因此也有不少用户开始分析其到底是怎么解决 GPT-4“变懒”问题的。语言学家 christelle.hilz 分析,GPT-4 变懒的问题跟算法无关,单靠打补丁恐怕无济于事。这个问题还得从其他角度尝试解决。“我好奇的是 OpenAI 愿意花多少钱来解决 GPT 变懒问题”。

 

也有观点认为,OpenAI 并未真正地解决问题。因为大语言模型就是算法加公式的组合,所以哪怕更新真的解决了变懒问题,只能用这种方法改进模型本身也不是什么好兆头。

 

chieffy99 则更悲观地表示,哪怕是聘请了世界各地的专家,大语言模型自身的问题还是难以解决,毕竟任何专家都不可能确切了解每一个问题。因为越是越是专注于自己的专业积累,我们的视野反而变得越狭窄。chieffy99 还向 OpenAI 的管理团队“开炮”:

 

我向来敢于对 OpenAI 的缺点开炮,这里我也要明确表态:OpenAI 一直认为 AI 的问题不可能通过开发 AI 方案来解决,但我觉得这是错的。

 

我自己没有任何关于 AI 的知识和使用经验,但拥有丰富的项目管理积累。抱怨变懒问题的用户是谁、当时是怎么操作的并不是重点,重点在于大模型为什么会倾向于消极工作。我本人喜欢从问题当中寻找共性,而且从目前的情况看应该不只是模型自身出了问题。我自己还没有明确的答案,但 OpenAI 的态度明显是“先尝试从内部做解决或者改进,等影响到正常使用了再说”。

 

在我看来,OpenAI 的管理思路很有问题。以常见的团队沟通规划为例,只要提供足够的信息,GPT-3.5 的表现还是相当不错的。所以我猜 OpenAI 也是用这种方式蒙蔽了高管团队的判断,毕竟精调提示词并不困难,请个专人就能解决。正因为如此,OpenAI 才产生了单靠调整 AI 模型就能解决 AI 问题的思路。

 

我不知道现在大家说的这些问题到底跟变懒有没有关系,毕竟引发问题的原因多种多样。而且 GPT 大模型本身也不老实,甚至会说谎来隐藏自己的真实行为。哪怕是被发现,OpenAI 也可以解释说是存在误会或者提示词存在不当内容。另外别太过迷信规则,基于规则的行为也不一定比随机问题更稳定,比如 GPT-3.5 就会访问网站、并把外部聊天和相关数据保存成 html 文件。这其实是不符合 GPT 身份和功能定位的操作。我也遇到过中途“罢工”的情况,但这主要是大模型忘记了当前上下文中的内容必须与之前的上下文接续起来。普通用户当然分不清楚,所以很自然地认为是大模型在偷懒。这跟之前的 GPT 幻觉差不多,刚开始似乎经常发生,但使用的人越多、涉及的内部信息越少,幻觉也开始逐渐缓解。

 

另外还有三点个人观察。首先,我很好奇 OpenAI 的专家到底做了什么。这个问题始于去年 12 月,当时外界认为 GPT 过于迷信专业知识、甚至为此而倾向于输出错误信息。比如通过知识文件向 GPT 自动输入提示词,那么生成的信息就会有所不同。而如果不输入预设文件,GPT 的表现则比较正常。我就遇到了这样的情况,还专门向 OpenAI 上报了观察结果,想搞清在 RAG 问题有最终结论之前,到底该采取什么措施加以避免。而且之前我还尝试把知识跟行为区分开来做 GPT 训练,借此建立起纯知识库。在确保知识库内容与现实不冲突之后,再配合其他信息一起使用。第二点就是错误学习的问题。既然选择把大模型向公众开放,那能做纯软件修复的问题 OpenAI 肯定早就解决了。问题是时至今日,GPT 还是没法在不改变形状的前提下,把不同尺度下相同颜色的图表正确合并。还是那句话,如果能修复的话早该修复好了。最后一点就是 GPT 号称全球最受欢迎的 AI 模型。这个评判标准实在太模糊了,我觉得应该从功能层面做准确描述。

 

总而言之,当前关于 GPT 的种种报道明显是刻意设计出来的。可怕的是 GPT 明显还没做好准备,因此无脑宣传已经在扭曲中立研究、造成现实损害、甚至让 AI 制造出更多的社会问题。有人在违规使用 GPT,甚至有人把它当作非法工具来设计和实施犯罪。我不知道这次的更新能产生多大影响,但各种违规行为已经真实存在,甚至对普通用户产生直接影响。我想问问 OpenAI,这一切是单靠更新 AI 模型就能解决的吗?

 

值得一提的是,OpenAI 此番发布的更新针对的是 GPT-4 Turbo,即得到广泛使用的特定 GPT-4 版本。这套模型根据截至 2023 年 4 月的最新信息训练而成,目前仅提供预览版本。也就是说,大家如果继续使用 GPT-4(使用截止于 2021 年 9 月的数据训练而成),那么“变懒”问题可能仍将存在。

 

参考链接:

https://www.theverge.com/2024/1/25/24050829/openai-gpt-4-turbo-lazy-ai-model

https://community.openai.com/t/i-wonder-how-much-openai-would-pay-to-cure-gpt-lazyness/604781

https://community.openai.com/t/why-i-think-gpt-is-now-lazy/534332/11

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-01-29 17:095168

评论

发布
暂无评论

技术不行还说Java卷!靠468页SpringBoot企业级项目实战成功逆袭

做梦都在改BUG

Java 微服务 Spring Boot 框架

阿里巴巴内部Spring Cloud Alibaba 全彩 PDF 版手册开源

采菊东篱下

Java 微服务

Redis分布式锁一定注意两个坑

做梦都在改BUG

Java redis 分布式锁

解密HTTP协议:探索其组成部分与工作原理

做梦都在改BUG

Java 计算机网络 网络协议 HTTP

Java 源码重读系列之 HashMap

U2647

源码 hash map #java

一文解读基于PaddleSeg的钢筋长度超限监控方案

飞桨PaddlePaddle

人工智能 图像识别 飞桨

After Effects新手教程|如何对素材进行整理与预览

魔仙苹果mac堡

ae 2021中文版 After Effects破解版 After Effects教程 AE最新版下载

AutoCAD安装无响应,需要在macOS上完全卸载Autodesk产品!

魔仙苹果mac堡

cad2024激活版 AutoCAD安装无响应 AutoCAD M1

百度工程师的软件质量与测试随笔

百度Geek说

测试 软件质量 测试技术 智能测试 企业号 4 月 PK 榜

使用Python实现一个简单的垃圾邮件分类器

海拥(haiyong.site)

三周年连更

从GitHub火到了头条!共计1658页的《java岗面试核心》,拿走不谢

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

什么是接口定义? 接口定义的概念和用途详解

Apifox

前端 接口 后端 API 接口定义

聊聊简单又不简单的图上多跳过滤查询

华为云开发者联盟

大数据 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

OceanBase 4.1 发版 | 一个面向开发者的里程碑版本

OceanBase 数据库

数据库 oceanbase

如何把Ai绘画工具放到我们的App中

Onegun

AI AIGC

Spring源码探索-核心原理下(AOP、MVC)

Java你猿哥

spring aop Spring MVC

未来已来,OpenHarmony 3.2 Release发布,迈入发展新阶段

OpenHarmony开发者

OpenHarmony

安全测试前置实践2-安全渗透测试

京东科技开发者

测试 安全测试 功能测试 网络安全渗透测试 企业号 4 月 PK 榜

【实践篇】基于CAS的单点登录实践之路

京东科技开发者

CAS SSO 单点登录 企业号 4 月 PK 榜

CUDA编程基础与Triton模型部署实践

阿里技术

cuda 模型部署

Hybrid App 选用什么前端框架更好

Onegun

flutter React Native Hybrid

横扫一线大厂面试的高并发笔记到底有多硬核?

小小怪下士

Java 程序员 后端 高并发 java面试

ChatGPT背后的AI背景、技术门道和商业应用(万字长文,建议收藏)

京东科技开发者

人工智能 AI ChatGPT 人工智能ChatGPT 吗? 企业号 4 月 PK 榜

分享:CUDB for OceanBase分布式数据库产品规模应用

OceanBase 数据库

数据库 oceanbase

ps2022电脑配置要求 PS2022下载

魔仙苹果mac堡

ps2022电脑配置要求 PS2022下载

Github发布6天,Star55K+,这套笔记足够你拿下90%的Java面试

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

cad看图:MiniCAD 中文版

真大的脸盆

Mac Mac 软件 cad cad看图

MySQL索引数据结构入门

江南一点雨

Java MySQL

4月22日,云数据库技术沙龙【杭州站】

NineData

MySQL 数据库 开发者 Clickhouse 沙龙预告

分享:作业帮在多云环境下的高可用双活架构优化实践

OceanBase 数据库

数据库 oceanbase

在桌面养只捣蛋鹅 Desktop Goose让你的mac桌面更有趣!

魔仙苹果mac堡

抖音桌面宠物鹅 桌面宠物鸭 Mac版 Desktop Goose怎么关闭 Desktop Goose下载

OpenAI出手后,GPT-4真的不懒了?网友不买账:只靠打补丁恐怕无济于事!_生成式 AI_凌敏_InfoQ精选文章