2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

ChatGPT 正确回答代码问题的几率比抛硬币还要差

  • 2024-01-24
    北京
  • 本文字数:2486 字

    阅读完需:约 8 分钟

大小:1.19M时长:06:54
ChatGPT 正确回答代码问题的几率比抛硬币还要差

普渡大学的一项研究显示,OpenAI 家神奇的聊天机器人 ChatGPT 在回答软件编程相关的问题时,有一半以上的概率会给出错误答案。尽管如此,这款机器人的说服力还是能骗过三分之一的研究参与者。

 

普渡大学的团队分析了 ChatGPT 对 517 个 Stack Overflow 问题的回答,从正确性、一致性、全面性和间接性四个方面进行了评估。美国的学者同样对这些答案进行了语言和情感的分析,并用模型生成的结果询问了几十位志愿者的意见。

 

“我们的分析表明,ChatGPT 的回答中有 52%的错误率,77%过于冗长,”该团队的论文总结,“尽管如此,ChatGPT 的回答全面且语言风格清晰明了,仍在 39.34%的情况下被视作首选。”在这组首选的 ChatGPT 回答中,有 77%都是错误的。

 

OpenAI 在 ChatGPT 的官网上承认其软件“可能会产生不准确的人物、地点或事实信息。”我们询问了实验室是否对普渡大学的研究发表任何评论。

 

只有在 ChatGPT 的回答中错误足够明显时,用户才能看出问题。

 

预印本标题为《谁的回答更好?对 ChatGPT 和 StackOverflow 在软件工程方面问题回答的深入分析》,由研究人员 Samia Kabir、David Udo-Imeh、Bonan Kou,及助理教授 Tianyi Zhang 合作编著。

 

“我们在研究中观察到,只有当 ChatGPT 回答中的错误非常明显时,人们才能发现,”论文中指出,“然而,当错误不易验证或需要外部 IDE 或文档时,人们往往无法发现错误或低估回答中的错误程度”。

 

论文称,即使在回答中有明显错误,12 名参与者中仍有两人将其标记为首选答案。论文将此归咎于 ChatGPT 轻松且权威的回答风格。

 

“通过半结构化的采访中可以看出,礼貌用语、自信有力和教科书式的答案,再加上全面性和答案中的因果关系,这些能让完全错误的答案显得正确,”论文中写道。

研究发现,大家更喜欢 ChatGPT 错误且冗长的答案


“与 Stack Overflow 的答案相比,参与者更喜欢 ChatGPT 错误且冗长的答案,原因有很多,”普渡大学的博士生,也是论文的作者之一,Samia Kabir 告诉《The Register》。

 

“主要原因是 ChatGPT 的答案非常详细,很多情况下,如果参与者能够从冗长但详细的答案中获得有用信息,他们并不介意答案的长度。此外,积极的语气和礼貌的回答则是另外两个原因。”


“当参与者认为 ChatGPT 的回答非常深刻时,便会忽视答案中的错误。ChatGPT 能够自信地传达颇有见地的信息(即使是错误信息),为它赢得了用户的信任,从而让人们更偏好不正确的答案。”Kabir 称,用户研究在对 ChatGPT 答案的深入人工分析和大规模语言分析方面有补充作用。“不管怎么说,更大规模的样本量总是没坏处,”她说,“我们也欢迎其他研究者复制我们的研究从而促进未来的研究发展,我们的数据集是公开的。”

 

作者观察到,ChatGPT 的答案包含更多“驱动性”,会在文字间暗示成就或成绩,但对风险的描述频率不如 Stack Overflow 帖子。“我们多次观察到 ChatGPT 使用了‘我当然能帮您’、‘这一定能解决问题’等短语”,论文中称。

 

除此之外,作者还发现 ChatGPT 更容易犯概念性错误而非事实性错误。“ChatGPT 回答出错多数是由于它无法理解问题基本背景的本质,”论文中发现。

 

作者对 ChatGPT 和 Stack Overflow 回答进行的语言分析表明,机器人的回答“更正式,也表达了更多的分析性思维,展示了更多其为实现目标所做的努力,也较少表现出负面的情绪”。研究团队的情绪分析认为,ChatGPT 比 Stack Overflow 的回答表现出了“更积极的情感”。

 

Kabir 称,“根据我们的研究结果和观察,我们建议 Stack Overflow 可以采用有效的方式检测评论及回答中的负面或攻击性情绪,改善情绪变得礼貌”。

 

“此外,Stack Overflow 可以提高其答案的可发现行,从而帮助用户找到有用的答案。Stack Overflow 也可以提供更为具体的指引,帮助回答者组织答案,比如用循序渐进、注重细节的方式回答”。

Stack Overflow 还是溢出的堆栈


对于 Stack Overflow 来说,还是有一些积极的消息。在 2018 年,Stack Overflow 是 130 万安卓应用程序中15%的错误代码片段来源。在研究中,60%的受访者认为(自认的)人工撰写的答案更正确、更简洁,也更有用。

 

尽管如此,Stack Overflow 的使用量似乎还是有所下降,但具体下降的幅度还有争议。SimilarWeb 在四月的一份报告称,自 2022 年 1 月以来,Stack Overflow 的网站流量似乎每月都有 6%的下降幅度,3 月中更是下降了 13.9%。

 

Stack Overflow 的问答网络站点,Stack Exchange 中的社区成员显然也得出了类似的结论,他们是基于新的问题活动、网站上发布的新回答,以及新用户注册数量的下降中得出的。

 

所有权于2021年更新后,Stack Overflow 公司在发送给《The Register》的一封电子邮件中表达了对 SimilarWeb 评估的异议。

 

一位发言人称,Stack Overflow 在 2022 年 5 月将其分析 cookie 从“严格必要”重新归类为“性能”cookie,并于 2022 年 9 月改用第 4 版谷歌 Analytics,这两项策略都会影响流量的报告和长期的对比。

 

“尽管我们看到流量略有下降,但事实绝不是图表上显示的那样”,公司发言人告诉《The Register》,“与 2022 年相比,2023 年的总体流量平均下降了 5%”。

 

“尽管如此,Stack Overflow 及其他许多网站的流量都受过去几月内 ChatGPT 关注度激增的影响。2023 年 4 月,我们的流量降幅超过了平均水平(约 14%),这很可能是由于开发者在 3 月 ChatGPT 发布后进行了试用。我们的流量也会受搜索算法影响变化,这对我们的内容发现形式有很大的影响”。

 

在被问及这篇论文中的研究结果时,Stack Overflow 的发言人表示公司目前没人有时间研究这篇报告。


“大家都知道开发者在利用人工智能方式方面并不缺乏选择,但根据我们自己的调查结果,人工智能的采用有一个核心的障碍,那就是对人工智能生成内容的准确性的信任”,该发言人称。


“Stack Overflow 近期对 9 万名程序员进行的年度开发者调查发现,77%的开发者对人工智能工具持支持态度,但只有 42%的开发者选择相信这些工具的准确性。OverflowAI 的开发是以社区为核心,注重数据和人工智能生成内容的准确性”。

 

“有了 OverflowAI,我们就能在 Stack Overflow 的社区和其中 5800 多万的问题和答案中进行筛查、验证、归因,并确认准确性和可信度”。

2024-01-24 17:446923

评论

发布
暂无评论
发现更多内容

中层管理者的工作五步法

石云升

读书笔记 职场经验 管理经验 6月日更

聊聊知乎订单系统迁移

知一

监控 软件开发 系统架构 重构 订单系统

Python 没有函数重载?如何用装饰器实现函数重载?

华为云开发者联盟

Python 装饰器 命名空间 函数 函数重载

视赏家短视频系统软件开发详情

我们常说的算法时间复杂度和空间复杂度到底是什么?

编程三昧

编程 算法复杂度

智能运维(AIOps)系列之一:个人对智能运维的理解

micklongen

AIOPS 智能运维

Rust从0到1-函数式编程-性能比较

rust 函数式编程 Performance 性能比较

【LeetCode】传递信息Java题解

Albert

算法 LeetCode 7月日更

视频 QoE 的平衡之道—揭秘网易云信 NERTC 视频质量控制系统

网易云信

视频 Qoe

并发王者课-铂金05:致胜良器-无处不在的“阻塞队列”究竟是何面目

MetaThoughts

Java 多线程 并发 并发王者课

【源码系列】Spring 过滤器和拦截器

Alex🐒

spring 源码 Spring Framework

开源商业化:满足各方底层需求

茶陵後

开源 开源社区 开源文化

DMD钻石币质押软件系统开发内容

13万张表+数亿行代码,迁移只需数小时,还是异构数据库

华为云开发者联盟

数据库迁移 DRS 华为云数据库 异构数据库 华为云UGO

解析对偶理论与对偶单纯性法

华为云开发者联盟

模型 对偶理论 对偶单纯性法 对偶 线性规划

vue keep-alive(1):vue router如何保证页面回退页面不刷新?

zhoulujun

Vue vue-router keep-alive 页面缓存

Linux之head命令

入门小站

Linux

如何实施 SCRUM ?

万事ONES

项目管理 Scrum 敏捷开发 看板 ONES

【带你手撸Spring】没有哪个框架开发,能离开 Spring 的 FactoryBean!

小傅哥

spring 小傅哥 代理对象 FactoryBean Bean作用域

网络攻防学习笔记 Day60

穿过生命散发芬芳

网络攻防 6月日更

在线图片转base64工具

入门小站

工具

华为云原生媒体网络,升级传统,赋能未来

华为云开发者联盟

云原生 直播 TechWave 媒体网络 云视频

如何做好IT项目管理?

万事ONES

IT 项目经理 项目管理工具

“区块链贸易融资生态”应用案例发布

CECBC

区块链:从根儿上解决2%的人拥有80%的财富全球社会问题

CECBC

2021,云原生避坑经验分享|CIC 阵容官宣

青云技术社区

容器 云原生

vue keep-alive(2):剖析keep-alive的实现原理—学习笔记整理

zhoulujun

Vue vue源码解读 keep-alive实现原理

SQL 居然还能在 Apache ShardingSphere 上实现这些功能?

SphereEx

【Flutter 专题】129 图解 ToggleButtons 按钮切换容器组

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 7月日更

Camtasia实用技巧之视频剪辑

淋雨

视频剪辑 Camtasia 录屏软件

DGTT矿机软件开发|DGTT矿机系统APP开发

ChatGPT 正确回答代码问题的几率比抛硬币还要差_生成式 AI_Thomas Claburn_InfoQ精选文章