写点什么

ChatGPT 正确回答代码问题的几率比抛硬币还要差

  • 2024-01-24
    北京
  • 本文字数:2486 字

    阅读完需:约 8 分钟

大小:1.19M时长:06:54
ChatGPT 正确回答代码问题的几率比抛硬币还要差

普渡大学的一项研究显示,OpenAI 家神奇的聊天机器人 ChatGPT 在回答软件编程相关的问题时,有一半以上的概率会给出错误答案。尽管如此,这款机器人的说服力还是能骗过三分之一的研究参与者。

 

普渡大学的团队分析了 ChatGPT 对 517 个 Stack Overflow 问题的回答,从正确性、一致性、全面性和间接性四个方面进行了评估。美国的学者同样对这些答案进行了语言和情感的分析,并用模型生成的结果询问了几十位志愿者的意见。

 

“我们的分析表明,ChatGPT 的回答中有 52%的错误率,77%过于冗长,”该团队的论文总结,“尽管如此,ChatGPT 的回答全面且语言风格清晰明了,仍在 39.34%的情况下被视作首选。”在这组首选的 ChatGPT 回答中,有 77%都是错误的。

 

OpenAI 在 ChatGPT 的官网上承认其软件“可能会产生不准确的人物、地点或事实信息。”我们询问了实验室是否对普渡大学的研究发表任何评论。

 

只有在 ChatGPT 的回答中错误足够明显时,用户才能看出问题。

 

预印本标题为《谁的回答更好?对 ChatGPT 和 StackOverflow 在软件工程方面问题回答的深入分析》,由研究人员 Samia Kabir、David Udo-Imeh、Bonan Kou,及助理教授 Tianyi Zhang 合作编著。

 

“我们在研究中观察到,只有当 ChatGPT 回答中的错误非常明显时,人们才能发现,”论文中指出,“然而,当错误不易验证或需要外部 IDE 或文档时,人们往往无法发现错误或低估回答中的错误程度”。

 

论文称,即使在回答中有明显错误,12 名参与者中仍有两人将其标记为首选答案。论文将此归咎于 ChatGPT 轻松且权威的回答风格。

 

“通过半结构化的采访中可以看出,礼貌用语、自信有力和教科书式的答案,再加上全面性和答案中的因果关系,这些能让完全错误的答案显得正确,”论文中写道。

研究发现,大家更喜欢 ChatGPT 错误且冗长的答案


“与 Stack Overflow 的答案相比,参与者更喜欢 ChatGPT 错误且冗长的答案,原因有很多,”普渡大学的博士生,也是论文的作者之一,Samia Kabir 告诉《The Register》。

 

“主要原因是 ChatGPT 的答案非常详细,很多情况下,如果参与者能够从冗长但详细的答案中获得有用信息,他们并不介意答案的长度。此外,积极的语气和礼貌的回答则是另外两个原因。”


“当参与者认为 ChatGPT 的回答非常深刻时,便会忽视答案中的错误。ChatGPT 能够自信地传达颇有见地的信息(即使是错误信息),为它赢得了用户的信任,从而让人们更偏好不正确的答案。”Kabir 称,用户研究在对 ChatGPT 答案的深入人工分析和大规模语言分析方面有补充作用。“不管怎么说,更大规模的样本量总是没坏处,”她说,“我们也欢迎其他研究者复制我们的研究从而促进未来的研究发展,我们的数据集是公开的。”

 

作者观察到,ChatGPT 的答案包含更多“驱动性”,会在文字间暗示成就或成绩,但对风险的描述频率不如 Stack Overflow 帖子。“我们多次观察到 ChatGPT 使用了‘我当然能帮您’、‘这一定能解决问题’等短语”,论文中称。

 

除此之外,作者还发现 ChatGPT 更容易犯概念性错误而非事实性错误。“ChatGPT 回答出错多数是由于它无法理解问题基本背景的本质,”论文中发现。

 

作者对 ChatGPT 和 Stack Overflow 回答进行的语言分析表明,机器人的回答“更正式,也表达了更多的分析性思维,展示了更多其为实现目标所做的努力,也较少表现出负面的情绪”。研究团队的情绪分析认为,ChatGPT 比 Stack Overflow 的回答表现出了“更积极的情感”。

 

Kabir 称,“根据我们的研究结果和观察,我们建议 Stack Overflow 可以采用有效的方式检测评论及回答中的负面或攻击性情绪,改善情绪变得礼貌”。

 

“此外,Stack Overflow 可以提高其答案的可发现行,从而帮助用户找到有用的答案。Stack Overflow 也可以提供更为具体的指引,帮助回答者组织答案,比如用循序渐进、注重细节的方式回答”。

Stack Overflow 还是溢出的堆栈


对于 Stack Overflow 来说,还是有一些积极的消息。在 2018 年,Stack Overflow 是 130 万安卓应用程序中15%的错误代码片段来源。在研究中,60%的受访者认为(自认的)人工撰写的答案更正确、更简洁,也更有用。

 

尽管如此,Stack Overflow 的使用量似乎还是有所下降,但具体下降的幅度还有争议。SimilarWeb 在四月的一份报告称,自 2022 年 1 月以来,Stack Overflow 的网站流量似乎每月都有 6%的下降幅度,3 月中更是下降了 13.9%。

 

Stack Overflow 的问答网络站点,Stack Exchange 中的社区成员显然也得出了类似的结论,他们是基于新的问题活动、网站上发布的新回答,以及新用户注册数量的下降中得出的。

 

所有权于2021年更新后,Stack Overflow 公司在发送给《The Register》的一封电子邮件中表达了对 SimilarWeb 评估的异议。

 

一位发言人称,Stack Overflow 在 2022 年 5 月将其分析 cookie 从“严格必要”重新归类为“性能”cookie,并于 2022 年 9 月改用第 4 版谷歌 Analytics,这两项策略都会影响流量的报告和长期的对比。

 

“尽管我们看到流量略有下降,但事实绝不是图表上显示的那样”,公司发言人告诉《The Register》,“与 2022 年相比,2023 年的总体流量平均下降了 5%”。

 

“尽管如此,Stack Overflow 及其他许多网站的流量都受过去几月内 ChatGPT 关注度激增的影响。2023 年 4 月,我们的流量降幅超过了平均水平(约 14%),这很可能是由于开发者在 3 月 ChatGPT 发布后进行了试用。我们的流量也会受搜索算法影响变化,这对我们的内容发现形式有很大的影响”。

 

在被问及这篇论文中的研究结果时,Stack Overflow 的发言人表示公司目前没人有时间研究这篇报告。


“大家都知道开发者在利用人工智能方式方面并不缺乏选择,但根据我们自己的调查结果,人工智能的采用有一个核心的障碍,那就是对人工智能生成内容的准确性的信任”,该发言人称。


“Stack Overflow 近期对 9 万名程序员进行的年度开发者调查发现,77%的开发者对人工智能工具持支持态度,但只有 42%的开发者选择相信这些工具的准确性。OverflowAI 的开发是以社区为核心,注重数据和人工智能生成内容的准确性”。

 

“有了 OverflowAI,我们就能在 Stack Overflow 的社区和其中 5800 多万的问题和答案中进行筛查、验证、归因,并确认准确性和可信度”。

2024-01-24 17:447558

评论

发布
暂无评论
发现更多内容

Wireshark数据包分析学习笔记Day23

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

火币矿池pro系统开发介绍案例丨火币矿池pro源码功能

系统开发咨询1357O98O718

HUBDEX交易所系统开发源码案例

系统开发咨询1357O98O718

百位优质创作者签约计划|声网签约权益

InfoQ写作社区官方

签约计划 热门活动

python 国际化实践

walker12138

Python flask i18n

国内唯一,阿里云挺进 Forrester 全球云数据仓库卓越表现者象限

阿里云大数据AI技术

云计算 大数据 阿里云 数据仓库 Forrester Wave

设计模式简介

happlyfox

学习 设计模式 3月日更

Golang :后端开发中的万能药吗?

华为云开发者联盟

后端 开发 分布式系统 Go 语言

【得物技术】出价组DDD分层模型总结

得物技术

技术 总结 DDD 模型 出价

常考面试题之css篇

yumibgt

国内首个自主可控区块链技术发布!已在北京冷链追溯中显威

CECBC

区块链

如何减少期望值差异

石云升

绩效 28天写作 职场经验 管理经验 3月日更

寻找被遗忘的勇气(二十六)

Changing Lin

3月日更

2020年京东161亿研发费用,钱怎么花的?

吴俊宇

投资 数字化 京东

来云智技术论坛,带你认识 云智一体!

百度大脑

微软在比特币区块链上推出身份认证平台

CECBC

比特币

3.1 Go语言从入门到精通:包

xcbeyond

3月日更 Go 语言

百位优质创作者签约计划|InfoQ 签约权益

InfoQ写作社区官方

签约计划 热门活动

2021最新分享字节四面成功拿Offer!

比伯

Java 编程 架构 面试 计算机

【OpenPyXL】对Excel单元格的操作

IT蜗壳-Tango

办公自动化 3月日更 IT蜗壳教学

Photoshop CC 2019 の 安装

空城机

PhotoShop ps p图 adobe

用 19 张思维导图描述Spring Cloud的概念和主要组件,建议收藏

北游学Java

Java 面试 Spring Cloud

软件工程笔记:什么是软件工程

风翱

软件工程 3月日更

ARTS-Week-1

绝影

ARTS 打卡计划 ARTS活动

《经济学人》2021年3月27日刊精彩文章导读及资源免费下载

wbliu85

马特系统开发流程丨马特量化机器人系统开发案例

系统开发咨询1357O98O718

中国唯一入选 Forrester 领导者象限,阿里云 Serverless 产品能力全球第一

阿里巴巴中间件

阿里云 Serverless Forrester Wave

PaddleWeekly | 飞桨开源项目每周推

百度大脑

MySQL-MVCC与锁机制

insight

3月日更

简单数据结构总结

我是程序员小贱

3月日更

由浅入深了解Nirvana NAC公链的两面性NA公链

区块链第一资讯

区块链 公链 挖矿

ChatGPT 正确回答代码问题的几率比抛硬币还要差_生成式 AI_Thomas Claburn_InfoQ精选文章