写点什么

对话 OpenAI Greg Brockman:GPT-4 并不完美,但人类也一样

  • 2023-03-23
    北京
  • 本文字数:2781 字

    阅读完需:约 9 分钟

对话OpenAI Greg Brockman:GPT-4并不完美,但人类也一样

OpenAI日前发布了备受期待的文本生成 AI 模型 GPT-4。在举世轰动之余,人们也实在好奇这样的辉煌成就究竟是如何被创造出来的。

 

GPT-4 在多个关键层面对上代 GPT-3 实现了超越,包括提供更符合事实的陈述,也允许开发人员轻松设定风格和行为。它还具备多模态支持能力,可以理解图像,甚至根据照片内容添加标题和做出解读。

 

GPT-4也有不少严重缺陷。与 GPT-3 一样,该模型仍存在“幻觉”和基础性的推理错误。OpenAI 自己发布博文称,GPT-4 将猫王称为“演员的儿子”(他的父母并非演员)。

 

为了更好地了解 GPT-4 的开发周期、现有功能和局限性,我们有幸与 OpenAI 联合创始人兼总裁 Greg Brockman 进行了交谈。

 

在被问及 GPT-4 和GPT-3的区别时,Brockman 只说了一个词:不一样。

 

“二者确实不一样。GPT-4 模型仍然存在很多问题和错误……但也可以看到,它对微积分和法律内容的理解实现了飞跃。尽管在某些领域的表现还是不行,但在其他方面就算用衡量人类的标准看也是相当出色。”

 

测试结果也证实了他的说法。在美国大学理事会的 AP 微积分 BC 考试中,GPT-4 获得了 4 分(满分 5 分),GPT-3 则仅获得 1 分。(作为 GPT-3 与 GPT-4 之间的过渡版本,GPT-3.5 同样拿到 4 分。)而在模拟律师考试中,GPT-4 的排名在人类考生中挤入前 10%,GPT-3.5 的分数则在倒数 10%左右。

 

此外,GPT-4还表现出了有趣的多模态支持能力。与只能接受文本提示的 GPT-3 和 GPT-3.5(例如「写一篇关于长颈鹿的文章」)不同,GPT-4 能够通过图像和文本提示来执行某些操作。(例如提交一张长颈鹿的实拍照片,问「图中有多少只长颈鹿?」)

 

这是因为 GPT-4 接受了图像和文本数据的双料训练,而前面几个版本只接受过文本训练。OpenAI 表示,训练数据来自“各种许可、创建且公开可用的数据源,其中可能包括公开可用的个人信息”。但 Brockman 拒绝回答更多具体细节(OpenAI 之前曾经因训练数据的归属问题陷入法律纠纷)。

 

GPT-4 也确实表现出令人印象深刻的图像理解能力。例如,输入提示“这张图片的笑点在哪里?”,再配上一张 VGA 线接 iPhone 的照片,GPT-4 就正确理解了个中内容并详细做出解释(「图像中的笑点,来自错误将陈旧的大 VGA 端口接入小型现代智能手机的充电口」)。

 

目前只有一家合作伙伴获准使用 GPT-4 的图像分析功能,这就是名为 Be My Eyes 的视障人士辅助应用。Brockman 表示,OpenAI 正在评估功能开放的风险和收益,而且后续推广一定会采取“缓慢且谨慎的方式”。

 

“我们需要想办法解决人脸识别和人物肖像等政策性问题。我们得摸清危险区在哪里、红线在哪里,然后随时间推移逐步找到正确的处理方式。”

 

OpenAI 的文本到图像系统DALL-E 2 也遭遇过类似的道德困境。OpenAI 最初允许客户上传人脸,使用 AI 图像生成系统进行画面编辑,但在激起反对后紧急叫停。后来 OpenAI 宣称安全系统已经升级,能够“最大限度降低 deepfakes、色情、政治和暴力内容造成的潜在危害”,并将人脸编辑功能重新开放。

 

另一大隐患在于 GPT-4 可能被用于造成意外危害,包括利用目标心理、实施金钱欺诈等。模型发布数小时之后,以色列网络安全初创公司 Adversa AI 就发布博文,表示已成功绕过 OpenAI 的内容过滤器,甚至公开了让 GPT-4 生成网络钓鱼邮件、对同性恋者的攻击性描述及其他有毒文本的办法。

 

这在语言模型领域算是个老大难问题了。Meta公司的 BlenderBot 和 OpenAI 的ChatGPT都曾在用户的“诱导”下生成了极具冒犯性的内容,甚至透露了系统内部运作的敏感细节。但人们仍然对 AI 大模型的表现振奋不已,也期待 GPT-4 能在自我审查和节制方面实现重大改进。

 

在被问及 GPT-4 的稳健性时,Brockman 强调该模型已经接受了六个月的安全训练。而且在内部测试中,它对 OpenAI 禁止内容做出响应的几率较 GPT-3.5 降低了 82%,生成“符合事实”响应的几率则提高了 40%。

 

“我们花了很多时间来摸索 GPT-4 的能力,摸索的方式就是把它对外公布。我们不断做更新,包括一系列改进,希望模型能真正匹配使用者想要的个性或模式。”

 

但必须承认,早期实际测试的结果并不理想。除了 Adversa AI 测试之外,基于 GPT-4 的微软聊天机器人 Bing Chat 也被证明极易被“攻破”。利用精心设计的输入,用户已经能让机器人表达爱意、威胁伤害、支持大屠杀和编造阴谋论。

 

Brockman 并不否认 GPT-4 的种种不足。但他也强调了该模型所使用的新型操控缓解工具,包括 API 级的“系统”消息功能。系统消息的本质是一种指令,负责为 GPT-4 的交互行为设定基调和边界。例如,系统消息可以这样编写,“你是一位苏格拉底式的思辨型导师,你永远不会直接给学生答案,而是通过一个个正确的问题帮助他们学会独立思考。”

 

OpenAI希望把系统消息当作护栏,防止 GPT-4 偏离既定“轨道”。

 

“我们一直在努力理解 GPT-4 的基调、风格和实质从何而来。我觉得现在我们已经在工程层面找到些思路了,包括如何实现可重现的过程,生成对人们真正有用的可预测结果。”

 

Brockman 还谈到了 Evals,这是 OpenAI 用于评估其 AI 模型性能的全新开源软件框架。OpenAI 希望借此保证自家模型的“稳健性”。Evals 允许用户开发和运行基准测试,以此评估 GPT-4 等模型的性能,这意味着大语言模型将步入众包测试的新时代。

 

“借助 Evals,我们能够以系统化的方式掌握用户最关心的用例,并据此开展测试。之所以决定开源,也是考虑到我们后续不会再隔三个月才发布新模型,而是转向持续改进的方式。如果无法衡量,自然也就无法实现了,对吧?在为模型开发新版本时,我们至少可以借此了解哪些地方发生了变化。”

 

我们询问 Brockman,OpenAI 打不打算向通过 Evals 测试其模型的人们付费。他暂时给不出确切的结论,但表示 OpenAI 确实向指定的 Evals 用户开放了 GPT-4 API 的早期访问权限。

 

Brockman 还谈到了 GPT-4 的上下文窗口,也就是模型在生成新文本之前能够参考的文本量。OpenAI 目前正在测试 GPT-4 某一特定版本,其能够“记住”约 50 页内容。换句话说,这个版本的“记忆容量”相当于普通 GPT-4 的 5 倍、GPT-3 的 8 倍。

 

Brockman 认为更大的上下文窗口将派生出前所未有的新型应用程序,特别是在企业场景之下。他设想会有专门为企业业务构建的 AI 聊天机器人,能够利用不同来源(包括各部门员工)的上下文和知识以娴熟的对话解惑答疑。

 

这虽然不是什么新鲜概念,但 Brockman 表示 GPT-4 的回答质量要远远高于责令一切聊天机器人和搜索引擎。

 

“以往,模型并不知道是谁在发问、你对哪些内容感兴趣等。更大的上下文窗口代表着更丰富的参考信息,肯定会让 AI 模型掌握更多知识、更好地为人类赋能。”

 

原文链接:

https://techcrunch.com/2023/03/15/interview-with-openais-greg-brockman-gpt-4-isnt-perfect-but-neither-are-you/?guccounter=1&guce_referrer=aHR0cHM6Ly9uZXdzLnljb21iaW5hdG9yLmNvbS8&guce_referrer_sig=AQAAAATciFx2sgGMIyHWoErJAFDo6hB-eouE0HxMvTSOgk8aD6C_Clkzk1JtNZaOTbUtf9Sa-BuwBS36sQu2t7l6vwj58K34WkrFWPpyEGskLBTvfqdMXbtLtF6ZaOoTWSWRCt7Egccc-lQIqGECJN5Y2gZX1WXh9FR5o17IQEHY3jjf

2023-03-23 16:594051
用户头像
李冬梅 加V:busulishang4668

发布了 687 篇内容, 共 268.7 次阅读, 收获喜欢 842 次。

关注

评论

发布
暂无评论
发现更多内容

ControlNet新玩法!一键生成AI艺术二维码QR

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

如何快速理解复杂业务,系统思考问题?

阿里技术

理解业务 系统思考

微服务部署架起App开发运维的高速通道

Onegun

微服务 部署与维护 部署架构

创新 = 颠覆?AI创新如何做大蛋糕

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 7 月 PK 榜

借助 Kubernetes 三步开启云原生之旅

NGINX开源社区

nginx NGINX Ingress Controller NGINX Kubernetes Gateway

软件测试/测试开发丨接口测试之Postman 安装与使用

测试人

Python 程序员 软件测试 Postman 接口测试

NFTScan 正式上线 Linea NFTScan 浏览器和 NFT API 数据服务

NFT Research

NFT\ NFTScan Linea

GaussDB技术解读丨高级压缩

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

装备制造行业人力资源数智化挑战,你遇到了几条?

用友BIP

人力资源 制造

Linux 操作的良好习惯总结

这我可不懂

Linux 运维 经验

PCB反复评审难题,终极解决办法有了?

华秋PCB

工具 PCB PCB设计 布线 器件选型

浅谈一下企业IT运维痛点以及好用的运维软件推荐

行云管家

云计算 运维 IT运维

中企出海,强大数智底座助力提升多维组织能力

用友BIP

数智底座 中企出海

QCN9074 QCN9024 What’s the Difference?|WIFI6E

wallyslilly

QCN9074 QCN9024

用友BIP:企业数智化与信创化的完美结合

用友BIP

国产替代

标准化,企业财务共享中心的灵魂内核(上)——建设路径避雷指南

用友BIP

财务共享

上海市静安区财政局领导带队调研合合信息,政企共话科技创新

合合技术团队

文字识别 合合信息 商业大数据

MobTech 秒验审核流程指南

MobTech袤博科技

程序员 前端

全域Serverless化,华为云引领下一代云计算新范式

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

麒麟云容器运行时优化之容器创建优化

麒麟云

Kubernetes 容器云 银河麒麟 云原生操作系统 容器运行时

Oracle数据库知识图谱正式发布,一起搭建知识体系完善知识架构

墨天轮

MySQL 数据库 oracle postgresql 数据库优化

国外虚拟主机为您提供高性能与稳定性的完美结合!

一只扑棱蛾子

虚拟主机 国外虚拟主机

OpenCloudOS开源社区产品完成阿里云PolarDB数据库开源产品兼容适配

阿里云数据库开源

polarDB PolarDB-X PolarDB for PostgreSQL 阿里云PolarDB

企业数智化国产替代,用友BIP的四大优势

用友BIP

国产替代

如何避免在C#中出现混乱代码

互联网工科生

代码 代码编写

为什么说Raft原生系统是流式数据的未来?

高端章鱼哥

raft raft共识算法

Flink 遇见 Apache Celeborn:统一的数据 Shuffle 服务

Apache Flink

大数据 flink 实时计算

看大国重器用友BIP如何扛起中国企业数智化转型的使命担当

用友BIP

国产替代

十分钟让你了解 Linux ABI

高端章鱼哥

Linux

Flink CDC & MongoDB 联合实时数仓的探索实践

Apache Flink

大数据 flink 实时计算

Python案例分析|使用Python图像处理库Pillow处理图像文件

TiAmo

Python 数据分析 图像操作

  • 扫码添加小助手
    领取最新资料包
对话OpenAI Greg Brockman:GPT-4并不完美,但人类也一样_AI_Kyle Wiggers_InfoQ精选文章