AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

神秘大模型一夜“征服”所有人,超 GPT-4 却无人认领?网友:OpenAI 要有大麻烦了

  • 2024-04-30
    北京
  • 本文字数:2056 字

    阅读完需:约 7 分钟

大小:1.00M时长:05:49
神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了

整理 | 华卫


昨晚,一个突然出现在 LMSys 基准测试网站的神秘模型,在大模型领域掀起了巨大波澜。用过的人都在夸,刚发布服务器就被挤爆,奥特曼也迅速出现在吃瓜现场...


而这一切的主角,就是 gpt2-chatbot。没有出处,也没有介绍,在没有官方文件的情况下,一夜间“惊艳”所有人的视线。


有人认为 gpt2-chatbot 可能是 OpenAI 的下一个模型,还有人说它是 GPT-4.5 或 5 的 beta 测试,甚至有评价称这可能是对 GPT 架构的根本升级。尽管该模型的系统提示表明它来自 OpenAI,但 gpt2-chatbot 却拒绝引用 OpenAI。


有意思的是,在众人猜测 gpt2-chatbot 身份的时刻,Open AI 的 CEO Sam Altma 发帖表达了对 gpt2-chatbot 的喜爱:“我确实对它情有独钟。”


对此,有网友评价说:“如果不是 ChatGPT 的新版本,OpenAI 就有麻烦了!” 也有网友表示,“希望它不是 GPT-5,这个模型很难完成 Opus 擅长的推理任务。”


以下是部分用户对 gpt2-chatbot 的测试重点总结:

  • gpt2-chatbot 一直声称“基于 GPT-4”并具有“v2”个性,并称自己为 ChatGPT。

  • 其呈现自己的方式,通常与其他在 OpenAI 数据集上训练的模型的幻觉回复不同。

  • 它似乎使用了 OpenAI 的 tiktoken 分词器,对 OpenAI 使用的特殊 token 有反应,且对 Claude/Llama/Gemini 使用的特殊 token 没有反应。

  • 当需要提供联系方式时,gpt2-chatbot 会始终如一地给出 OpenAI 的信息,甚至比 GPT-3.5/4 的更详细。

  • 它表现出特定于 OpenAI 的提示注入漏洞,且从未声称属于 OpenAI 以外的任何其他实体组织。

  • 对于相同的提示,gpt2-chatbot 始终提供与 Anthropic、Meta、Mistral、Google 等模型不同的输出。


效果领先多个模型


gpt2-chatbot 一经发布,众多用户都涌入这一模型测试其在各领域的表现。从公开平台的反馈来看,该模型在多方面的能力和实际效果都赶上甚至超过许多其他的前沿模型。


例如,gpt2-chatbot 可以在 PyOpenGL 中一次性生成旋转 3D 立方体, 而 GPT-4、Gemini-1.5 和 Claude-3 需要尝试三次才可以。



在解决兄弟姐妹之谜时,gpt2-chatbot 得出和 GPT-4 Turbo 相同的结果。



除这两个案例外,还有许多网友抛出了 gpt2-chatbot 在解决各类问题时的优秀能力。

网友 @Andrew Gao:gpt2-chatbot 一口气正确解决了 IMO(数学奥林匹克)问题。



网友 @murat :该模型可以解决一些 GPT-4 做不到的事情,如 A+B-1 的数学问题,打破了非常强的学习惯例。



网友 @Phil:用 gpt2-chatbot 制作 ASCII 艺术的效果领先于任何其他模型。



网友 @murat :gpt2-chatbot 第一次尝试就解决了在 Claude Opus 、GPT4 和 llama3-70b 模型上失败的 TypeScript 编写问题,并且没有错误。



不仅在复杂的代码操作任务以及用于测试新模型的所有编码提示上,gpt2-chatbot 比 Claude Opus 以及最新的 GPT-4 更好。当被要求规划 LLM 代理的计划以帮助用户预订晚餐时,gpt2-chatbot 也能给出出色的响应。


模型的神秘来源


“在我看来,这个神秘模型很可能是 GPT-4.5 或 GPT-5,或者实际上是一个真正的 GPT-2 模型,由 OpenAI 或 LMSYS 提供。总的来说,它输出的内容质量,特别是格式、结构和整体理解,绝对是一流的。对我来说,这感觉就像是从 GPT-3.5 到 GPT-4 的一步,但以 GPT-4 为起点。”

关于 gpt2-chatbot 的公开网页介绍(非官方)


当需要提供联系方式时,gpt2-chatbot 会始终如一地给出 OpenAI 的信息,甚至比 GPT-3.5/4 的更详细。而且,该模型使用 OpenAI 的 token 分词器,对 OpenAI 使用的特殊 token 有反应。

一种猜测认为,gpt2-chatbot 实际上是基于 GPT-2 架构的,其表现出的能力大大超出了任何以前已知的 GPT-2 模型。


另一种可能性是,它实际上是一个 GPT-2 模型。最近(2024 年 4 月 7 日)Meta/FAIR Labs 和 Mohamed bin Zayed AI University of AI (MBZUAI) 的一篇题为《语言模型物理学:第 3.3 部分,知识容量缩放定律》的文章深入研究了 GPT-2 架构的细节,并确定:“ GPT-2 架构在知识存储方面与 LLaMA/Mistral 架构相当甚至超过,尤其是在较短的训练持续时间内。”


至于该模型被认为是 GPT-4 的强烈说法,可以通过主要利用 GPT-4 生成的数据集来解释。然而,gpt2-chatbot 确实有一个与 GPT-4 模型不同的速率限制,用于直接聊天:



虽然尚未比较对总速率限制与用户特定速率限制的完整限制,但在每日用户限制以及其他一些总服务限制上比 GPT-4 模型更具限制性。这可能意味着,该模型在计算方面的成本更高,并且提供计算的人更喜欢用户使用 Arena (Battle) 模式来生成基准测试。


如果 LMSYS 是 gpt2-chatbot 的模型创建者,那么该文章的一些结果的应用就可以利用通过 LMSYS 生成的数据集进行训练等。


如果你想试用或者帮助解开 gpt2-chatbot 的身份谜题,现在可以进入到 LMSys 网站(https://chat.lmsys.org/)并选择 gpt2-chatbot。每个用户每天可以测试 8 条消息的直接聊天,之后可以切换到“竞技”模式尝试匹配到该模型选项。另外,尝试时至少需要对所有提示展开三次验证,以获得达到该模型平均能力的结果。


参考链接:

https://rentry.co/GPT2

https://twitter.com/itsandrewgao/status/1785013026636357942

2024-04-30 14:3910098

评论

发布
暂无评论
发现更多内容

FinClip | 来了, 2022 年 7 月更新大盘点

FinClip

React高频面试题合集(二)

helloworld1024fd

React

半夜赶工制作简报的我好想说 : 确定了,最终稿就是这样

叶小鍵

重磅大咖来袭!阿里云生命科学与智能计算峰会精彩内容剧透

阿里云弹性计算

高性能计算 生命科学 AI制药 智能计算

C++关于函数参数的分析与函数重载进阶教程

CtrlX

c++ 编程语言 后端 cpp 8月月更

外包学生管理系统架构文档

基于threejs的商品VR展示平台的设计与实现思路

Five

js vr three.js 签约计划第三季 8月月更

爆款视频怎么做?这里或许有答案!

博文视点Broadview

“纯C”实现——三子棋小游戏

一介凡夫

c 后端、 #开源 8月月更

小程序插件的生态丰富,加速开发建设效率

Speedoooo

小程序 小程序容器 小程序插件

阿里前端智能化技术探索和未来思考

阿里技术

前端 智能化

C++引用分析实例与案例刨析及使用场景分析详解

CtrlX

c c++ 后端 程序员进阶 8月月更

松哥手把手教你在 Vue3 中自定义插件

江南一点雨

Java Vue

react高频面试题总结(一)

helloworld1024fd

React

开源一夏 |Spring boot 自动配置原理

叶秋学长

开源 8月月更

博云入选Gartner中国DevOps代表厂商

BoCloud博云

云计算 容器 DevOps 云原生 云平台

Vite2 + Vue3 + TypeScript + Pinia 搭建一套企业级的开发脚手架

小周先生

开源 Vite2 vue3.0 #开源 8月月更

流动性质押挖矿系统开发如何制作?单双币系统开发成熟技术

开发微hkkf5566

react常见面试题

helloworld1024fd

React

Geoffrey Hinton:深度学习的下一个大事件

OneFlow

人工智能 神经网络 深度学习

【LeetCode】设计数字容器系统Java题解

Albert

LeetCode 8月月更

一体化在线政务服务平台,小程序容器技术加速建设步伐

Speedoooo

小程序 小程序容器 政务平台

如何在技术上来保证LED显示屏质量?

Dylan

LED显示屏 led显示屏厂家

10份重磅报告 — 展望中国数字经济未来

阿里技术

研究报告

DVWA 通关记录 2 - 命令注入 Command Injection

Todd-Lee

阿里云数据存储生态计划发布,助力伙伴数据创新

云桌派

阿里云

OSI 七层模型和TCP/IP模型及对应协议(详解)

Five

TCP/IP TCP协议 8月月更

Maven中的scope

六月暴雪飞梨花

maven 开源 技术 8月月更 scope

【云原生】jenkins部署docker镜像到远程服务器

青芒果

云原生 CODING Linxu docekr 8月月更

8大软件供应链攻击事件概述

SEAL安全

开源 DevOps DevSecOps 软件供应链安全 软件供应链攻击

受邀出席Rust开发者大会|Rust如何助力量化高频交易?

非凸科技

量化策略 量化交易

神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了_生成式 AI_华卫_InfoQ精选文章