写点什么

GPT-4.1 偷摸开测?神秘模型登顶编程榜,社区细扒指向 OpenAI,网友:营销鬼才又来了!

  • 2025-04-14
    北京
  • 本文字数:3435 字

    阅读完需:约 11 分钟

大小:1.56M时长:09:05
GPT-4.1 偷摸开测?神秘模型登顶编程榜,社区细扒指向 OpenAI,网友:营销鬼才又来了!

整理 | 华卫、核子可乐


近日,一款名为“Quasar Alpha”、不知来源的神秘 AI 模型悄然上线,并迅速成为第三方平台 OpenRouter(一个提供统一接口访问多种 AI 语言模型的服务平台)上使用率排名第一的计算机编程类 AI 模型(基于连续数天的 token 消费量),甚至被评价“比现在出现的任何模型都要好”。更令人惊讶的是,多位模型体验者及业内研究人员从种种技术细节中发现,Quasar Alpha 很可能是 OpenAI 的新版本模型。


体验地址:https://www.quasar-alpha.org/


据了解,Quasar Alpha 在几天前被推出,其拥有 100 万 token 上下文窗口、能处理超长文本和复杂文档,代码生成能力出色、指令遵循能力强,支持联网功能和多模态功能,且完全免费提供使用。并且,在 Quasar Alpha 在 AI 社区引发热烈讨论后,另一款神秘模型 Optimus Alpha 又在昨日被推出,同样是免费开放的,再度点燃大家的关注热情。


目前所公开的信息


根据公开的项目公告,Quasar Alpha 是一个向社区提供的经过伪装处理的通用模型,目的是收集反馈意见。该模型的所有提示和生成内容都会由提供者记录下来,且可能会被用于改进该模型。


项目地址:https://openrouter.ai/openrouter/quasar-alpha


Quasar Alpha 的最大亮点在于其超长的上下文处理能力。100 万 token 的上下文长度意味着该模型能够一次性处理相当于数百页文档的信息量,这一特性使其在长序列任务中具备显著优势,尤其是在需要深度理解和复杂推理的场景中。


并且,该模型专门针对编码任务进行了优化,能够高效生成高质量代码,但其设计初衷仍定位于通用型 AI 工具,适用于从文本生成到数据分析的多样化应用。这种兼顾专业性与广泛性的设计,正在让 Quasar Alpha 在众多 AI 模型中脱颖而出,各类用例持续激增。


从概览页面来看,该模型正在迅速获得关注,目前已经在五大用例类别中挺进前十。根据 OpenRouter 提供的统计数据,调用 Quasar Alpha 的知名应用包括 Roo Code 与 Cline 等,二者均为依托 AI 编码的开源 VS Code 扩展,这也表明 Quasar Alpha 算是一款稳定可靠的模型。



另一款神秘模型 Optimus Alpha 同样具有 100 万 token 上下文窗口和表现卓越的编码能力。不同的是,Optimus Alpha 针对通用任务进行了优化,适用于现实世界中的各种应用场景。并且,Optimus Alpha 目前也获得多个知名应用的调用。



项目地址:https://openrouter.ai/openrouter/optimus-alpha


值得注意的是,Optimus Alpha 为 300 多家模型及供应商提供了一个与 OpenAI 兼容的补全 API,用户可以直接调用它,也可以使用 OpenAI 软件开发工具包来调用。此外,还有一些第三方软件开发工具包可供使用。


种种线索将来源指向 OpenAI


然而,Quasar Alpha 和 Optimus Alpha 的神秘性也引发了 AI 社区的一些疑问。其具体来源至今未明,有人猜测它可能是某大型科技公司(如 OpenAI 或 Google)的实验性项目,甚至可能是下一代旗舰模型的测试版。


X 用户 paradite_ 注意到,Quasar Alpha 的风格与 OpenAI 目前的顶级模型 GPT-4o 非常相似,这让人不禁怀疑 Quasar Alpha 是否出自 OpenAI,只是换了个名字而已。


并且,有许多关于 Quasar Alpha 或出自 OpenAI 之手的其他技术细节被一一披露出来,具体如下:


  • Quasar Alpha 的工具调用 ID 格式与 OpenAI 格式一致,这款新模型还在消息对象中支持“name”字段,该字段由 chat completion API 范式提供。目前只有两家 AI 提供商支持“name”字段,分别为 xAI 与 OpenAI。

  • 在生成细节中发现的 upstream ID 与 OpenAI 生成 ID 相同。

  • 存在一些与 OpenAI 高度相似的层次聚类模式。


X 用户 Pallav Agarwal 发布的一张与 Quasar Alpha 聊天的截图,也进一步显示出 Quasar Alpha 与 OpenAI 之间的关联。



为了进一步探究,AI 研究员 Sam Paech 针对模型输出结果,运用了被称为 PHYLIP 简约法(PHYLIP pars)的生物信息学聚类工具。这种方法通过找出模型回复内容中的细微差异,来检验各个模型之间的关联。与常规聚类方法不同,PHYLIP 简约法旨在寻找出最为简洁的模型谱系树。Paech 发现,Quasar Alpha 与 OpenAI 的模型极为相近,尤其是与 GPT 4.5 预览版,并且与其他模型存在显著差异。



另值得一提的是,据外媒昨日报道,OpenAI 将推出一系列全新 AI 模型,其中包括作为 GPT-4o 升级本的 GPT-4.1,同时还将推出出更轻量级的 GPT-4.1 mini 和 nano 版本,以满足不同应用场景的需求。


所有这些线索似乎都强烈表明:Quasar Alpha 归 OpenAI 所有,又或者有人正在极力模仿 OpenAI 的 API 设计。有不少网友猜测道,“ Quasar Alpha 可能是 GPT-4.1,而 Optimus Alpha 是 GPT-4.1 mini。”还有人甚至猜测,其神秘面纱背后隐藏的可能是 OpenAI 的 o4-mini-low 模型,“营销鬼才这是又想出新招来了”。


而就在今天,OpenAI 的 CEO Sam Altman 也公开称赞了 Quasar Alpha 模型,称其是“非常明亮的事物”。



至于为何 AI 实验室会选择在没有大规模宣传的情况下秘密推出一款模型,有观点认为,在不炒作的情况下于现实环境中进行测试,能够收集到开发者真实的反馈意见,同时保持低调可以减轻满足过高期望所带来的压力。秘密发布还能够促使这款模型与市场上的其他模型进行更为公平、客观的比较,而不会受到营销宣传言论的干扰。


此外,Quasar Alpha 的“隐秘”(Stealth)标签和预发布状态也让外界对其成熟度和稳定性存有好奇。专家指出,尽管 Quasar Alpha 在编码和长上下文任务中表现优异,但在其他通用场景下的全面性能仍需进一步验证。


性能超越任何现有模型?


目前的用户反馈显示,Quasar Alpha 表现出很强的能力,尤其是在编程和遵循指令方面。


据开源 AI 配对编程工具创建者 AiderPaul Gauthier 称,Quasar Alpha 运行起来似乎非常快,在 Aider 多语言编码基准测试中取得了 55% 的成绩,可与 o3 - mini - medium、DeepSeek V3 以及 Claude 3.5 Sonnet 相抗衡。



X 用户 paradite_ 在体验 Quasar Alpha 后表示,该模型在遵循指令方面比 Claude 3.5 Sonnet 和 Gemini 2.5 Pro 出色得多,并评价:“就我默认的编码测试提示而言,它给出了我目前为止所见过的最佳输出结果。 ”



对于关注 AI 领域的从业者与创业者来说,“谁是最强大语言模型”无疑是个值得探究的重要问题。一位模型体验者 Austin Starks 对 Optimus Alpha 和 Quaser Alpha 在进行一段时间的手动测试后称,对于复杂的 SQL 查询生成任务,OpenRouter 打造的这两款隐秘模型在 PURE 性能和准确率方面无疑是当今市面上最强大的选项。


从公布的数据来看,Optimus Alpha 和 Quasar Alpha 不单是完全可用,甚至远远超越了其他老牌经典模型。Optimus Alpha 的平均得分达到了 0.83,而 Claude 3.7 Sonnet 的平均得分仅为 0.66。至于 Gemini 2.0 Flash 和 Grok 3,它们的得分分别只有 0.717 和 0.747。此外,二者的其他指标,如成功率(即模型是否执行完成)亦位居榜首。更要命的是,这两款模型还完全免费。



各领先 AI 模型在 SQL 查询生成方面的性能比较


具体来讲,他在测试中尝试使用大模型处理股市变化的复杂性和噪音。图中所示,为如何使用大模型回答“在市值超过 200 亿美元的企业股票中,哪些股票的 RSI 指标最低?”等问题。其具体实现流程为:由大模型将自然语言问题转换为数据库查询;对数据库执行查询;由另一大模型对输出进行“评分”并确保结果合理;不断生成查询,直到结果准确无误。



为了评估各模型,他使用了开源 EvaluateGPT 进行测试,通过一组共 40 道金融问题可以看到各模型的平均处理性能,结果则完全出乎意料。在这项任务中,Quaser Alpha 和 Optimus Alpha 模型的表现远远优于其他所有模型,Optimus Alpha 亦成为响应速度最快的模型之一。


在成本方面,Quaser Alpha 和 Optimus Alpha 的输入和输出均免费,而成本第二低的是 Gemini 2.0 Flash,每百万输入 token 的成本为 0.10 美元,每百万输出 token 的成本为 0.40 美元。


Starks 认为,相较于还在按 token 收费的竞争对手,这些“世外高手”般的模型却正在重新定义零成本的可能性。虽然后续情况很可能发生变化,但这些不受限的模型当前确实可以随意使用。


参考链接:


https://blog.kilocode.ai/p/quasar-alpha-what-we-know-thus-far


https://medium.com/@austin-starks/there-are-new-stealth-large-language-models-coming-out-thats-better-than-anything-i-ve-ever-seen-19396ccb18b5


https://prompt.16x.engineer/blog/quasar-alpha-openai-stealth-model


https://www.theverge.com/news/646458/openai-gpt-4-1-ai-model


声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

2025-04-14 14:445668

评论

发布
暂无评论

有道技术岗大揭秘!这么幸福的生活,真的是熬夜掉发Top1的职业吗?

有道技术团队

招聘

力扣(LeetCode)刷题,简单题(第13期)

不脱发的程序猿

面试 LeetCode 28天写作 算法面经 3月日更

LeetCode题解:92. 反转链表 II,迭代,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

OpenKruise 如何实现 K8s 社区首个规模化镜像预热能力

阿里巴巴云原生

Serverless 容器 云原生 k8s 调度

为什么python中程序的结果会一直输出,需要怎么解决

Emotion

可能是绝唱!阿里资深工程师深度解读Netty底层核心源码

Java架构追梦

Java 源码 架构 面试 Netty

字节抖音iOS客户端实习 123hr面 面经

iOSer

ios 字节跳动 面试 抖音

python编译器中出现了绿色波浪线,光标放上去出现的提示是什么意思?

Emotion

百度直播消息服务架构实践

百度Geek说

手机 直播 移动端

这个GItHub上的Java项目开源了,2021最全的Java架构面试复习指南

Java 程序员 面试

Go Mysql Driver 集成 Seata-Golang 解决分布式事务问题

阿里巴巴云原生

Java 微服务 云原生 seata Go 语言

行业资讯 | Android WebView 致安卓应用闪退,mPaaS 助你规避这波 Bug

蚂蚁集团移动开发平台 mPaaS

android webview mPaaS 离线包 UC内核

单账户实时记账能力达2万笔每秒 蚂蚁启用新一代高性能记账引擎

DT极客

被MySQL慢日志查询搞废了?3分钟教你快速定位慢查询问题!

观测云

云计算

实现跨生态互联,区块链赋能智能家居新体验

旺链科技

区块链应用 智能家居

为了跳槽刷完1000道Java面试真题,没想到老板直接给我升职了

Java 程序员 架构 面试

阿里面试官:Android开发真等于废人?已拿offer附真题解析

欢喜学安卓

android 程序员 面试 移动开发

2021最新分享三面百度提前批(Java开发岗)面经 已拿Offer

比伯

Java 编程 架构 面试 程序人生

透过 3.0 Preview 看 Dubbo 的云原生变革

阿里巴巴云原生

容器 运维 云原生 dubbo 应用服务中间件

实习就参与“服务过亿用户的项目”,是什么体验?

阿里巴巴云原生

开发者 云原生 调度 应用服务中间件 Go 语言

程序员去大公司面试,小程序FMP优化实录,已拿offer入职

欢喜学安卓

android 程序员 面试 移动开发

从解决Github TimeOut到经典面试题:从输入URL到浏览器显示页面发生了什么?

秦怀杂货店

GitHub TCP 网络 HTTP DNS

活动 | Apache Pulsar Meetup 欢迎报名

有道技术团队

活动

一周信创舆情观察(3.15~3.21)

统小信uos

我在阿里实习做开源

阿里巴巴云原生

阿里巴巴 云原生 dubbo 个人提升 中间件

C 语言性能优化:循环条件i<=n与i!=0的性能差异

1

Go Storage存储包封装

非晓为骁

storage Go 语言

报名倒计时 | 有道技术沙龙,聊聊明星语音背后的故事

有道技术团队

活动

定义结构体访问结构成员的三种方法

Emotion

Flink 执行引擎:流批一体的融合之路

Apache Flink

flink

从无到有实现音视频通讯

anyRTC开发者

ios android 音视频 WebRTC RTC

GPT-4.1 偷摸开测?神秘模型登顶编程榜,社区细扒指向 OpenAI,网友:营销鬼才又来了!_AI&大模型_华卫_InfoQ精选文章