神秘模型排名超 Gemma 4 31B：不跟 Qwen 硬刚，主打“快”和“省 token”

这两天，OpenRouter 一个名为“Elephant”（大象）的模型，Trending 榜排名突然超过 Gemma 4 31B，位列排行榜第二名。

根据 Kilo 的说法，这款模型来自一家知名开源模型实验室，主打“智能效率”，在尽量减少 token 消耗的同时，提供接近同规模 SOTA 性能表现。

Elephant 是一款 100B 参数隐身模型（stealth model），支持 256K token 上下文窗口，可以一次性加载整个代码仓库或大型依赖树；最大输出长度为 32K token，适合单次生成完整模块或整套测试代码。与此同时，这款模型还支持提示缓存、函数调用和结构化输出，明显面向企业级开发和智能体工具链接入场景。

据 Kilo 介绍，Elephant 不是一款单纯追求规模的“大模型”，更强调速度、响应和实际开发效率。Elephant 主要针对快速代码补全与调试、大规模文档处理以及轻量级智能体交互等场景进行了优化，适合需要高频调用、低延迟反馈的开发工作流。相比那些更重、更慢的模型，Elephant 希望成为开发者日常使用中的“高响应主力模型”。

具体地，我们将同是 100B 级别的 NVIDIA Nemotron 3 Super、Qwen3.5-122B-A10B，以及 OpenAI 的 gpt-oss-120b 进行了直接对比。

在速度方面，Elephant 最快，平均响应时间约 1.27 秒；Qwen3.5-122B-A10B 最慢，平均约 31.38 秒。Elephant 在数据解析与提取平均响应时间只花了 979 毫秒，综合项目也只用了 3.70 秒。

相比之下，Qwen3.5-122B-A10B 的表现是靠更高的推理投入换来的，比如编程项目平均响应时间高达 70.98 秒，综合项目平均响应时间更是达到 107.79 秒，数据解析与提取这类任务也用了 16,558 推理 token。

而在 token 消耗方面，Qwen3.5-122B-A10B 是这组里最“烧 token”的模型，推理 token 远高于另外三个；gpt-oss-120b 和 Nemotron-3 Super 120B 属于中间档；Elephant 基本不消耗。

在指令遵循上，Elephant 在稳定性上表现最突出。其一致性得分达到 9.6，说明它在重复运行中的结果波动最小，是这组模型里最稳定的一款。但 Qwen3.5-122B-A10B 在正确率和通过能力上依然领先，Nemotron-3 Super 120B A12B 表现较为均衡，而 gpt-oss-120b 则暴露出更明显的波动性。

Elephant 的问题是综合项目上只有 3.0，在数据解析与提取上是 6.5，侧面说明其目前追求的是高频、低成本、先求有结果再说的场景，而非复杂 agent 工作流或者关键判断任务场景。

因此，如果将各个维度综合起来打分的话，Qwen3.5-122B-A10B 综合分 8.1，排第一，NVIDIA Nemotron-3 Super 120B A12B 6.7 分排第二，OpenAI gpt-oss-120b 第三，Elephant Alpha 第四。

与 Elephant Alpha 类似，Nemotron-3 Super 120B A12B 在综合项目上拿到 10.0，在工具调用上也是 10.0，在数据解析与提取上同样是 10.0。从结果看，它很适合那种流程清晰、任务边界明确、强调执行链条和调用能力的场景。但它在领域专项上只有 2.9，在通用智能上是 3.8，在谜题求解上只有 3.5，说明一旦任务从“结构化执行”转向“开放复杂推理”，其掉队就很明显。gpt-oss-120b 则在编程项目上只有 4.3，还出现了未遵循指令的问题。

可以看出，虽然同为 100B 级别模型，但大家的研发重点并不相同。

Qwen3.5-122B-A10B 代表了重推理、重完成度路线，有更高的分数和通过率，但需要付出更多延迟和更高推理开销。而 Nemotron-3 Super 120B A12B 是工作流型路线，它不一定最适合复杂开放问题，但在结构化抽取、工具调用、执行链条这类任务上表现突出。新上榜的 Elephant 则代表了极致轻量路线，把“快”和“低成本”做成了核心卖点。

创作场景

神秘模型排名超 Gemma 4 31B：不跟 Qwen 硬刚，主打“快”和“省 token”