GLM-4.5发布，具有强大的推理、编码和代理能力

Zhipu AI发布了 GLM-4.5 和 GLM-4.5-Air。按照设计，这两个新 AI 模型可以在单一架构内处理推理、编码和代理任务。它们使用了双模式系统，可以在复杂问题解决和快速响应两种模式之间切换，从而提高准确性和速度。

GLM-4.5 总共有 355B 个参数，其中 32B 是活跃的，而它的轻量级版本 GLM-4.5-Air 则总共有 106B 个参数和 12B 的活跃参数。两个模型都使用专家混合（MoE）架构，并针对两种模式进行了优化：一种是“思考”模式，用于复杂推理和工具使用；另一种是“非思考”模式，用于快速响应。

GLM-4.5 的架构优先考虑深度而非广度——与 DeepSeek-V3 等模型形成了鲜明对比——并且每层使用 96 个注意力头。它还整合了 QK-Norm、分组查询注意力、多令牌预测和 Muon 优化器，加快收敛速度，改进推理性能。

训练是在一个有 22T 令牌的语料库上进行的，其中包括 7T 专门用于代码和推理的令牌，随后使用 Zhipu AI 自研的 slime RL 基础设施进行了强化学习。其设置中有一个异步代理 RL 训练管道，可以最大化吞吐量并支持长视距任务。

Zhipu AI 报告称，在涵盖代理任务、推理和编码的 12 个基准测试的综合排名中，GLM-4.5 位列第三，仅次于最顶级模型 OpenAI 和 Anthropic。GLM-4.5-Air 排名第六，超过了许多类似或规模更大的模型。

图片来源：Zhipu AI 博客

GLM-4.5 在编码基准测试中表现特别强势。它在 SWE-bench Verified 上达到了 64.2%，在 TerminalBench 上达到了 37.5%，这使得它在多个指标上领先于 Claude 4 Opus、GPT-4.1 和 Gemini 2.5 Pro。其工具调用成功率达到了 90.6%，超过了 Claude-4-Sonnet（89.5%）和 Kimi K2（86.2%）。

早期测试者对 GLM-4.5 的编码和代理能力给予了高度评价。一位 Reddit 用户分享道：

从初步比较来看，这些模型似乎非常好。GLM-4.5 在编码任务上似乎非常出色，而在我的代理研究和摘要基准测试中，GLM-4.5-Air 似乎比 Qwen 3 235B-a22b 2507 更好。

还有一位用户对 GLM 系列的速度和语言熟练度发表了看法：

GLM 令人印象非常深刻。我还没有尝试 4.5，但 4.1 Thinking Flash 在 Scolarius 的法语语言测试中得分约为 150/200——在我个人比较过的 19 个 LLM 中是最好的模型之一。速度也极快。

GLM-4.5 可以通过 Z.ai 直接使用，也可以通过Z.ai API调用，或集成到现有的编码代理工具如 Claude Code 或 Roo Code 中。Hugging Face和 ModelScope 提供了本地部署的模型权重，支持 vLLM 和 SGLang 推理框架。

声明：本文为 InfoQ 翻译，未经许可禁止转载。

原文链接：

https://www.infoq.com/news/2025/08/glm-4-5/

创作场景

GLM-4.5 发布，具有强大的推理、编码和代理能力