写点什么

GLM-4.5 发布,具有强大的推理、编码和代理能力

作者:Robert Krzaczyński

  • 2025-08-08
    北京
  • 本文字数:1001 字

    阅读完需:约 3 分钟

大小:550.59K时长:03:07
GLM-4.5发布,具有强大的推理、编码和代理能力

Zhipu AI发布了 GLM-4.5 和 GLM-4.5-Air。按照设计,这两个新 AI 模型可以在单一架构内处理推理、编码和代理任务。它们使用了双模式系统,可以在复杂问题解决和快速响应两种模式之间切换,从而提高准确性和速度。

 

GLM-4.5 总共有 355B 个参数,其中 32B 是活跃的,而它的轻量级版本 GLM-4.5-Air 则总共有 106B 个参数和 12B 的活跃参数。两个模型都使用专家混合(MoE)架构,并针对两种模式进行了优化:一种是“思考”模式,用于复杂推理和工具使用;另一种是“非思考”模式,用于快速响应。

 

GLM-4.5 的架构优先考虑深度而非广度——与 DeepSeek-V3 等模型形成了鲜明对比——并且每层使用 96 个注意力头。它还整合了 QK-Norm、分组查询注意力、多令牌预测和 Muon 优化器,加快收敛速度,改进推理性能。

 

训练是在一个有 22T 令牌的语料库上进行的,其中包括 7T 专门用于代码和推理的令牌,随后使用 Zhipu AI 自研的 slime RL 基础设施进行了强化学习。其设置中有一个异步代理 RL 训练管道,可以最大化吞吐量并支持长视距任务。

 

Zhipu AI 报告称,在涵盖代理任务、推理和编码的 12 个基准测试的综合排名中,GLM-4.5 位列第三,仅次于最顶级模型 OpenAI 和 Anthropic。GLM-4.5-Air 排名第六,超过了许多类似或规模更大的模型。


图片来源:Zhipu AI 博客

 

GLM-4.5 在编码基准测试中表现特别强势。它在 SWE-bench Verified 上达到了 64.2%,在 TerminalBench 上达到了 37.5%,这使得它在多个指标上领先于 Claude 4 Opus、GPT-4.1 和 Gemini 2.5 Pro。其工具调用成功率达到了 90.6%,超过了 Claude-4-Sonnet(89.5%)和 Kimi K2(86.2%)。

 

早期测试者对 GLM-4.5 的编码和代理能力给予了高度评价。一位 Reddit 用户分享道:

 

从初步比较来看,这些模型似乎非常好。GLM-4.5 在编码任务上似乎非常出色,而在我的代理研究和摘要基准测试中,GLM-4.5-Air 似乎比 Qwen 3 235B-a22b 2507 更好。

 

还有一位用户对 GLM 系列的速度和语言熟练度发表了看法:

 

GLM 令人印象非常深刻。我还没有尝试 4.5,但 4.1 Thinking Flash 在 Scolarius 的法语语言测试中得分约为 150/200——在我个人比较过的 19 个 LLM 中是最好的模型之一。速度也极快。

 

GLM-4.5 可以通过 Z.ai 直接使用,也可以通过Z.ai API调用,或集成到现有的编码代理工具如 Claude Code 或 Roo Code 中。Hugging Face和 ModelScope 提供了本地部署的模型权重,支持 vLLM 和 SGLang 推理框架。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:

https://www.infoq.com/news/2025/08/glm-4-5/

2025-08-08 16:001

评论

发布
暂无评论

用低代码打造企业AI中台,真的可行吗?

天津汇柏科技有限公司

人工智能 低代码

极简远程革命:节点小宝 — 无公网IP的极速内网穿透远程解决方案

猫头虎

网络

HarmonyOS Next 用户通知服务Notification Kit介绍与实战

轻口味

鸿蒙 HarmonyOS HarmonyOS NEXT HarmonyOS5.0

AI助力Calvin Klein实现供应链精准决策

第七在线

Web3软件系统的技术架构

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

ITSM运营:降低变更风险的自动化与流程优化实践

嘉为蓝鲸

ITSM 智能运维

第四章:数据治理的目标

数据小吏

AI 推理 | vLLM 快速部署指南

Se7en

驳“RAG 已死”论:上下文窗口扩展≠RAG 终结

Baihai IDP

AI LLM rag 检索增强生成 长上下文语言模型

开发者即创世者——HarmonyOS极客马拉松2025英雄召集令

HarmonyOS开发者

Web3软件系统的开发框架

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

嘉为蓝鲸受邀出席 2025 GOPS全球运维大会·深圳站

嘉为蓝鲸

GOPS全球运维大会

一站式国产远程访问工具推荐:全面解析、深度对比与最佳选型指南

猫头虎

网络

5分钟完成手势识别项目!CodeBuddy的Craft模式让传统编程方法沦为古董?

VyrnSynx

CodeBuddy首席试玩官

rust开源任务调度软件jiascheduler全面介绍

iwannay

rust SSH crontab scheduler Job

告别手动解析!借助 CodeBuddy 快速开发网页源码提取工具

不惑

CodeBuddy首席试玩官

Uniapp开发鸿蒙应用教程之自定义导航栏

幽蓝计划

鸿蒙跨平台开发

DotNet 入门(一):环境安装

北桥苏

.net dotnet

仿真驱动创新丨Altair仿真+AI如何赋能轨道交通数字化升级列车创新?

Altair RapidMiner

数字孪生 仿真 CAE physicsAI 轨道交通

iVX:结合AI 原生开发的图形化编程平台解析

代码制造者

AI AI编程

《算法导论(第4版)》阅读笔记:p18-p31

codists

算法

Web3软件的开发流程

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

Linux内核与芯片设计的深度结合:助力底层技术突破

博文视点Broadview

行业分享丨虚拟原型技术:颠覆传统,引领矿业装备设计新纪元

Altair RapidMiner

AI 数字孪生 仿真 CAE 离散元仿真

安全你可以永远相信奇瑞!奇瑞汽车安全之夜即将开幕

科技热闻

“一键登录“变”一键沦陷”?小心高校统一认证平台成黑客“后门"!

权说安全

网络安全 统一身份认证

DeepSeek 谈运维:AI 时代运维资源升级,从数据资产到智能能力的进阶之路

嘉为蓝鲸

AIOPS 智能运维 DeepSeek

Roo Code携手WireMCP开启智能网络流量分析的新纪元

穿过生命散发芬芳

MCP

Cursor AI 官方下载链接

玄兴梦影

下载 cursor AI 代码编辑器

使用 Amazon Q Developer 构建企业自动化代码审核流程

亚马逊云科技 (Amazon Web Services)

密评中,我们没用商用密码,会不会不合格?

黑龙江陆陆信息测评部

GLM-4.5发布,具有强大的推理、编码和代理能力_AI&大模型_InfoQ精选文章