写点什么

“大模型第一股”打响上市前哨战!智谱刷新开源编程 SOTA,在修复代码、终端操作表现超 Claude 4.5

  • 2025-12-23
    北京
  • 本文字数:2405 字

    阅读完需:约 8 分钟

大小:1.25M时长:07:17
“大模型第一股”打响上市前哨战!智谱刷新开源编程SOTA,在修复代码、终端操作表现超Claude 4.5

正在冲刺大模型第一股智谱,今天又拿出了诚意满满的新一代大模型 GLM-4.7,还给开源了



GLM-4.7 主打编程与代理式任务(coding + agentic tasks)的提升,同时在推理能力等方面也有所增强。


众所周知,今年的大模型,已经从卷“会答题”发展成了卷“能干活”。对应的变化,也体现在评测体系上,这些测试覆盖了真实代码修改、终端操作、多工具调用以及长链路任务执行等场景。


智谱也是把 GLM-4.7 一口气送进了 17 项基准测试,和 GPT-5、Claude Sonnet 4.5、Gemini 3.0 Pro、DeepSeek-V3.2、Kimi K2 Thinking 等同台竞技。


然后在一众强劲对手中,GLM-4.7 还在两项 BenchMark 中刷新了公开 SOTA:在 AIME 2025(测试高级数学推理能力)中正确率已达 95.7%;在 BrowseComp-ZH 中分数达 66.6%。



另外,它在 SWE-bench-Verified 得分 73.8%,在 LiveCodeBench V6 得分 84.9%,超过 Claude Sonnet 4.5,刷新了两项开源 SOTA



UI 质量飞跃,来看看具体 Case


仅凭 BenchMark 的高分或许还不够有说服力,智谱官方也放出了一系列 Case,来直观展示 GLM-4.7 的实用效果如何


首先,是前端开发


要生成一个普通 HTML 网页,在 GLM-4.7 中基本能一句话搞定,大大减少后期微调时间。


而且比起上一代生成的布局结构更清晰,配色不容易冲突,组件风格也更统一;而且还能覆盖多种风格,从简约、复古到时尚等应有


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    除了普通 HTML,做一个基于 Web 的交互式体验页面(Interactive Web Experience)也是不在话下。


    比如用同一段 Prompt:


    给前一代 GLM-4.6,生成效果是这样的:



    而给 GLM-4.7 生成的 UI 质量就提升了一大截,比如其动态效果和 3D 交互感都明显增强了。



    GLM-4.7 体现出的高级审美能力,还在“艺术作品”的 3D 展示中带来质的飞跃。


    它在空间层次、透视关系上处理得很清楚,同时在配色、材质对比、景深和构图上也下了功夫;该亮的地方亮,该收的地方收。


    比如要生成一个花园空间,中间是一座装饰华丽的宝塔,周围被盛开的樱花树包围,GLM-4.7 的作品既有体积像素的 3D 感,又美观和谐。



    而同样的 Prompt 给 GLM-4.6,效果是这样的:



    另外,在幻灯片制作上,GLM-4.7 也明显“好看了”


    PPT16:9 的适配率从 52% 提升至 91%生成的页面布局更准确、元素比例更舒服,整体观感更接近一份可以直接拿去用的成品。


    这样的审美同样体现在海报设计上,排版与配色更加灵活,具备设计感。


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      同样设计以“巴黎”为主题的海报,GLM-4.7 明显从配色和排版上更胜一筹,懂得突出主题,注意文字比例和位置,图片的镶嵌和配色,而不是死板的罗列排布。


      不少网友也对使用效果给出好评,称体验的效果很不错。




      也有网友提出,还想看看 GLM-4.7 与最牛编码模型 Opus4.5 之间的比拼。



      GLM-4.7 的三种“思考模式”


      那么,GLM-4.7 为什么能有这样的进步?


      在推理机制上,GLM-4.7 围绕“如何在复杂任务中更稳定地思考与行动”这一核心问题,对模型的思维流程进行了系统性重构。


      形成了由“交织式思考(Interleaved Thinking)+保留式思考(Preserved Thinking)+轮级思考(Turn-level Thinking)”组成的一整套推理机制。


      具体而言,交错式思考,指的是 GLM-4.7 在每次响应和工具调用之前都会进行思考。


      这其实是自 GLM-4.5 起就引入的基础能力,GLM-4.7 对其进行了强化,使模型在每一次生成回复或调用工具之前,都会先进行内部推理,再决定下一步行动,从而提升指令遵循的准确性和生成质量。


      保留式思考,指的是在编码代理场景中,GLM-4.7 能够自动保留多轮对话中的所有思维模块,重用现有推理过程,而不是从头开始重新推导。


      这主要用于多回合、长链路任务中,减少了信息丢失和不一致的情况。


      最后,轮级思考就是 GLM-4.7 支持对会话内的推理进行逐回合控制,允许在同一会话内按回合决定是否启用推理。


      对于简单、低复杂度的请求可以关闭思考以降低延迟和计算成本,而在需要精确决策和稳定执行的任务中再开启完整推理流程。


      通过这套“推理组合拳”,GLM-4.7 在复杂任务中的行为表现更加稳定连贯,也更容易控制;这为其在代理式编程和长周期任务执行中提供了关键的技术基础。


      智谱冲刺“大模型第一股”


      在冲刺“大模型第一股”的前夕,智谱用一次技术密度极高的模型更新,主动把自己推到聚光灯下。


      这里再来简单回顾一下智谱的上市细节。


      12 月 19 日,港交所官网披露,北京大模型公司智谱已通过聆讯,IPO 招股书同步公开。这意味着,智谱正式迈入上市冲刺的最后阶段。


      按招股书口径,公司最新估值为 243.77 亿元,中国大模型公司第一次以如此完整的姿态,走到公开市场面前。


      从经营数据看,智谱仍处在典型的高速放量阶段。


      2022—2024 年,公司收入从 0.6 亿元增长至 3.1 亿元;而真正的拐点出现在 2025 年上半年:2024H1 收入仅 0.4 亿元,2025H1 已跃升至 1.9 亿元,同比增幅超过 300%。


      其中,近 85% 的收入来自本地化部署,客户覆盖互联网、公共服务、电信和传统企业;MaaS 平台则通过持续降价放大调用规模,2025H1 云端机构客户增至 3061 家,并对本地化部署形成明显引流。


      但另一条曲线同样陡峭。招股书显示,智谱的亏损扩张速度远快于收入增长


      2022—2024 年及 2025H1,经调整净亏损分别为 0.97 亿元、6.21 亿元、24.66 亿元和 17.52 亿元,几乎全部指向研发投入


      同一时期,研发费用从 0.8 亿元升至 22.0 亿元,算力相关支出占比超过 70%。毛利率仍维持在 50% 以上,但在 MaaS 价格战中持续承压。


      把时间轴往前拉,这其实是一家成立不到 6 年的公司。智谱成立于 2019 年、脱胎于清华大学知识工程实验室(KEG),是国内最早一批独立大模型公司之一。


       GLM 架构起步,它就选择了一条清晰却昂贵的路径:持续把资源押注在模型能力本身。截至 2025 年,其模型已支持约 8000 万台设备、服务超过 1.2 万家机构客户


      开源链接:

      GitHub:https://github.com/zai-org/GLM-4.5

      Hugging Face:huggingface.co/zai-org/GLM-4.7

      魔搭社区:https://modelscope.cn/models/ZhipuAI/GLM-4.7

      参考链接:

      https://z.ai/blog/glm-4.7

      https://x.com/Zai_org/status/2003156119087382683

      https://mp.weixin.qq.com/s/tGKf-PQV9xerbAyRew3MHQ

      2025-12-23 16:011
      用户头像

      发布了 34 篇内容, 共 19.6 次阅读, 收获喜欢 20 次。

      关注

      评论

      发布
      暂无评论

      全链路压测:影子库与影子表之争

      阿里巴巴中间件

      阿里云 云原生 全链路压测 影子

      当我们谈论不可变基础设施时,我们在谈论什么

      阿里巴巴中间件

      阿里云 容器 云原生 托管

      Java 9 中的字符串(String)压缩的改进

      HoneyMoose

      Salesforce 容器化 ISV 场景下的软件供应链安全落地实践

      阿里巴巴中间件

      阿里云 容器 云原生 安全

      算法入门很简单:算法题的破解之道上篇

      宇宙之一粟

      算法 7月月更

      windows下设置TortoiseGit客户端连接git不用每次输入用户名和密码

      乌龟哥哥

      7月月更

      架构实战营模块 6 作业

      Roy

      架构实战营

      Linux 下的传统 IPC 通信原理

      北洋

      Andriod 7月月更

      当 Knative 遇见 WebAssembly

      阿里巴巴中间件

      阿里云 容器 云原生 Knative WebAssenbly

      鸿蒙智联汽车【1.0】

      坚果

      HarmonyOS OpenHarmony 7月月更

      OpenSergo 即将发布 v1alpha1,丰富全链路异构架构的服务治理能力

      阿里巴巴中间件

      阿里云 微服务 云原生 云原生开源 OpenSergo

      用头像模仿天狗食月

      急需上岸的小谢

      7月月更

      ServiceMesh主要解决的三大痛点

      阿泽🧸

      Service Mesh 7月月更

      谈谈讲清楚这件事的重要性

      阿里巴巴中间件

      阿里云 技术 云原生

      LinkedBlockingQueue源码分析-初始化

      zarmnosaj

      7月月更

      AI人脸编辑让Lena微笑

      逝缘~

      华为云 AI Gallery 7月月更

      async / await

      Jason199

      Async await 7月月更

      《HarmonyOS实战—入门到开发,浅析原子化服务》

      攻城狮杰森

      操作系统 HarmonyOS 7月月更

      组织实战攻防演练的5个阶段

      穿过生命散发芬芳

      攻防演练 7月月更

      想要在Linux中只显示隐藏文件,用对ls就可以实现

      wljslmz

      Linux 运维 7月月更

      一个酷酷的“幽灵”控制台工具

      为自己带盐

      C# 控制台 7月月更

      Ubuntu22.04 源码安装Python3.10

      IT蜗壳-Tango

      7月月更

      offer如何选择该考虑哪些因素

      KEY.L

      7月月更

      抖音或将推出独立种草社区平台:会不会成为第二个小红书

      石头IT视角

      【愚公系列】2022年7月 Go教学课程 005-变量

      愚公搬代码

      7月月更

      【写给初发论文的人】撰写综述性科技论文常见问题

      左手の明天

      论文阅读 论文 论文写作 研究论文 论文撰写

      leetcode 53. Maximum Subarray 最大子数组和(中等)

      okokabcd

      LeetCode 动态规划 数据结构与算法

      牛客java选择题每日打卡Day8

      京与旧铺

      7月月更

      一个开发者自述:我是如何设计针对冷热读写场景的 RocketMQ 存储系统

      阿里巴巴中间件

      阿里云 RocketMQ 云原生编程挑战赛

      【刷题记录】2. 两数相加

      WangNing

      7月月更

      “大模型第一股”打响上市前哨战!智谱刷新开源编程SOTA,在修复代码、终端操作表现超Claude 4.5_生成式 AI_木子_InfoQ精选文章