
前两天,正在冲刺“大模型第一股”的智谱打响了上市前哨战:直接端出并开源了全新大模型 GLM-4.7。
这个 GLM-4.7,一举刷新多项 SOTA:它是目前国内最强 Coding 模型、最强国产模型;而且审美和情商都很在线,吸引了大波技术圈和非技术人才(比如设计师)前来围观。
还在 LM Arena 的 WebDev 榜单(大模型真实前端 / Web 应用开发能力测评)里,夺下最强开源模型之位,超过 GPT-5.2 和 Claude-Sonnet-4.5。
另外,还登上了 Hugging Face 模型榜榜一。
北京时间 12 月 24 日,GLM-4.7 背后的智谱 Z.AI 团队首次对其作出公开回应,他们在 Reddit 上开展了一场 AMA(Ask Me Anything,有问必答)活动,直面众网友的犀利问题。
其中,Z.AI 团队集中“现场答疑”的时间就长达 3 小时,吸引超过 800 人次互动;另外他们还会在随后的 48 小时内继续做“事后补答”。
整场问答的信息量爆炸,Z.AI 团队主要回复可概括为:
智谱上市信息
会不会单独做专门的编程模型
GLM-4.7 的交错式思维,为什么能保持逻辑一致
模型 UI 审美能力是怎么练出来的
GLM-5 什么时候来、还有哪些新产品在路上 ……
回应了哪些要点?
GLM-4.7 主打编程与代理式任务(coding + agentic tasks)的提升,同时在推理能力等方面也有所增强。
这里就按关键问题分类,先来具体看看智谱 Z.AI 团队对 GLM-4.7 分享了哪些“猛料”。
模型性能
首先,网友们最关心的问题就是模型本身的性能为什么会有如此飞跃?
智谱团队表示,为了把模型打磨到“更能干活”的状态,他们在后训练部分做了不少关键调整。
智谱在 SFT(监督微调)+ RL(强化学习)阶段,采用了更精细的发布配方(release recipe)。
先把不同来源的数据按合适比例搭配,再把互相矛盾的数据删掉;
需要重点提升某个短板时,尽量只在局部做小幅调整,避免牵一发动全身;
最后再反复用测评做验收,把提升做得更稳、更全面。
此外,智谱还分享了他们一整套的预训练数据流程:
从收集开始,逐层做清洗、去重和质量筛选,把噪声和水分尽量挤掉;
不同领域再上不同规则,代码、数学、科学各自用各自的筛选标准;
更关键的是,哪些数据值得进大训练不是拍脑袋决定,而是先在同架构的小模型上做消融验证,只有能带来稳定正增益的部分才会被纳入。
这套流程下来,大大提升数据的有效性。
还有网友上来就直言不讳:GLM 4.7 的编程能力部分到底擅长做什么,短板在哪?
智谱的研发团队直接给了明确答案,它主要提升在真实软件工程、会用终端干活,以及 Vibe Coding 的整体体验上。
如果在环境很清楚、结果好验证的情况下,比如在常见项目里找 bug、修 bug,GLM 4.7 的表现最稳。但如果是它不熟的框架、从零做全新功能,可能会因为“见得不够多”而掉链子。
对此,智谱研发团队表示未来,他们会继续提升模型的前端和后端能力,并进一步强化长任务、多步骤场景下的稳定性。
而让 GLM 4.7 在复杂任务里“更能想清楚再动手”的关键,背后其实离不开 GLM 4.7 在推理机制上的重大创新,智谱推出了“交织式思考(Interleaved Thinking)+ 保留式思考(Preserved Thinking)+ 轮级思考(Turn-level Thinking)” 。
其中“交织式思考”,团队把它形容为“改进版思维链”。可以理解为智谱把思维链从“一次性想完再行动”升级为“每一步都先想再做”,无论是对话输出还是工具调用,都会先推理再执行。
而 GLM 4.7 的“保留式思考”,可以保证多步任务不跑偏,把关键中间思路延续到后续步骤,从而提升行动一致性与任务完成度。
还有一个很多人关心的点,就是 GLM‑4.7 的落地使用情况。智谱团队表示,他们在 Claude Code 这一套智能体框架上投入了大量优化与适配。
从实际表现看,GLM‑4.7 的多语言编程能力很突出:除了 Python、JavaScript 这类常见语言外,在一些相对小众的语言、以及更复杂的工程结构与逻辑链路上,也能保持较强的理解和处理能力。
团队同时强调,智能体框架本身对最终效果的影响可能达到约 30%。因此他们围绕智能体的关键环节,比如系统提示词,以及工具调用层级设计,做了更深度的打磨,以提升复杂任务下的稳定性与成功率。
除了编程外,GLM4.7 最让人印象深刻的还有它在 UI 审美上逆袭,不少网友好奇为什么他们前端一下子变“好看”了。
智谱对此做了解释,原来他们有一个专攻“前端技能”的网页开发团队,在数据和训练方法上升级了。
他们先收集高质量审美在线的网页案例做训练集,再用一套视觉语言模型(VLM)接进数据流水线,硬把 UI 审美练上去了,直接出成品。
此外,GLM 4.7 在角色扮演方面,也有了更好的沉浸感。
在如何把握“创作自由”和“安全过滤”间,智谱找到了自己的度。不是一刀切地加过滤,而是把“安全”做得更像后台机制,风险要兜住,但前台尽量不打断体验。
未来计划
在模型性能之外,GLM4 系列未来往哪走也是网友们的热议话题。
在 GPU 资源紧张的大背景下,有人抛出现实拷问,会不会因为算力和内存成本,卡住模型研发节奏?
智谱的回应相当务实,模型设计关键是训练成本和部署成本。如何让模型在有限参数下追求极致性能,并且更便宜,更好部署,一直是智谱在思考的地方。
至于版本节奏方面,团队也给了一个颇有悬念的回答,不排除直接跳过 4.8、4.9,憋一波更大的升级,GLM-5 或在路上。
对于 2026 年智谱还会有哪些惊喜,不少网友直接将评论区当成许愿池,有人希望有原生多模态,或者更轻量的版本,或者更强的编程能力。
对此,智谱没有正面展开,只留下一个信号,大招会有,但暂时保密,智谱一直在追求 AGI 的路上。
但与此同时,智谱还丢出了个“彩蛋”:一款名叫 “Zcode ”的新 IDE 正在路上。
团队透露,他们日常已经在用 Zcode 和 GLM‑4.7 搭配开发,它不只是让模型写代码这么简单,而是能同时开多路智能体并行干活:一边跑数据处理,一边做代码审查,再开一路专门盯调试排错,就像把一个小型 AI 研发小组塞进了开发环境里
目前,Zcode 可以无需梯子,能直接使用 Claude Code 并且一键接 API。
他们还贴心地推荐了配套工具 Zread,主打啃超大代码库,快速理清项目结构和关键链路。简单说就是,Zcode 负责写,Zread 负责读,组合起来更像完整的工程助手。
开源普惠
在开源这条路上,智谱一直备受社区认可。此次,智谱又带来了新的惊喜,曝光了他们的强化学习框架“Slime”。
Slime 干的事很明确,让大模型像“刷题”一样不断做任务,系统负责自动“收作业”、给出反馈,再把反馈用于下一轮训练迭代。
换句话说,它把原本零散、强依赖人工经验的强化学习流程,做成一条可持续运转的训练流水线。
尤其在训练写代码这类模型时,Slime 能把“生成—执行—测试—反馈”并行铺开,大幅拉高训练效率,让强化学习不再只是“能跑通实验”,而是可以长期、规模化地跑下去。
更重要的是,这类框架一旦开源,它贡献的不只是某个模型的技巧,而是一套可复用的工程方法“怎么把模型练成能干活的智能体”。对很多团队来说,这比单纯开一个权重更有意义,它直接降低了从零做智能体和强化学习的工程门槛。
也有人担心,随着智谱推进上市,未来会不会因此收紧开源节奏、改变策略。
对此,智谱团队的回应很明确:冲刺 AGI 的方向不会变,开源也不会缺席,两条路都会一直走下去。
最后,还有人现场应聘,智谱团队也给出了他们认为一个大模型工程师的标准,在研究能力之外,他们非常看重“工程技能”,毕竟,能快速、高效的解决问题,才是王道。
审美超绝,3D 交互感飞跃
前文提到,GLM-4.7 刷新了多项基准测试的 SOTA,除了硬指标,GLM-4.7 的输出审美和“情商”也比上一代有大幅提升。
下面通过智谱官方和 InfoQ 的实测 Case,看看它具体表现如何。
点开智谱 Z.ai 提供的大模型在线使用界面,可以一眼看到对话栏下面的几个功能选项。
首先来试试前端开发功能,我们点开“全栈开发”,然后惊喜地发现,几句话就能让 AI 搓出一局完整的植物大战僵尸。
先用一段官方参考 Prompt:
“请基于当前目录准备的素材(下载 https://z-cdn.chatglm.cn/temp/Grazy%20Dave.mp3 当作游戏音乐, 下载 https://z-cdn.chatglm.cn/temp/pvc-images.zip 目录下的各类植物与僵尸静态/GIF 图片、Pea.png/PeaSnow.png 豆子素材、Shop.png/Card.png 界面素材及 Sun.gif),做一个《植物大战僵尸》游戏。”
BGM 一响,熟悉的节奏直接把人拉回当年:草坪铺开、阳光掉落、种下植物,然后僵尸进场,发射豌豆等操作一气呵成,节奏和手感都对得上。
然后我们还能在生成效果的基础上,继续输入自然语言的 Prompt,让其做调整:
“其中向日葵每 6 秒生成一个 Sun.gif,一个 Sun.gif 有 25 阳光值;豌豆射手的攻击力太低了,改为原来的 2 倍;一共有 20 只僵尸,最后 10 只僵尸从 5 条路同时进攻,击败所有僵尸即成功,并显示游戏成功页面”
一局完整的 PVZ 游戏效果如下:
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
连《植物大战僵尸》这种高交互小游戏都能搓出来,那回到更常规的网页开发场景,GLM-4.7 的表现更是可谓“信手拈来”。
比如,要生成一个普通 HTML 网页,在 GLM-4.7 中基本能一句话搞定,而且比起上一代生成的布局结构更清晰、组件风格也更统一,大大减少后期微调时间。而且还能覆盖多种风格,从简约、复古到时尚等应有尽有。
除此之外,做一个基于 Web 的交互式体验页面(Interactive Web Experience)也是不在话下。
GLM-4.7 做的 UI 完成度很高,动效衔接自然,层级清晰,3D 交互的纵深感和层次感都做得相当到位。
除了前端,GLM-4.7 体现出的高级审美能力,还在“艺术作品”的 3D 展示中带来质的飞跃。
它在空间层次、透视关系上处理得很清楚,同时在配色、材质对比、景深和构图上也下了功夫;该亮的地方亮,该收的地方收。
举个例子,给它这样一段 Prompt:
“设计一个精细打磨的体素风(voxel-art)环境,在充满生机的花园中呈现一座装饰华丽的宝塔。 场景中需要包含丰富多样的植被,尤其是樱花树,并确保整体构图生动、色彩鲜明、具有强烈的视觉冲击力。 你可以使用任意体素或 WebGL 相关库,但请将整个项目以一个完整、可独立运行的 HTML 文件形式交付,我可以直接粘贴并在 Chrome 中打开。”
GLM-4.7 的完成效果让人眼前一亮,既有体积像素的 3D 感,又美观和谐,还自动加入了旋转视图功能。
另外,在幻灯片制作上,GLM-4.7 也明显“好看了”。
PPT16:9 的适配率从 52% 提升至 91%,生成的页面布局更准确、元素比例更舒服,整体观感更接近一份可以直接拿去用的成品。
这样的审美同样体现在海报设计上,排版与配色更加灵活,具备设计感,基本达到可以直接商用的效果。
同样设计以“巴黎”为主题的海报,GLM-4.7 明显从配色和排版上更胜一筹,懂得突出主题,注意文字比例和位置,图片的镶嵌和配色,而不是死板的罗列排布。
总而言之,智谱现在把看家本打包亮相,团队想交出的不只是一个模型版本,而是一条更清晰的路线,让模型的能力在真实世界里顺利地跑起来、跑得稳。
虽然真正的 AGI 道阻且长,但智谱团队给出的不是时间表,而是表示愿意脚踏实地:
“我们准备为 AGI 之路做出更实质性的贡献”。
传送门:
参考链接:
https://www.reddit.com/r/LocalLLaMA/comments/1ptxm3x/ama_with_zai_the_lab_behind_glm47/







评论