外行式 Vibe Coding 正跟专业的Agent 工程走向融合：最吓人的是，我们“摆烂”有正当理由了？

Vibe Coding，在不少专业开发者看来，几乎不值得认真讨论。不查看代码，不关心实现质量，AI 生成什么就先用什么，能运行即可。它更像一种“许愿式”开发：仅限个人使用也许无妨，一旦进入生产环境、服务于他人，就很难说是负责任的软件开发。

但最近出现了一个趋势：这种被嫌弃的外行做法，正在与专业开发者的 Agent 工程走向融合。

不久前，拥有 25 年编码经验的软件专家、Django 联合创始人 Simon Willison 谈到了这一现象。他此前将两者区分得很清楚：Vibe Coding 是完全不看代码的编程，适合个人工具，用在别人身上是“极其不负责任的”（grossly irresponsible）。Agentic Engineering 则是专业工程师在安全、可维护性、性能等约束下使用 AI，对每行代码负责。

他以为这两条线会一直保持距离。但现在，二者开始“重叠”了，远没有以前那么泾渭分明了。

原因现在的 Agent 写的代码，看起来越来越可靠，他开始发现自己不再逐行审查 AI 生成的代码，哪怕是生产环境里的代码。他把 AI 的输出当作“半黑盒”来用——就像信任公司里的另一个团队，你不会去读他们每一行代码，先拿来用，出了问题再去看他们的 Git 仓库，“不到万不得已不会去看”。

他把这叫做“偏差正常化”：AI 每次写对，都让他更容易在未来某个时刻盲目信任它。但他仍然感觉不太舒服，因为人要为自己的行为负责。

另一个问题是评估软件的方式变了。以前看到一个有上百次提交、完整 README 和测试的仓库，基本能确信作者投入了心血。现在他用 AI 半小时就能生成一个一模一样的。唯一可靠的检验标准变成了：是否有人真正使用过它。

这些思考出自他在 Heavybit 播客《High Leverage》的访谈。节目上线后，Hacker News 上多了八百多条评论，多数并不否认这一趋势，争议在于如何理解这种变化。

有评论非常尖锐，写道：“Vibe Coding 至少是诚实的，但 Agentic Coding 更像一套包装精致的骗局。”

所谓 Agent 工程，本质上是假定 LLM 是完美可靠的规则执行器，仿佛行业唯一的问题就是规则写得不够细。所以那些塞满几十个 memory、agent、skill 文件，并在其中写满一页又一页规则的论证的所谓 harness，同样完全站不住脚。只有那些没怎么接触过 LLM 或不懂其原理的人才会这么想。“但很多技术水平很高的人也陷进去了，这非常令人遗憾。”

也有评论给出了务实的区分标准。有人指出，区别在于流程的质量和严谨性。Vibe Coding 是一到几次尝试，冒烟测试，能用就一直用到出问题，适合低风险的个人项目。Agentic Engineering 则关注功能正确性、性能、基础设施、弹性、可维护性，采用多阶段流程，每个阶段有确定性质量门和对抗性评审。但也承认，这是个滑块，有时也会跳过部分评审，直接把工单提交到系统。

还有人很赞同 Simon 的“出了问题再看”的观点，他补充说，很多人是在一种“等它真成问题了再修”的心态里成长起来的。只是现在前沿模型把“出了问题”的时机推迟了。但代码库终会变成一层层你没有参与决策的碎片，而你不再亲手写代码，也就失去了那种“这样加东西会有很大张力”的本能反应。这是讨论中最敏锐的观察，被称为对代码的“本体感觉”——通过编写和重构，你能感知抽象泄漏和接缝错位。风险不在于 AI 写坏代码，而在于开发者丧失辨别坏代码的能力。

而造成这一切更根本的原因是，市场缺乏对高质量代码的奖励机制。

有评论指出，代码质量在 AI 出现之前就已经非常糟糕，大公司技术债务堆积如山。那些在 AI 时代之前阻碍高质量代码开发的激励机制，如今依然占据主导地位。未来，你仍然会被迫交付质量低劣的产品，就像过去一样。

但这是否意味着“软件作为一个行业已经死透了”？在播客中，主持人提到了一个正在流行的观点：既然 Claude 能写出跑得通的软件，软件公司的价值终将归零。Simon 的回答是：真正重要的不再是代码本身。代码正在贬值，但结构、接口和确定性数据层的价值反而在提升。Agent 带来的非确定性，恰恰让那些能够减少非确定性、提供稳定边界的东西变得更加珍贵。

至于 Willison 那份内疚与不安，他承认仍然存在，并未解决。

以下是完整的访谈翻译：

“AI 擅长编程”变得不容置疑

Joseph：我们现在正处于职业生涯中规模最大的一个炒作周期，你似乎总是能精准地定位在那些所谓的“涅槃论”思想领袖和另一端的“末日论者”之间。

Simon：中间其实有一个非常好的位置，但令人惊讶的是，很少有人站在那里。

Joseph：能不能请你快速分享一下你的“起源故事”？你是如何占据这个中间位置的？在 AI 时代开启之前，你的经历是怎样的？

Simon：我在 AI 领域的所有影响力都源于我的博客，而且我经常更新它。我还在像 2005 年博客鼎盛时期那样经营它，那是大家还没转向短视频、LinkedIn 或 TikTok 的时代。从 2002 年起我就开始记录关于 Web 开发、CSS 和 JavaScript 的内容，后来是 Python。职业生涯早期我还参与共同创建了 Django 框架，所以博客里很多都是 Django 相关的干货。

大约三年前，Stable Diffusion 成了我进入 AI 领域的契机。我和 Andy Baio 合作，深入挖掘了 Stable Diffusion 的训练数据，结果发现他们从新闻网站、Pinterest 等地方抓取了大量内容。我们觉得这件事很有趣，公众应该知道这些模型是在未经授权的抓取数据上训练的。于是我们写了几篇文章，还做了一个探索工具让大家能看清训练集的构成。

大概两个月后，ChatGPT 问世了。其实在 ChatGPT 之前，我已经玩了一年半的 GPT-3，当时我就觉得这技术很牛，但很难让别人也感兴趣。因为 GPT-3 的交互是文本补全模式，你得输入一段特定的提示词，比如“一个能执行 XYZ 功能的 JavaScript 函数是：”，然后它才给你补全。这种交互方式太怪了，不符合大多数人的思维直觉。而 ChatGPT 说白了就是给 GPT-3 套了一个 Chat Interface。这个小小的 UI Hack 彻底打开了局面，因为一旦人们能用对话的方式进行交流，它的能力就变得显而易见了。

我正好是在对的时间出现在了对的地方，手里已经攒了不少关于 GPT-3 的素材。之后我就是顺势而为，持续追踪新出的模型。我还搞了个被某些人当真、但我自己完全是当乐子的 Pelican Riding a Bicycle（鹈鹕骑自行车）测试基准。此外，我每年会做一次 LLM 年度盘点，还有月刊和周报。现在的挑战在于，每天都有没完没了的新鲜事儿，我得在精力被分散之前挤出时间干点正事，比如 Mistral Medium 3.5 两小时前刚发布。

Joseph：原本咱们上周就要录这一期，结果因为网络故障推迟了几天。就在这短短四五天里，Poolside 模型发布了，DeepSeek v4 也出来了，迭代速度简直不可思议。你去年底的那篇年度回顾里，对软件开发以及 AI 在其中的应用似乎有一些非常深刻的思考。

Simon：去年是“AI 擅长编程”变得不容置疑的一年。在 2024 年底，你可能还会辩解说 AI 写的代码 Bug 太多，搞不好会拖慢进度，但现在这种论调已经过时了。

Anthropic 和 OpenAI 在 2025 年投入了海量资源进行代码训练。Claude Code 去年二月发布后，大家很快意识到：如果你想让用户每月掏 200 美元，代码就是他们愿意买单的核心。到了十一月，Claude Opus 4.5 和 GPT 5.1 几乎同时发布，那是一个临界点，Coding Agents 变得真正可靠了。

在那之前，这类工具还处于一种时灵时不灵的状态。但从十一月开始，Agent 变成了你可以信赖的长期合伙人，你有 90% 的把握确定它生成的代码是能跑通的。现在它们已经成了很多人的 Daily Driver（日常工具），很多同行甚至说他们 70% 到 80% 的代码都是 Agent 写的。如果是一年前，说这种话会被人笑死，但现在这已经成了理所当然的常态。

Joseph：Claude Code 发布才一年多，交互范式已经从基于 IDE 的自动补全进化了。以前我们觉得“这只是意味着我不用写 for 循环或查找函数定义了”，而现在的模型，我可以给它更高层级的指令。

我们的一家投资组合公司 exe.dev（一种新型云平台），我在圣诞假期用了他们的 Agent，连着两三周一直在往一个小 Demo 里加功能。结果我突然意识到，我竟然一次都没看过这玩意儿生成的代码，但它居然一直运行得好好的。

Simon：你甚至都没意识到这一点，因为我们已经习惯了“它们写代码，代码能跑，偶尔我们会看一眼”的模式，其中的经济学原理很迷人。以前你想做一个东西，得交给工程团队，等上两到四周才能见到雏形，现在变成了两到四小时。

Vibe Coding 和 Agentic Engineering 已经开始融合

Joseph：既然这种可靠性已经成了某种 primitive（原生能力），那我们到底能走多远？通往未来的新实践和新原则又是什么？我特别欣赏你的一点是，你试图区分 Vibe Coding 和 Agentic Engineering 这两个概念。

Simon：奇怪的是，这两件事情对我来说已经开始变得模糊不清了。

Vibe Coding 是那种你完全不看代码，甚至可能根本不懂编程，只要它跑通了就行；如果不通，就祈祷再试一次能行，你不会在意代码质量或维护性。Vibe Coding 在个人工具层面非常棒，出了 Bug 也就是坑你自己；但如果你是给别人写软件，还搞 Vibe Coding 就是极度不负责任，因为别人的数据和利益会因为你的低级 Bug 受损。

相比之下，Agentic Engineering 是专业软件工程师的打法。你理解安全、可维护性、运维和性能，依靠自己 25 年工程经验，利用这些工具把挑战的规模拉大，目标是构建更高质量的生产系统。如果用 AI 只是为了更快地制造低质量的垃圾，那我认为是退步。

但问题是，随着 Coding Agent 越来越可靠，我也开始不再 Review 每一行代码了。比如让 Claude Code 写一个 SQL 查询并输出 JSON 的 API 端点，我知道它肯定能搞定。我会让它加测试、加文档，生成的代码质量很高，但我确实没去审。这让我产生了一种负罪感：如果不 Review，我把它用在生产环境真的负责任吗？

后来我想通了：这就像我在大厂当 Engineering Manager 的时候，我信任其他团队交付的模块。比如人家给了一个缩略图服务，我只要看好文档、确认功能正常就会接入。除非出了 Bug 或是性能拉胯，否则我不会去翻人家的源码。我开始把 Agent 当作一个半黑盒的合作伙伴，虽然 Claude Code 没有像人类那样的“职业信誉”来提供信用背书，无法为自己的行为负责，但它一次又一次地证明了自己——不断地生产出简单明了的产品，而且是以我喜欢的风格把事情做好。

Joseph：而且挺逗的是，我发现模型非常乐意为你指出的错误“承担责任”。当你问它：“等一下，你刚才是不是干了那档子事？”它会立马滑跪：“噢，真的很抱歉，我确实刚干了那事”

Simon：没错，但这态度对我来说毫无意义。况且现在 Claude 4.7 已经出来了，我好不容易才跟 4.6 建立起了一点信任，结果新模型又来了，我得花多长时间才能确信它不会犯一些我预料之外的低级错误？

Joseph：在一个大规模的人类工程团队里，总会有那么几行“承重墙”级别的核心代码（Load bearing code）。但说实话，到底有多少人真的仔细看过那段代码？可能最初是一个人写的，另一个人在 PR 里草草点了个赞同就合入发布了，可能现在这两个人都不在公司干了。

Simon：这也是我在做 Side Projects 时的困惑，甚至整个行业都在面临这个问题。以前如果你在 GitHub 上看到一个仓库，有一百多次提交、一份精美的 Readme 还有完善的自动化测试，你基本可以确定作者投入了巨大的心血。但现在，我半小时内就能敲出一个同样有一百多次提交、文档漂亮、测试覆盖每一行代码的仓库。它看起来和那些呕心沥血的作品一模一样，甚至质量可能真的同样出色。但我看不出来，甚至对我自己用 AI 生成的项目，我也没法一眼分辨。

所以我意识到，相比于测试质量或文档，我更看重“是否有人真的用过它”。如果你 Vibe Coding 出了一个东西，并且在过去两周里每天都在用它，那这玩意的价值对我来说，远高于一个你刚随口说的、甚至都没怎么跑过的代码。

Joseph：你刚才提到了一点，在 Opus 和 Codex 那个关键时刻到来前，Vibe Coding 和 Agentic Engineering 之间还有一个清晰的准则：只要是重要的活儿，人类必须介入 Review 并把关。但我最近也有一种和你一样的顿悟：这些工具已经好到一定程度了，如果还要求每一行代码进入生产系统前都要经过人工 Review，这在逻辑上已经快说不通了。

Simon：但你刚才用的“承重墙”这个词非常关键，任何安全相关的代码，我一定会亲自 Review。把安全责任完全外包给 Agent 是极其不负责任的，而判断哪些代码涉及安全、哪些不涉及，这种直觉需要深厚的工程经验积累。

人类审查成为软件开发新的瓶颈

Joseph：如果换个视角看软件开发史，它其实就是一个不断“消除瓶颈”的过程。云计算最重要的价值（除了财务上的成本转换）在于，工程师不用再坐等另一个大楼里的人去机架上插服务器，才能部署代码。现在一个 API 调用，服务器就到位了。这消除了一个大瓶颈，从而引发了过去二十年开发者生产力工具的大爆发，因为现在的瓶颈变成了“人类开发者的动作有多快”，而不是网络架构师什么时候有空给你开个防火墙端口。

到了去年底，尽管自动补全和 Cursor 这类工具很火，但人类的 Review 依然是开发到生产之间的那个“瓶颈网关”。如果我们把这个瓶颈也移除了，下游的所有流程是不是都会崩溃，或者需要推倒重来？

Simon：百分之百。这里核心的问题是：如果你能从每天写 200 行代码进化到每天写 2000 行，还有什么会坏掉？事实证明，整个软件开发生命周期（SDLC）都是围绕着“一天只能写几百行代码”这个前提设计的，现在这个前提不存在了。

这不仅影响下游，也波及上游。我看到 Anthropic 的设计负责人 Jenny Wen 做过一次很棒的分享。她说，传统的 UI/UX 设计流程是为了确保“一次性做对”，因为如果设计错了，交给工程师花三个月做出来才发现不行，那是灾难性的，所以我们才会有那么多繁琐的设计评审。但如果构建一个东西不需要三个月，那么设计流程或许可以承担更大的风险，因为做错的代价已经被极大降低了。

Joseph：这其实也适用于产品管理。以前之所以强调精细的 Specification 和深度思考，是因为工程师做错东西的成本太高了。

说回 Vibe Coding 在专业开发中的角色，这让我想起 Extreme Programming（极限编程）里的一个术语叫 Spikes（探针测试/尖峰开发），你熟悉吗？

Simon：我超爱 Spikes。

Joseph：给年轻听众解释一下：以前人类写代码时，如果你有个理论想验证，你会花两天时间（这对人类开发者来说是很小的一笔支出）做个 Spike，撤掉所有防撞墙，不写测试，直接硬攒一个原型出来，看看手感对不对。现在有了 Vibe Coding，你一小时能做 10 个不同的 Spikes，而且你甚至不需要是工程师就能完成。

Simon：这就引出了“并行 Agent”（Parallel Agents）的概念——同时运行多个 Coding Agent。去年我觉得这纯属胡闹，因为如果你要 Review 代码，同时开五个 Agent 简直是灾难。但现在我开始这么干了，尤其是在做 Spikes 的时候。

我可以一边让网页版的 Claude Code 跑一个 Spike 去探索方案 A，同时让 Codex 在这边跑方案 B，而我本人则在处理其他真正的工作。虽然 Review 这些 Spikes 的产出依然有很大的认知负荷（Cognitive load），但这确实意味着只要我有一个随机的灵感，我就可以立刻让 AI 去打个样，看看行不行得通。

Joseph：软件开发历史上一直推崇“深度聚焦”和“流状态”，我也一直是这一派的信徒。在我的第一个初创公司里，我认为给开发者一个带门的独立房间让他们专注是非常重要的。

Simon：有那种“如果你打断一个程序员只为了问个小问题，他得花 15 分钟到一小时才能重新找回状态”的理论，因为他得把所有逻辑重新加载回大脑里。

Joseph：这种专注的状态，和你同时开五个 Agent 干活儿的时候相比，是什么感觉？

Simon：没有可比性。我现在甚至能边遛狗边写代码，我会打开 ChatGPT 的语音模式，告诉它写段 Python，然后趁着遛狗的功夫跟它来回对需求。甚至在做晚饭的时候也能写不少代码，笔记本就搁在一边，我每隔五分钟跑过去敲个 Prompt，然后接着回去切菜。

比起以前，我现在进入“可被打断”状态的门槛低了太多。我花了多年时间建立自己的“抗干扰机制”，，把所有工作都记录在 GitHub Issue 的评论里。我会不断写下“下一步准备干嘛”，这样一旦被打断，我只要翻翻这些像“工程师实验笔记”一样的评论，就能快速找回状态。

但现在我完全不这么干了。当你手敲一百行代码时，那种深度沉浸、脑子里装满逻辑的能力至关重要；但当你只是在给模型下达下一个架构方向的指令时，这种负担就轻多了。我以前从没想过能同时推进两三个项目，但现在轻而易举。而且项目越难，反而越容易并行——因为你可以给一个 Agent 发个指令，让它花 10 分钟去构建下一个模块，而这 10 分钟你可以心安理得地去处理别的事情，这种工作方式真的非常诡异。

AI 时代的“结对编程”

Joseph：我做投资八年了，在此之前，我有 25 年的技术背景，拿了计算机科学博士（虽然退学了），写了很多代码。我发现这种背景在使用这些工具时非常有帮助，体现在我能与它们进行的对话深度以及我能指引的方向上。你觉得对于未来的成功使用，对底层技术的理解到底有多重要？

Simon：这真是个灵魂拷问。因为我有 25 年的写代码经验，很多东西已经刻在骨子里了。但当我回头看我跟 Agent 的对话记录时，我很清楚这些对话对绝大多数人来说简直就像是“外星语言”。但我并不担心软件工程师的职业生涯会因为电脑能写代码就终结，其中一个原因就是：这些工具其实是现有经验的放大器。如果你知道自己在做什么，它们能让你跑得飞快。

AI 对新人同样非常有帮助。我想起以前带新人，头六个月简直是人间炼狱：你要配开发环境，这玩意儿随时会崩；漏个分号就会报一堆莫名其妙的错，你可能得花半小时去死磕。最理想的情况是身边坐个老司机，指着屏幕说“这儿缺个分号”，但大多数人没这条件。现在这个问题解决了：报错了就往 ChatGPT 里一贴，它每次都能给你答案。所以那种“由于死磕分号而导致五小时没进展”的挫败感被磨平了。以前很多人觉得自己不够聪明学不会编程，其实根本不是，只是没人告诉他们，在感受到编程的乐趣前，得先经历六个月枯燥透顶的磨练。

现在这些原本会放弃的人都在学编程。我见过很多人热衷于从 Vibe Coding 入门，在这个过程中他们得到了即时反馈，学到了知识。现在悬而未决的问题是：三年后，这些“氛围程序员”是会进化成能构建生产系统的工程师，还是停留在只会搓点没有长期价值的小玩意儿的阶段？我想三年内我们就能见分晓。

Joseph：即便这半年技术突飞猛进，我依然认为人类有其不可替代的角色。把视角拉远，软件工程师的本质角色其实一直是：坐在那堆混乱、模糊且不断变化的业务需求和硅片上那些确定性的逻辑之间，充当翻译官。

Simon：而且这活儿永远不会变简单。每当我用这些工具时，我都在感叹：写软件真是一件极其困难的事情。就算你把全世界最好的 AI 工具都给我，我们想要达到的那个目标依然极具挑战。

Joseph：未来的挑战在于当涉及安全等核心领域时，依然需要深入理解代码细节的能力。我圈子里有很多像你一样资深的工程师，有些人会有职业危机感：“我干了一辈子，现在这算怎么回事？”我的看法是，“原子能时代之前的钢铁”（pre-atomic steel）。虽然我们会找到训练和指导新人的新模式，但我认为那些模式可能最终都比不上“在 AI 出现之前就已经干了 25 年”所积累的底蕴。

Simon：如果五年后，唯一管用的程序员还是那帮有 20 年“前 AI 经验”的老家伙，那这个行业就完蛋了，那绝对不是什么好局面。

Joseph：最近 Scott Hanselman 上了我们节目，他和同事在 ACM 刊物上写了一篇很有意思的文章，探讨了新的导师制模型以及如何提升初级工程师的技能。其中提到一点：像 Claude Code 这样的工具应该有一个模式，让 AI 回到“结对编程”的逻辑中去，就像以前说的“驾驶员”（Driver）与“领航员”的概念。

你跟 Claude 说，咱们得给这 App 加个功能，Claude 会说：“没问题，我知道怎么弄。咱们分三步走……”甚至在修 Bug 时也是。但重点是，由你来负责敲键盘。这种训练模式能让你既不用跑三个工位去求助老司机找分号，又必须亲自经历那种“动手写”的过程。

Simon：结对编程最棒的一点就是有人帮你查资料，比如你问“某某功能的正则语法怎么写”，当你敲代码时，他在旁边查，而模型干这事儿简直无懈可击。

评论员 Matthew Yglesias 昨天发了条推特，大意是说：“玩了五个月 AI，我决定不搞什么 Vibe Coding 了。我想要的是那些专业的软件公司，利用 AI 系统开发出更多、更好、更便宜的软件产品，然后卖给我。”我觉得这话说得很到位。如果看足够多的 YouTube 视频，我确实能自己修家里的水管，但我还是更愿意雇个专业的管道工。

Joseph：这是我最近经常参与“激辩”的一个领域，现在有很多聪明人的结论是：“既然 Claude 能写出跑得通的软件，那‘软件’作为一个行业基本上就死透了。”现在的公开市场，软件类的估值倍数被锤得很惨，大家似乎都默认这些公司的价值终将归零。

但从几个维度来看，我总觉得这逻辑不通。首先，换回我以前做 CTO 的思维：如果在生成软件的系统中增加了“非确定性”，那么在系统的其他任何地方，凡是能减少非确定性、增加确定性的东西，价值反而会提升。所以，我给 Agent 提供的底层工具层级越高越好。就像你刚才说的图像生成的例子：我难道要让 Agent 从零开始写个数据库吗？不，我应该给它一个稳定的 API。

真正重要的，不再是代码本身

Simon：我最近一直在想，如果我现在要从头做一个 Issue Tracker（问题追踪器），比如仿照 GitHub Issues 或者 Linear，我会怎么做？我会投入全部精力去设计一个极佳的核心数据库 Schema，把 Issue、评论、标签、里程碑这些关系的逻辑打磨得极其扎实。然后，我把这个模式转化成一套极其稳健的 API。

至于上面的 UI，我完全可以用 Vibe Code 去搓。甚至我可以把这个能力开放给客户，让他们说：“我需要一个带特殊过滤功能的看板。”没问题，随便你怎么搓 UI，但底层数据必须写入那个确定的、稳定的、定义严谨且备份良好的 API 和数据模型里。

只要你把数据模型做对了，用户可以拥有无限的自定义灵活性，而不用承担那种“因为 Vibe 出来的数据库模式太烂，导致数据最后全乱套了”的风险。

Joseph：我觉得 Agentic Engineering 应该能开启一个新的软件光谱。在历史上，有一大块“可能的软件”其实是因为经济上不划算，所以从未被开发出来。

Simon：比如你想给镇上的小肉铺开发一套定制软件，在过去，这个市场太小了，根本支撑不起程序员的开发成本。

Joseph：以前哪怕做一个最简单的东西，也要两三周的开发时间，保守估计就是几万美元；后续每年的维护成本还得十几万美元，肉铺哪有这种利润率？

所以当我听到有人说“软件已死，以后大家都自己搓工具”时，我听到的其实是另一种潜台词：过去人们很沮丧，因为一个平台想要活下来，唯一的经济手段就是做得足够“通用（Horizontal）”，横跨足够多的行业，这样潜在市场（TAM）才够大。但我也相信，企业之所以购买软件，是为了得到深思熟虑的、内聚的、安全的数据层。

Simon：我想到我之前说的——我只想用那些“开发者自己已经用了几周”的小项目。它的企业版表述就是：除非至少有两家大企业已经成功使用某个 CRM 系统半年，否则我绝不会买。这其实是同一种心态，在承担风险前，你想要的是经过验证的方案。

“AI 反弹”背后的真实情绪

Joseph：我想起昨晚在《The Verge》上读到的一篇 Nilay Patel 的文章，标题是《人类并不渴望自动化》（The People Do Not Yearn for Automation）。

Simon：简直是诗，那是我见过的关于“AI 反弹”浪潮中最好的评论。如果你去调查大众对 AI 的看法，支持率正在崩塌。Nilay 甚至提到，AI 现在的受欢迎程度可能还不如 ICE（美国移民海关执法局）。

Joseph：负面得惊人，在某些调查里，支持率甚至跌破了 20%。

Simon：尤其是在 Z 世代里，最常使用它的人反而最讨厌它。Nilay 的核心观点是：我们这些搞软件的人会为了“自动化一切”而兴奋，但这套逻辑对普通人行不通。就像智能家居除了在极客圈，始终没能在大众市场爆发，因为大多数人并不觉得“拍拍手就能关窗帘”有什么好激动的，这不符合主流人类的兴奋点。

Joseph：我最近在给 Claude 调教一些技能，让它在几个 CRM 工具上跑 RPA（机器人流程自动化）。做着做着我突然意识到，这跟我几十年前写复杂的 Shell 脚本一模一样：我得考虑各种边界情况、我要处理什么、我要规避什么……而所谓的“正常人”根本不会这么思考，不是因为他们没能力，而是因为他们生活里根本不需要这种思维。

Simon：这是一种需要多年培养的习惯：敏锐地察觉生活中的小摩擦，然后动手修好它。一旦你学会了，你就再也无法容忍任何可以被自动化的冗余。但大多数人生活里没时间搞这些，他们有太多别的事情要忙。

Joseph：大多数人对 AI 的感知其实就是“搜索”。一个更好用的搜索：我有个问题，你从语料库里或者实时搜索中帮我总结、去重，然后按我的视角呈现出来，但这和“坐下来通过 AI 自动化工作”完全是两码事。

Simon：而且现在的舆论氛围也很吓人，全是“这玩意儿太危险了，会毁灭世界，代码会被黑，大家都会失业”。AI 现在的形象公关确实做得一塌糊涂。

Joseph：大厂的人确实该认真对待这个形象危机了。

Simon：现在针对 AI 数据中心的抵制，本质上就是大家对 AI 的厌恶。人们在想：生活中有什么东西是我可以站出来反对，以此来宣泄对这股浪潮的不满？于是那些耗电惊人的巨大建筑物就成了靶子，数据中心成了 AI 在物理世界的化身。

算力成本博弈：涨价与中国模型的冲击

Joseph：你之前提到，现在的分水岭时刻是因为一年半前，基础模型实验室决定把“代码能力”作为核心。

Simon：OpenAI 和 Anthropic 在 2025 年把几乎所有的算力预算都砸在了“针对模拟软件环境的强化学习”上，他们开启了数万台带 Python 解释器的虚拟机，生成代码，跑一遍，看结果：跑通了就点赞，崩了就差评。有些中国实验室也这么干，比如 Qwen 的论文里就提到过动用一万台虚拟机做这件事。

我认为 xAI 和 Gemini 稍微落后一点的原因，就是因为他们没能在 2025 年整年都在代码强化学习的闭环里狂奔。现在这两家公司都在翻倍投入代码能力，但在我看来，他们已经错过了追赶的黄金 12 个月。

Joseph：而且生成软件这件事很特别，虽然强化学习理论上可以应用在很多领域，但代码编写拥有极其干净、明确的奖励信号。

Simon：简直是天作之合。代码跑通了吗？是或否。这非常明确。你对比一下律师行业，如果你想对法律条文做强化学习，你得把 AI 生成的文本投放到法庭上，看几个月后法官和陪审团是否认可。这种反馈周期长达半年，显然不像跑个 Python 脚本那么简单直接。

Joseph：在 ChatGPT 刚火的时候，很多“激进派”预言律师或类似职业会消失。我个人觉得没有任何职业会彻底消失，不过翻译行业确实处境艰难。

Simon：数据录入（Data entry）也是个非常危险的领域。

Joseph：有趣的是，软件工程反而是最容易因为这些技术而发生巨变、甚至是被“颠覆”的行业。

你提到了 Qwen。还有一些其他的模型，比如 Kimi（Cursor 的 Composer 模式据说就基于此）。还有你提到的 Poolside，就在我们录制节目的昨天，他们刚刚发布了开源权重的编程模型。

Simon：过去一年半我一直在密切关注中国的 AI 实验室，因为他们真的出了不少好东西。目前至少有五家极具竞争力的中国实验室，他们出的模型只比头部的闭源模型落后三到六个月，这成就非常了不起。

而且有些模型直接能在我电脑上跑。目前我最喜欢的本地模型是 Qwen 3.6-27B，它只需要大约 20GB 内存，在配置不错的笔记本上就能跑得飞快。它的能力感觉和半年前甚至一年前的头部闭源模型旗鼓相当。我以前觉得要运行这种级别的模型得买价值 5 万美元的服务器 GPU，现在居然能塞进我的 MacBook Pro？这简直不可思议。

Joseph：长期来看，尤其是在企业级软件和计算领域，我们必然会进入一个“混合模型（Mixed models）”的多模态世界。企业会根据不同的任务切换模型：这个活儿用基础模型，那个活儿用私有化的开源模型，从而在数据来源和成本之间寻找平衡。你认同吗？

Simon：我觉得现在最大的问题是，如果你把自己完全绑定在一个模型供应商身上，万一另一家突然发现了一个让性能暴涨的新技巧怎么办？不过目前的现实是，供应商们都在互相追赶。Anthropic、OpenAI 和 Gemini 一直在玩“跳马”游戏。Gemini 之前因为不够重视代码稍微掉队了，但他们现在正倾尽所有资源补课。我敢打赌到今年底，Gemini 的代码能力会追上另外两家。

所以核心问题变成了数据安全性（Data provenance）。你选本地模型是为了避免把数据传到云端 API 吗？大多数情况下，我觉得这是一种“伪优化”，甚至是某种被害妄想。如果你和 Anthropic 签了协议，明确他们不能拿你的数据去训练，你是可以信任这种商业协议的。当然，我经常和记者合作，他们的情况比较特殊：为了保护信源，他们必须防止政府通过调取数据中心记录来追查信源。这种情况下，本地模型就有非常现实的必要性。

我个人对本地模型的兴趣也是起伏不定的，一年前我完全失去了兴趣，因为本地模型太弱了，跟云端大模型比起来就像小孩子玩具。但在过去的六个月里，情况变了。我现在在笔记本上跑的模型已经能处理真正的业务逻辑了。

不过，所谓的“干正事”现在已经演变成了：把一个极其复杂的架构问题丢给 Claude Opus 4.7，让它自己推演 10 分钟。这种能力本地模型目前还做不到。所以我对这个问题的态度一直在反复。但有一点是肯定的：在现阶段把自己锁死在单一模型里是非常短视的。

顺便一提，我自己在 Python 里写了一层抽象层，做了一个开源库来调用不同的模型。

Joseph：你目前是怎么构建自己的工具链来兼容不同模型的？

Simon：我有个自己写的工具叫 LLM，它既是命令行工具也是 Python 包，通过插件系统可以调用 DeepSeek、Mistral 等各种模型。去年我用得很凶，但今年用得少了，因为 Claude Code 和 OpenAI Codex 太强了。我现在笔记本上大部分活儿都直接走这两个通道。不过你不能直接把这两个强大的 Agent 插到本地模型上，因为它们有长达两万 Token 的 System Prompts，本地模型根本处理不了这么复杂的操作指令。

我最近在玩 Pi，这是一个更轻量级的开源代码 Agent。晚些时候我会给我的工具做一个大更新，让它能更好地适配推理模型。另外我也在关注 OpenClaw。虽然我不完全信任它，但我觉得现在 AI 圈的“Hello World”就是亲手撸一个自己的 OpenClaw。我也在基于我自己的 LLM 框架开发属于我的“Claw”。

不过我目前的 Daily Driver，一周前是 Claude Code，现在主要是 OpenAI Codex。Codex 的最新版本表现非常出色，而且说实话，我不怎么信任 Anthropic 关于 Claude Code 的定价策略，他们最近一直在那儿变来变去的。

Joseph：Claude Code 的定价，不管是 AB 测试还是什么，关于 Pro 用户是否还能免费用它的争议挺大。还有 GitHub Copilot 好像也有动作？

Simon：GitHub Copilot 和 Windsurf 之前都是“按次计费”，不管你的 Prompt 触发了多少次工具调用，价格都一样。这在一年前还行得通，但现在行不通了，因为一个 Prompt 可能会让 Agent 跑上 10 分钟，所以现在大家全都转回了按 Token 计费的老路。

Joseph：过去几年 AI 圈给人的感觉很像早期的 Uber 时代：你可以花 3 美元就打到一辆高级黑车跨越整个旧金山，因为背后全是补贴。

Simon：我觉得现在有两股力量在角力。一方面，因为代码 Agent 的出现，重度用户消耗的 Token 数量是以前的 100 倍。如果你重度使用 Claude Code，你烧掉的算力远超去年的 ChatGPT，这直接导致了调价。

但另一方面，开源权重模型（尤其是中国的模型）在把价格往相反的方向拽。DeepSeek 比 Claude Opus 便宜 20 倍，但它的跑分表现可没比 Opus 弱 20 倍。你可以用他们的 API，也可以在自己的硬件上跑。

希望这些开源模型形成的力量能抵消掉那些急着 IPO 的公司想要赚取实际利润的冲动。但目前在定价方面，确实泡沫感很强。

Joseph：我认为涨价的时间点不是偶然的。去年年底，这些能让你在软件工程上大展拳脚的新模型发布了。现在是 2026 年 4 月，正好做完 Q1 季报。估计各公司的财务团队刚看完今年第一季度的 Token 账单，全都会惊掉下巴：“等等，这数字是怎么回事？”

Simon：光本周我们就迎来了两次大幅涨价。Opus 4.7 虽然单价没变，但分词器变了，处理同样内容的 Token 数多了 40%，相当于变相涨价。而 GPT 5.5 在 API 上的价格直接比 5.4 翻了一倍。这是我追踪价格以来波动最剧烈的一次。

Joseph：今年会是一个转折点。有远见的企业会意识到这些工具是未来，但他们必须开始计算投入产出比了，我们已经过完了“预算无上限”的蜜月期。通常新技术都要靠工程师苦苦哀求才能要到一点经费，但 AI 过去几年完全是反过来的。

Simon：唯一确定的是，以后不能再搞那种“Token 消耗排行榜”了。如果你不想让预算见底，千万别鼓励这种浪费。

Joseph：我第一次在媒体上看到有公司搞这种“Token 消耗王”排行榜时，就想这老板肯定从没试过给人类工程师定过可被“刷榜”的考核指标，他们即将学到极其昂贵的一课。

访谈原链接：

https://www.heavybit.com/library/podcasts/high-leverage/ep-9-the-ai-coding-paradigm-shift-with-simon-willison

创作场景

外行式 Vibe Coding 正跟专业的 Agent 工程走向融合：最吓人的是，我们“摆烂”有正当理由了？