《把99.9% 代码交给 AI ：腾讯云一次“吃狗粮”的工程实验》

2026 年初，一场关于研发效率的“暴力实验”在腾讯云内部秘密收官。

这场试验的主角是 AI 编程工具 CodeBuddy 的 2.0 版本升级。按照大厂传统的研发步调，这类架构级的演进通常需要一年；但最终，腾讯云仅动用了 4 名工程师，在 4 个月内便完成了任务。

更具冲击力的是，在整个开发过程中：99%的代码由 AI 生成。

“AI 写了多少代码，其实是最不重要的指标，”CodeBuddy 团队在内部复盘时直言不讳。行业正集体从“代码生成率”的虚假繁荣，转向对“研发吞吐量”的硬核追求。

AI Coding 早已越过“辅助工具”的边界，从需求拆解、方案设计，到代码执行、测试验证，AI 正在参与研发流程的每一个环节，成为执行主力；而人则退到关键节点，负责判断、校验与兜底。

这种角色的转变，倒逼团队去解决那个最折磨人的工程难题：如何为 AI 搭建一个可执行、可校验、可持续迭代的工程化环境？

让 AI 明确意图、组织高质量上下文、注重第一行代码、让多 Agent 分工协作以提升效率，这些关键问题，都在重新定义人与 AI 的协作边界。

Code Buddy 的这次升级，正是在这些问题上不断试错的过程。进入 2026 年，大厂已经形成一个共同竞逐方向：如何让 AI 自主、稳定地完成“超长周期任务”。

（1）如何让 AI 精准理解意图

Vibe Coding 流行时，开发者沉浸在“几句话生成一个 App”的爽感里。然而，进入 2025 年，这种新鲜感正迅速被一种集体的焦虑所取代：当项目从 0 到 1 的“小样”变成从 1 到 100 的“工程”时，AI 突然失灵了。

可控性不足、上下文爆炸、逻辑漂移……这些问题让 AI 编程工具卡在了规模化的门口。

AI 无法可靠交付，核心症结在于意图对齐的失效。自然语言灵活却多义，如果不给足背景，AI 只能靠“猜”

为了终结这种低效的博弈，微软在 2025 年推行 Spec Kit，将规约编程带入主流视野。其核心逻辑是将开发解构为严密的五阶链条：宪章、需求、架构、任务、实现。

在 AI 敲下第一行代码前，必须先生成一份可执行的“规格说明书”。这让 AI 从一个漫无目的的写手，变成了一个严格按图索骥的木工，开始“指哪打哪”。

但在实际交付中，Spec 的落地却十分艰难。腾讯 CodeBuddy 团队为此踩了不少坑：

• 人性的博弈： 工程师极度抵触写 Spec。拆解任务本身就极度烧脑，一旦项目工期收紧，团队往往直接绕过文档改代码。最终，文档与实现彻底脱节，前期的 Spec 投入沦为废纸。

• 业务的盲区： 很多时候，不是 AI 没理解，而是人自己也没有把需求想清楚：目标、边界、异常处理、验收标准本来就是模糊的。即便写成 Spec，也未必真正“可执行”，很多文档只是把模糊需求重新整理了一遍，并没有转化为可拆解、可验证的约束。尤其在复杂业务里，AI 能检索信息，却难以理解隐含规则和潜在前提。

对此，腾讯 CodeBuddy 团队针对性给出解决路径，面对工程师的抵触心理，先通过强制执行规范，并在内部建立吃狗粮小群，用效率带动大家的参与积极性；同时，建立项目级指导原则明确隐性信息，再通过“审阅-挑战-修正”循环审查 AI 生成的 Spec，将大需求拆分为小而明确、可快速交付的子任务，把所有代码变更纳入 Spec 管理以避免文档与实现脱节；在工期紧张时，将 Spec 作为高压下的决策工具，通过量化影响、取舍需求、拆解并行任务提升效率，平衡规范与进度，化解工程师抵触情绪，填补业务盲区，让 Spec 真正落地见效。

Spec 的作用是降低歧义、固定边界、提供验收基线，但它不是一张写完就能照着施工的完美图纸。真实项目里，Spec 往往需要边做边补、边执行边修，否则很快就会和代码脱节，最后重新沦为形式文档。

要实现高质量、结构化的上下文，仅有 Spec 远远不够。在 CodeBuddy 团队看来，他们的核心做法是以 Agentic Coding 为核心：先通过 Spec 将需求、边界与规则固化，再将执行环节交由智能体负责，由智能体在执行过程中持续拆分任务、补齐缺失信息，并主动发起疑问，确保整个开发流程高效且精准。

不过，CodeBuddy 团队也发现，真正进入复杂工程场景后，有一些问题即使被识别出来，短期内也很难找到成熟解法。

比如，随着项目规模扩张，“上下文爆炸”成为了致命伤。理论上 AI 掌握的信息越多越好，但大量冗余信息一股脑塞入 Context，反而会干扰模型判断，导致 AI “变傻”或偏离目标。

面对瓶颈，CodeBuddy 给出了一套解耦研发流的工程化方案：研发流程本身就是解耦的，不必让 AI 一次性“吞下整个项目”。在每个任务流完成后主动清理上下文，只保留当前必需信息，从源头避免信息冗余带来的状态漂移。

AI 在执行拆解好的任务时，还会出现跳过任务、漏勾选任务，或者在没有满足验收条件的情况下错误地标记完成。而每个环节本来还有赖于人的检查、把关与修正，可以在 AI 做不好时重新校准，但人的懒惰性，反倒成了短期内难以突破的症结。

说到底，Spec 本质上是在逼人把原本模糊、偷懒那部分工作补上。

如果这些问题能够被逐步解决，那么可复用的优质 workflow 才有可能在更多企业真正落地，AI 也才可能更深地嵌入研发流程，让团队从“高速生成”走向“高质量生成”。

（2）把握好第一行代码是关键

在软件工程中，存在一个幽灵般的定律——“代码腐化”。系统迭代越多，复杂度越高，稳定性便越脆弱。而当 AI 介入后，这场腐化正在以指数级速度提前到来：如果第一步走歪了，AI 会以前所未有的效率将错误放大。

2025 年的一项研究揭示了 AI 编程残酷的一面。论文《Security Degradation in Iterative AI Code Generation》对 400 个代码样本进行了 40 轮连续优化测试。结果令人心惊：仅经过 5 轮迭代，关键安全漏洞就激增了 37.6%。

这种现象在多轮对话中尤为明显。Salesforce 研究员 Philippe Laban 在其最新研究中指出，随着对话轮次增加，大模型的逻辑表现平均跌幅达 39%。这意味着模型一旦早期走错，后面往往“越改越回不来”。

正因为这样，在 AI Coding 的研发流程里，最重要的是第一行代码。LLM 本质上是一个模仿和条件生成系统，它特别依赖初始约束（即 system prompt），而企业级研发中，这种初始约束的核心载体，就是项目的第一行代码。

第一行代码的核心价值，本质上考验的是“代码品味”。这对研发者提出了更高要求，经验足够的工程师，往往能在项目一开始就把方向卡住；但对经验没那么多的新人来说，最难的恰恰就是这一步。

为了对抗这种不确定性，头部大厂正在将“品味”工程化。腾讯云内部把项目初期的代码搭建标准化，尽量减少开发者对个人经验的依赖：先把结构、规范和质量门槛定下来，再让后续开发在这个基础上继续迭代。

无独有偶，OpenAI 在今年 2 月发布的《Harness engineering: leveraging Codex in an agent-first world》披露类似的思路，团队会通过自定义代码检查器、结构测试等方式，约束初始代码的写法，同时配合一组相对稳定的“品味不变式”，尽量让系统从一开始就沿着统一的结构演化。

所谓“品味不变式”，可以理解为代码里的“固定习惯”或“基础审美”。因为 AI 很容易为了尽快完成眼前的小功能，临时拼凑出一段能跑的代码，但这样做的代价，往往是整个系统的结构越来越乱：风格不统一、逻辑重复、模块互相缠绕，后面越改越难。

它强制要求 AI 在每一行代码中守住三个维度的“品味”：

• 一个模块只做一件事：

如果 AI 试图在同一个函数里既处理数据，又写业务逻辑，还顺手管日志和错误处理，系统就会拦下来。这样做是为了避免代码越写越臃肿，保证每个部分职责清晰，后面改起来不容易牵一发动全身。

• 不要一上来就过度设计：

AI 特别容易“想太多”，明明只是一个简单功能，却先搭一堆抽象层、通用接口和复杂结构，看起来高级，实际上很难维护。OpenAI 的规则是：除非同样的模式反复出现，否则不要急着抽象，先把事情做简单、做直接。

• 关键的错误处理和日志不能漏：

尤其在异步或复杂系统里，AI 很容易把这些“看不见但很重要”的部分省掉。于是 OpenAI 要求，生成的代码必须遵守统一的错误处理和追踪方式，确保系统以后出了问题，至少还能查得到、定位得了。

OpenAI 也承认，没有人能保证，一个大量由 AI 生成的系统，几年之后还能不能始终保持结构稳定。但至少在当下，行业里已经形成一个越来越明确的共识：AI 生成得越快，就越需要更强的规则、工具和反馈机制，来约束它一开始往哪里长。

（3）白天写代码，晚上修代码

当 AI 能够精准理解意图、初始代码质量得到保障后，如何解决“高速生成与质量稳定的矛盾”，成为 AI 编程规模化落地的最终保障。

腾讯云内部，将这套人机协作的模式总结成一句话“白天用时间换效率，晚上用效率换时间”。

这听起来像是一种工业时代的轮班制，但在 AI 时代，它精准地描述了高效研发的闭环。白天，开发者与 AI 并肩作战，利用高频交互将功能快速推向前线；而到了深夜，当人类离线，真正的“质量治理”才刚刚开始——Agent 集群接管了战场，开始对白天高速生成、略显粗糙的代码进行一场彻头彻尾的“外科手术”。

之所以没有把这套模式直接搬到白天，一个很重要的原因是：Agent 虽然细，但也慢。

在具体实践中，他们会让多个 Agent 分别扮演不同角色，从不同角度分析和优化同一批代码。比如，有的 Agent 看架构，有的看代码质量，有的补测试，有的查性能，有的看前端，有的看后端。它们先各自提出问题和修改建议，再把结果汇总，由执行 Agent 或开发者统一落地。

这个灵感来自 Anthropic 最新推出的 Agent Teams 功能，即并行跑多个 Claude，充当不同的技术专家，每一个 Agent 都拥有相对独立的上下文和工具权限，并且在需要时能交换信息。

其出发点，是避免单一 AI 会话在处理大规模复杂项目时，随着上下文不断累积，出现理解偏移、推理变钝和串行执行效率下降的问题。Claude Code 能够保持每个执行单元的“智商”处于巅峰状态，尤其适合放在夜间做代码优化和质量治理。

这背后对应的，是 AI 编程领域一个更底层的分歧：复杂的软件开发，究竟应该交给一个足够强、持有完整上下文的单 Agent，还是交给多个分工明确的 Agent 协同完成。

单 Agent 的逻辑很直接。写代码本来就是一个强一致性的活：同一个文件，不适合很多人同时改；上下文一散，风格、接口、约束就容易乱；如果还要多做一层协调，成本可能比收益更高。

所以过去很长一段时间里，很多团队更倾向于让一个足够强的 agent 持有完整上下文，统一理解需求、生成代码、执行修改，再完成自检。

但后来人们发现，单 Agent 再强，本质上也只是沿着一条提示路径、一种任务理解往下走，上限较为有限。

而多 Agent 其实不一定需要多个模型同时去改同一段代码，还可以把复杂任务拆开，让不同 Agent 从不同角色、不同层级看同一个问题，再通过汇总和筛选形成更完整的方案。比如“第一行代码”，就可以有不同的版本，有可能形成一个比单 Agent 更完整、更高质量的答案。

这套机制真正想解决的，正是怎么系统性治理代码质量下降和软件工程失控。

腾讯云的“AI 自举实验”收官，标志着 AI 编程正式告别“野蛮生长”，进入“工程化深耕”的新阶段。行业早已达成共识：AI Coding 的核心不是“快”，而是“稳”；胜负手不是“代码生成率”，而是“工程化能力”。

上下文的解耦、初始代码的规范、多 Agent 的协同，这些看似琐碎的工程细节，恰恰是 AI 从“辅助工具”跃升为“核心生产力”的关键。当 AI 能稳定理解意图、守住代码品味、保障交付质量，它所改变的，将不只是研发效率，更是整个软件行业的生产组织方式——而这场变革，才刚刚开始。

参考资料：

https://www.codebuddy.cn/blog/11

https://openai.com/zh-Hans-CN/index/harness-engineering/

创作场景

《把 99.9% 代码交给 AI ：腾讯云一次“吃狗粮”的工程实验》