构建 Coding Agent 的飞轮：Feedback Loop、Benchmark、Agent Engineers｜QCon北京

从「AI For What」到「Value From AI」，100+可落地实践案例打通 AI 实战最后一公里！

4 月 16 日-4 月 18 日，QCon 全球软件开发大会将在北京举办。本届大会锚定 Agentic AI 时代的软件工程重塑，聚焦 Agentic AI、多智能体协作、算力优化、技术债治理、多模态和 AI 原生基础设施等前沿话题，邀请来自腾讯、阿里、百度、华为、蚂蚁、小米、网易等企业技术专家，带来百余项真实落地案例，系统性分享前沿洞察与实战干货，以技术共创探索 AI 落地新路径。

百度文心快码研发经理牛万鹏已确认出席 “Coding Agent 驱动的研发新范式” 专题，并发表题为《构建 Coding Agent 的飞轮：Feedback Loop、Benchmark、Agent Engineers》的主题分享。随着 Coding Agent 走向真实研发流程，越来越多团队发现问题并不在模型能力，而在于 Agent 难以持续优化：行为不可控、效果不可量化、优化高度依赖少数专家。本次分享将结合实际落地经验，介绍文心快码如何通过 Feedback Loop、Benchmark 与 Agent Engineers 构建一个可运转的 Coding Agent 飞轮。通过工程化的反馈闭环采集 Agent 的真实使用信号，引入贴近生产环境的场景化 Benchmark，对 Agent 行为进行持续评测，并推动研发团队整体转型为 Agent Engineers，使 Agent 的设计、评测与演进成为日常工程活动的一部分。

牛万鹏，百度文心快码智能体负责人。早期负责 DevOps 工具的孵化和落地，涵盖项目管理、代码管理、流水线、制品库、应用部署、运维管理等平台建设和商业化。现负责百度研发智能化，在研发智能化领域申请国内外发明专利 10+。工信部重点科研项目『基于大模型技术的工业领域智能化开发工具」核心成员。他在本次会议的详细演讲内容如下：

演讲提纲
背景与问题
Coding Agent 在真实工程中遇到的三个问题：不可控 / 不可评测 / 不可规模化
为什么“模型更强”并不能解决这些问题
2. Feedback Loop：让 Agent 的行为可观测
如何采集真实使用反馈，而不是只看显式评分
结构化记录 Agent 决策、工具调用和用户采纳行为
3. Benchmark：评测比生成更难
通用 Benchmark 与真实研发场景的差距
构建场景化、多维度 Benchmark 的实践
4. Agent Engineers：人如何进入飞轮
不再区分前后端/算法/平台角色
研发人员统一参与 Agent 的设计、评测与优化
5. 飞轮如何跑起来
Feedback Loop 提供信号
Benchmark 指导优化
Agent Engineers 承接持续演进
这样的技术在实践过程中有哪些痛点？
真实反馈难获取，且质量不稳定
离线评测结果难以指导线上优化
Agent 能力过度依赖个体经验
演讲亮点
从“调模型”转向“调系统”：多数方案聚焦模型或 Prompt，而本方案以工程闭环为核心，强调可观测、可评测、可回滚的 Agent 行为设计。
把“人”纳入飞轮，而不是排除人：不追求“全自动 Agent”，而是通过 Agent Engineers 的组织设计，让人持续参与 Agent 演进，避免黑盒化。
听众收益
一套可落地的 Coding Agent 工程实践框架
对 Agent 评测和反馈设计的实战认知
对 Agent 时代研发组织演进的可操作思路

除此之外，本次大会还策划了Agentic Engineering、多模态理解与生成的突破、记忆觉醒：智能体记忆系统的范式重塑与产业落地、具身智能与物理世界交互、Agent Infra 架构设计、AI 重塑数据生产与消费、AI 原生基础设施、AI 驱动的技术债治理、小模型与领域适配模型、大模型算力优化、Agent 可观测性与评估工程、AI for SRE等 20 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京站现场带来前沿技术洞察和一线实践经验。

大会日程已 100%上线，更多详情可扫码或联系票务经理 18514549229 进行咨询。

创作场景

构建 Coding Agent 的飞轮：Feedback Loop、Benchmark、Agent Engineers｜QCon 北京