从可演示到可交付——网易 CodeWave AI 提效开发的落地实践_AI&大模型

Data+AI时代，如何打造下一代数智平台？了解详情 



 写点什么



大小：2.81M时长：16:22

为了解决低代码使用门槛太高，效率低的问题，2023 年网易 CodeWave 相继完成了多种低代码 + AIGC 能力的研发，并成功商业交付了多个项目，但交付过程中发现，私有化模型的能力与 GPT 差距较大，且难以量化 AI 提效结果，同时 D2C 也面临识别准确率不高，难以商业化交付的问题。

近日，在 InfoQ 主办的 QCon 全球软件开发大会（北京站）上，网易数智低代码平台 CodeWave 技术负责人姜天意带来了主题为“从可演示到可交付 - 网易 CodeWave AIGC 商业落地实践”的精彩分享。他围绕如何提升 CodeWave AIGC 的商业化交付能力展开探讨，重点介绍了如何通过数据化手段量化评估当前 AI 效果，分析现有能力瓶颈，并基于真实业务场景构建自定义语言模型和 AI 工程化体系。此外，他还分享了如何融合多模态大模型能力与 Pipeline 架构，重塑 D2C（Design-to-Code）技术路径，实现更高质量的代码生成与交互体验，给听众带来了度量和提升 AIGC 能力最佳实践的启示。

本文为姜天意老师的演讲实录整理。

AI 编程快速演进，发展到了什么程度？

过去几年，AI 在编程领域的发展呈现出快速演进的趋势。

在 2022 年，以 GitHub Copilot 为代表的编程辅助工具首先兴起，为开发者提供了智能补全与提示能力，成为提升开发效率的重要利器。随后，行业涌现出以 MasterGo、Figma 等工具为代表的多模态辅助应用，结合大模型能力，实现了基于设计稿、图像等输入的自动化生成，推动了 AI 在更丰富媒介形态中的应用探索。2023 年，市场上也出现了如 Devin、MetaGPT、GPT-Engineer 等自主智能体工具，试图从自动推理、任务分解到代码生成，实现端到端的开发，但受限于大模型能力不足，实际落地效果仍不理想。今年以来，AI 工具如 Cursor、V0 等开始重新定义 IDE 的形态，为未来的软件开发模式变革提供了新的可能性。

尽管如此，姜天意在分享中指出，在 To B 场景下，大模型仍难以支撑完整的应用开发流程。自然语言本身存在表达模糊、上下文缺失等问题，难以准确描述复杂系统的业务逻辑。特别是在 ERP、CRM 等企业级场景中，全自动智能体模式难以有效落地。此外，编程大模型擅长处理通用问题，但对个性化的企业开发框架、架构设计和领域知识掌握较差。

对企业来说，借助新的技术实现降本增效始终是数字化团队的核心诉求之一。而编程大模型生成的代码，仍需要专业开发者的补充、修改，没有降低企业中软件开发的门槛。

以 CodeWave 为例的智能编程实现思路

为了充分利用 AI 大模型能力，同时满足企业开发降本增效的诉求，CodeWave 以可视化开发+AI 的模式实现 AI 赋能开发。

从实现的技术架构来看，网易 CodeWave 通过构建统一的 NASL 语言（网易用于描述 Web 应用的领域特定语言），定义 web 应用相关的概念如页面、逻辑、数据定义、数据查询、流程等，并配备对应的可视化设计器。平台配备 language server 完成类型检查、查找引用、静态补全、批量重命名等动作，并支持导出源码，脱离平台运行。

同时，平台将 AI 能力主要体现在可视化设计器的 AI 交互输入，开发者通过自然语言输入，平台就可以完成任务拆解、意图识别、生成对应的图形化界面。

以下方视频举例，开发者需要新增产品管理界面，只需输入“创建新增产品信息按钮，点击后打开添加产品信息的弹窗，弹窗内可填写产品信息并保存”，CodeWave 能通过多轮对话确认需求信息，确认执行后，平台可自动生成 NASL 结构代码并实现前端、后端、逻辑的全栈生成与即时预览。

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

在解决自然语言需求到实际应用实现的过程中，CodeWave 核心解决了几大问题：

首先，便是用多智能体协同的 AI 生成架构解决自然语言的模糊性问题。在智能体设计上，CodeWave 融合了两种常见的智能体模式：ReAct 和 Plan and Execute，这两种智能体组合在一起，拆解、细分判断开发者需求描述与平台对应的模块，来应对复杂规划和细节控制的问题。

ReAct 智能体：它的工作方式是「先推理，再执行，再获取反馈」，可以灵活应对复杂对话和任务过程中的变化，非常适合动态交互场景。
Plan and Execute 智能体：则强调「先规划，再执行」。在需求较长、逻辑较重的开发任务中，它能保证整体流程的条理清晰、任务拆解明确。

其次，为了提高 Prompt 工程质量，CodeWave 在系统设计中引入了 XML 标准化提示词结构。

通过将指令、数据、示例、格式要求分块标注，提升了大模型对提示内容的解析准确性，减少了因 Prompt 理解错误导致的输出异常。同时，标准化结构便于后期增量更新与处理，提高了整体系统的可维护性和扩展性。

第三，在交互流程上，CodeWave 采用了多阶段处理架构，确保了 AI 生成的内容可执行、可迭代：

需求澄清：通过与用户的多轮对话，确认自然语言中的模糊内容，生成明确的 Prompt；
代码生成：智能体根据澄清后的需求，调用已有的组件和工具，生成符合平台标准的 DSL 代码；
优化阶段：对生成质量进行增强，修正常见错误和不符合规范的地方；
规则检测与优化阶段：针对生成内容中的潜在逻辑错误、结构不合理、命名不规范等问题，自动进行修正与优化；
记忆整理：通过持续整理用户偏好、项目上下文信息，动态更新记忆体系，为后续迭代生成提供更高质量的基础。

第四、在资产管理方面，CodeWave 实现了混合召回机制，提升召回准确率：

简单场景下，使用大模型做快速召回，覆盖用户常见需求；
复杂场景下，采用 RAG（检索增强生成）策略，利用向量数据库召回当前项目中的组件、接口、逻辑模块等上下文信息。

整体来看，CodeWave 在智能体编程体系上，兼顾了局部灵活性与整体稳定性，通过工程化手段将自然语言输入转化为高质量、可交付的应用，显著提升了 AI 在实际开发流程中的可用性与交付价值。

如何借助大模型持续优化智能开发能力？

要让 AI 真正服务于低代码场景，只有“生成”远远不够，系统还需具备可量化评估、持续优化与工程部署的能力。为了支撑智能体编程的落地，CodeWave 构建了一套完整的数据驱动训练与优化体系，贯穿模型评估、数据构造、微调训练与服务架构四个核心环节。

首先，在模型评估方面，CodeWave 建立了低代码场景下专属的 Benchmark 测评体系。该体系参考 HumanEval+、MBPP+、CRUXEval 等行业通用评测集，结合 NASL 语言特性，设置了页面逻辑生成、服务端逻辑、D2C 生成、逻辑补全等多维度任务指标。通过定期跑测与线上数据回流，平台可持续量化模型的准确率、展示率、留存率，为模型迭代提供精准反馈。

为进一步提升底层能力的稳定性与泛化能力，CodeWave 也制定了模型基座选型的评估标准，重点关注三项核心能力：

代码生成能力：通过 HumanEval+、MBPP+ 等任务集评估模型生成完整函数逻辑的能力；
代码补全能力：基于 HumanEval-FIM、CrossCodeEval 等任务评估模型在 IDE 场景下的行级与块级代码补全效果；
代码推理能力：引入 CRUXEval 测试模型对输入与输出关系的语义理解能力，判断其是否具备逻辑推演能力而非表面匹配。

当前，CodeWave 已接入 Qwen2.5-Coder 作为核心模型基座，并根据不同下游任务的需求构建多模型支持体系。在具体集成过程中，平台注重模型通用能力与低代码语义的适配，通过统一的提示词结构与调用协议，降低模型替换与调度成本，为平台后续模型演进与多模型协同奠定了工程基础。

在微调训练阶段，平台采用了监督微调（SFT）结合偏好对齐（DPO）的方法。训练数据来源于开源代码集与平台自有业务数据，通过 OSS-Instruct 技术构造多样化指令样本，涵盖页面搭建、流程配置、表单生成等典型任务场景。所有数据均通过 NASL 沙箱执行验证，确保可执行性与语义准确性。基于这些高质量样本，平台首先进行 SFT 微调，再通过沙箱运行反馈构建正负样本三元组，执行 DPO 优化，使模型输出更符合实际开发者偏好。

考虑到企业级用户对稳定性与环境适配的高要求，CodeWave 在平台架构中构建了统一的 AI 服务管理体系。平台通过 AI 网关支持模型管理、版本切换与动态加载，兼容不同客户环境下的模型接入需求。无论是 SaaS 场景还是私有化部署，都能确保模型能力与平台一致性，提升交付效率与系统稳定性。

除了在视觉输入场景下推进自动化生成，CodeWave 也在代码逻辑补全方向进行了智能能力扩展。针对结构性逻辑编排、流程生成等任务，平台基于 DeepSeek 搭建了智能补全体系，支持包括框内块补全与线补全在内的多种补全方式。

姜天意特别指出，智能开发体系中并非所有能力模块都需要依赖大参数量的大模型，像代码补全这类局部结构性任务，充分利用轻量模型（如 DeepSeek 1.5B）即可在保持推理速度和响应能力，同时满足功能性需求，显著降低系统资源消耗和部署复杂度。通过合理匹配任务类型与模型规模，也让 CodeWave 在不同智能模块中实现了性能与成本的动态平衡。

整体来看，CodeWave 通过完善的 Benchmark 评估、系统化的数据构建、精细化的模型微调，以及统一灵活的工程部署体系，实现了低代码场景下 AI 能力的持续演进与商业化落地支撑。

智能开发能力在 D2C 场景中的实践

CodeWave 当前已覆盖 6 项智能开发能力，包括设计稿/截图转页面、智能代码生成、智能编程助手、智能代码解读、智能代码分析、智能 SQL 生成。

其中，设计稿/截图转页面，也就是常说的 D2C（Design-to-Code），是将界面设计自动转化为可交付低代码结构的能力，能极大提升前端界面开发效率，缩短从设计到上线的周期。D2C 能力面向设计协议文件或截图图像等视觉输入任务，通过建立视觉中间表示结构（IR 层）、调用多阶段识别模型，完成组件分类、布局还原与结构化生成。

在 D2C 能力建设上，CodeWave 坚持将信息幂等转换作为技术核心，即在不改变设计意图的前提下，实现界面布局与组件逻辑的自动转化，确保最终生成结果符合智能开发平台的标准体系。该能力已在实际项目中投入使用，成为平台在页面构建链路中重要的自动化能力之一。

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

在视觉处理层，CodeWave 支持来自 Sketch、Figma、MasterGo 等常见设计工具的多格式输入，通过构建视觉中间表示结构（IR 层），抽象提取页面元素的内容、属性、样式与层级。无论是原始设计文件还是截图图像，最终都将标准化为统一的 IR 表示，作为后续处理基础。

针对布局还原问题，CodeWave 研发了基于投影聚类与最小连通子树分析的布局算法，能够自动推断出组件的嵌套关系和层级结构。通过布局转换模块，将原本以绝对定位为主的设计稿，自动转化为符合 Web 响应式要求的弹性布局（Flex Layout），兼顾页面自适应与前端开发规范，避免传统切图模式带来的维护成本。

在组件识别阶段，CodeWave 采用了分阶段增强识别策略：

1. 利用传统计算机视觉（CV）算法进行边界检测和元素关系分析，清除干扰；

2. 引入深度学习模型识别复杂组件（如图表、动态表单等）；

3. 结合专家规则系统对表格、搜索栏、轮播图等常用业务组件进行语义打标；

4. 对于识别盲区，调用多模态大模型进行兜底补充，进一步提升整体准确率与稳定性。

为了量化 D2C 系统在实际场景下的表现，CodeWave 建立了 D2C 专属的 Benchmark 评估体系。不同于模型训练时的通用评测标准，该评估聚焦于视觉结构识别与组件还原能力，涵盖从设计稿或截图生成 IR 协议的准确率评估、拉伸测试下的布局响应性评估，以及组件分类准确率测试等关键维度。实测结果显示，系统在标准化测试集中实现了布局匹配率 92%、组件识别率 98%以上，验证了 D2C 在实际交付场景中的可用性。

此外，针对客户在私有化部署中提出的定制化需求，CodeWave 通过多 Lora 微调技术，对特定组件识别（如复杂图表、多级表单）进行局部能力强化，确保 D2C 系统具备良好的可扩展性与定制灵活性。

通过多模态增强识别、组件级语义理解、结构层还原与标准化输出，CodeWave 已实现从设计稿到代码的闭环生成路径。作为六大能力中最依赖视觉理解与系统还原的一环，D2C 不仅打通了视觉资产向系统结构的转化链路，也显著提升了整体交付效率，推动智能开发从“能生成”走向“能接入、能交付”。

商业化落地经验与未来展望

在推动 AI+低代码商业化落地的过程中，CodeWave 总结了三条核心经验：

首先，所有 AI 功能的效果必须建立在可量化的数据支撑上。无论是自然语言生成逻辑、代码补全还是 D2C，CodeWave 都构建了统一的 Benchmark 体系，细化评估用例正确率、展示率、留存率、综合采纳率、平均提效率等指标，通过定期批量测试和线上实际使用观测，量化 AI 功能的真实价值，避免凭感觉决策。

其次，平台架构需具备可插拔、可灵活扩展能力，以适应不同客户环境下的私有化部署要求。CodeWave 通过 AI 网关实现模型管理与热切换，支持多版本模型的动态适配，同时在 Prompt 构建、数据回流、后处理优化等环节模块化设计，使平台在不同场景中都能快速响应和调整，保证交付的一致性与高可控性。

第三，要持续自我否定与迭代进化，紧跟开源社区和行业技术趋势。CodeWave 坚持持续 Benchmark 对标最新开源模型和工程实践，不断调整微调策略、训练流程、部署机制，确保平台在引入新技术时既能快速试错，又能保障功能稳定性，不断拓宽 AI 能力边界。

在演讲最后，姜天意也对 CodeWave 未来的发展方向进行了展望：

在视觉线（Vision）方向，将进一步强化 D2C 能力，提升设计稿/截图转页面的准确性，优化响应式布局生成，同时探索样式还原、应用风格一键迁移等功能，降低前端开发门槛。
在编程辅助线（Copilot）方向，将继续增强 NASL 大语言模型训练，提升自然语言生成逻辑的正确率与上下文理解能力，扩展代码补全和推荐功能覆盖更多细粒度场景。
在智能体线（Agent）方向，将完善智能体分流、任务拆解、纠错优化与记忆总结机制，强化智能体在复杂业务需求下的多轮对话与规划执行能力。

面向未来，随着大语言模型对软件开发流程的深度重塑，智能开发平台也在不断演进。CodeWave 将持续以工程化能力为基石，以数据驱动优化为核心，深耕 AI 与应用开发的融合，助力企业数字化转型走向更加智能与高效的新时代。

演讲嘉宾介绍

网易数智 CodeWave 低代码平台技术负责人，曾先后就职于阿里、腾讯，资深前端架构师，开源框架 Egg.js 的核心开发者之一。曾负责盒马数据可视化前端团队、腾讯云大数据平台前端团队、腾讯低代码开源项目逻辑编排方向等。

本文首发于网易 CodeWave 公众号，原文链接：https://mp.weixin.qq.com/s/NBP1sOTfmOySBwaaEjt6Bw

发布

暂无评论

创作场景