
为了解决低代码使用门槛太高,效率低的问题,2023 年网易 CodeWave 相继完成了多种低代码 + AIGC 能力的研发,并成功商业交付了多个项目,但交付过程中发现,私有化模型的能力与 GPT 差距较大,且难以量化 AI 提效结果,同时 D2C 也面临识别准确率不高,难以商业化交付的问题。
近日,在 InfoQ 主办的 QCon 全球软件开发大会(北京站)上,网易数智低代码平台 CodeWave 技术负责人姜天意带来了主题为“从可演示到可交付 - 网易 CodeWave AIGC 商业落地实践”的精彩分享。他围绕如何提升 CodeWave AIGC 的商业化交付能力展开探讨,重点介绍了如何通过数据化手段量化评估当前 AI 效果,分析现有能力瓶颈,并基于真实业务场景构建自定义语言模型和 AI 工程化体系。此外,他还分享了如何融合多模态大模型能力与 Pipeline 架构,重塑 D2C(Design-to-Code)技术路径,实现更高质量的代码生成与交互体验,给听众带来了度量和提升 AIGC 能力最佳实践的启示。

本文为姜天意老师的演讲实录整理。
AI 编程快速演进,发展到了什么程度?
过去几年,AI 在编程领域的发展呈现出快速演进的趋势。
在 2022 年,以 GitHub Copilot 为代表的编程辅助工具首先兴起,为开发者提供了智能补全与提示能力,成为提升开发效率的重要利器。随后,行业涌现出以 MasterGo、Figma 等工具为代表的多模态辅助应用,结合大模型能力,实现了基于设计稿、图像等输入的自动化生成,推动了 AI 在更丰富媒介形态中的应用探索。2023 年,市场上也出现了如 Devin、MetaGPT、GPT-Engineer 等自主智能体工具,试图从自动推理、任务分解到代码生成,实现端到端的开发,但受限于大模型能力不足,实际落地效果仍不理想。今年以来,AI 工具如 Cursor、V0 等开始重新定义 IDE 的形态,为未来的软件开发模式变革提供了新的可能性。

尽管如此,姜天意在分享中指出,在 To B 场景下,大模型仍难以支撑完整的应用开发流程。自然语言本身存在表达模糊、上下文缺失等问题,难以准确描述复杂系统的业务逻辑。特别是在 ERP、CRM 等企业级场景中,全自动智能体模式难以有效落地。此外,编程大模型擅长处理通用问题,但对个性化的企业开发框架、架构设计和领域知识掌握较差。
对企业来说,借助新的技术实现降本增效始终是数字化团队的核心诉求之一。而编程大模型生成的代码,仍需要专业开发者的补充、修改,没有降低企业中软件开发的门槛。
以 CodeWave 为例的智能编程实现思路
为了充分利用 AI 大模型能力,同时满足企业开发降本增效的诉求,CodeWave 以可视化开发+AI 的模式实现 AI 赋能开发。
从实现的技术架构来看,网易 CodeWave 通过构建统一的 NASL 语言(网易用于描述 Web 应用的领域特定语言),定义 web 应用相关的概念如页面、逻辑、数据定义、数据查询、流程等,并配备对应的可视化设计器。平台配备 language server 完成类型检查、查找引用、静态补全、批量重命名等动作,并支持导出源码,脱离平台运行。
同时,平台将 AI 能力主要体现在可视化设计器的 AI 交互输入,开发者通过自然语言输入,平台就可以完成任务拆解、意图识别、生成对应的图形化界面。

以下方视频举例,开发者需要新增产品管理界面,只需输入“创建新增产品信息按钮,点击后打开添加产品信息的弹窗,弹窗内可填写产品信息并保存”,CodeWave 能通过多轮对话确认需求信息,确认执行后,平台可自动生成 NASL 结构代码并实现前端、后端、逻辑的全栈生成与即时预览。
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
在解决自然语言需求到实际应用实现的过程中,CodeWave 核心解决了几大问题:
首先,便是用多智能体协同的 AI 生成架构解决自然语言的模糊性问题。在智能体设计上,CodeWave 融合了两种常见的智能体模式:ReAct 和 Plan and Execute,这两种智能体组合在一起,拆解、细分判断开发者需求描述与平台对应的模块,来应对复杂规划和细节控制的问题。
ReAct 智能体:它的工作方式是「先推理,再执行,再获取反馈」,可以灵活应对复杂对话和任务过程中的变化,非常适合动态交互场景。
Plan and Execute 智能体:则强调「先规划,再执行」。在需求较长、逻辑较重的开发任务中,它能保证整体流程的条理清晰、任务拆解明确。
其次,为了提高 Prompt 工程质量,CodeWave 在系统设计中引入了 XML 标准化提示词结构。
通过将指令、数据、示例、格式要求分块标注,提升了大模型对提示内容的解析准确性,减少了因 Prompt 理解错误导致的输出异常。同时,标准化结构便于后期增量更新与处理,提高了整体系统的可维护性和扩展性。
第三,在交互流程上,CodeWave 采用了多阶段处理架构,确保了 AI 生成的内容可执行、可迭代:
需求澄清:通过与用户的多轮对话,确认自然语言中的模糊内容,生成明确的 Prompt;
代码生成:智能体根据澄清后的需求,调用已有的组件和工具,生成符合平台标准的 DSL 代码;
优化阶段:对生成质量进行增强,修正常见错误和不符合规范的地方;
规则检测与优化阶段:针对生成内容中的潜在逻辑错误、结构不合理、命名不规范等问题,自动进行修正与优化;
记忆整理:通过持续整理用户偏好、项目上下文信息,动态更新记忆体系,为后续迭代生成提供更高质量的基础。

第四、在资产管理方面,CodeWave 实现了混合召回机制,提升召回准确率:
简单场景下,使用大模型做快速召回,覆盖用户常见需求;
复杂场景下,采用 RAG(检索增强生成)策略,利用向量数据库召回当前项目中的组件、接口、逻辑模块等上下文信息。
整体来看,CodeWave 在智能体编程体系上,兼顾了局部灵活性与整体稳定性,通过工程化手段将自然语言输入转化为高质量、可交付的应用,显著提升了 AI 在实际开发流程中的可用性与交付价值。
如何借助大模型持续优化智能开发能力?
要让 AI 真正服务于低代码场景,只有“生成”远远不够,系统还需具备可量化评估、持续优化与工程部署的能力。为了支撑智能体编程的落地,CodeWave 构建了一套完整的数据驱动训练与优化体系,贯穿模型评估、数据构造、微调训练与服务架构四个核心环节。
首先,在模型评估方面,CodeWave 建立了低代码场景下专属的 Benchmark 测评体系。该体系参考 HumanEval+、MBPP+、CRUXEval 等行业通用评测集,结合 NASL 语言特性,设置了页面逻辑生成、服务端逻辑、D2C 生成、逻辑补全等多维度任务指标。通过定期跑测与线上数据回流,平台可持续量化模型的准确率、展示率、留存率,为模型迭代提供精准反馈。
为进一步提升底层能力的稳定性与泛化能力,CodeWave 也制定了模型基座选型的评估标准,重点关注三项核心能力:
代码生成能力:通过 HumanEval+、MBPP+ 等任务集评估模型生成完整函数逻辑的能力;
代码补全能力:基于 HumanEval-FIM、CrossCodeEval 等任务评估模型在 IDE 场景下的行级与块级代码补全效果;
代码推理能力:引入 CRUXEval 测试模型对输入与输出关系的语义理解能力,判断其是否具备逻辑推演能力而非表面匹配。
当前,CodeWave 已接入 Qwen2.5-Coder 作为核心模型基座,并根据不同下游任务的需求构建多模型支持体系。在具体集成过程中,平台注重模型通用能力与低代码语义的适配,通过统一的提示词结构与调用协议,降低模型替换与调度成本,为平台后续模型演进与多模型协同奠定了工程基础。
在微调训练阶段,平台采用了监督微调(SFT)结合偏好对齐(DPO)的方法。训练数据来源于开源代码集与平台自有业务数据,通过 OSS-Instruct 技术构造多样化指令样本,涵盖页面搭建、流程配置、表单生成等典型任务场景。所有数据均通过 NASL 沙箱执行验证,确保可执行性与语义准确性。基于这些高质量样本,平台首先进行 SFT 微调,再通过沙箱运行反馈构建正负样本三元组,执行 DPO 优化,使模型输出更符合实际开发者偏好。
考虑到企业级用户对稳定性与环境适配的高要求,CodeWave 在平台架构中构建了统一的 AI 服务管理体系。平台通过 AI 网关支持模型管理、版本切换与动态加载,兼容不同客户环境下的模型接入需求。无论是 SaaS 场景还是私有化部署,都能确保模型能力与平台一致性,提升交付效率与系统稳定性。

除了在视觉输入场景下推进自动化生成,CodeWave 也在代码逻辑补全方向进行了智能能力扩展。针对结构性逻辑编排、流程生成等任务,平台基于 DeepSeek 搭建了智能补全体系,支持包括框内块补全与线补全在内的多种补全方式。
姜天意特别指出,智能开发体系中并非所有能力模块都需要依赖大参数量的大模型,像代码补全这类局部结构性任务,充分利用轻量模型(如 DeepSeek 1.5B)即可在保持推理速度和响应能力,同时满足功能性需求,显著降低系统资源消耗和部署复杂度。通过合理匹配任务类型与模型规模,也让 CodeWave 在不同智能模块中实现了性能与成本的动态平衡。
整体来看,CodeWave 通过完善的 Benchmark 评估、系统化的数据构建、精细化的模型微调,以及统一灵活的工程部署体系,实现了低代码场景下 AI 能力的持续演进与商业化落地支撑。
智能开发能力在 D2C 场景中的实践
CodeWave 当前已覆盖 6 项智能开发能力,包括设计稿/截图转页面、智能代码生成、智能编程助手、智能代码解读、智能代码分析、智能 SQL 生成。
其中,设计稿/截图转页面,也就是常说的 D2C(Design-to-Code),是将界面设计自动转化为可交付低代码结构的能力,能极大提升前端界面开发效率,缩短从设计到上线的周期。D2C 能力面向设计协议文件或截图图像等视觉输入任务,通过建立视觉中间表示结构(IR 层)、调用多阶段识别模型,完成组件分类、布局还原与结构化生成。
在 D2C 能力建设上,CodeWave 坚持将信息幂等转换作为技术核心,即在不改变设计意图的前提下,实现界面布局与组件逻辑的自动转化,确保最终生成结果符合智能开发平台的标准体系。该能力已在实际项目中投入使用,成为平台在页面构建链路中重要的自动化能力之一。
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
在视觉处理层,CodeWave 支持来自 Sketch、Figma、MasterGo 等常见设计工具的多格式输入,通过构建视觉中间表示结构(IR 层),抽象提取页面元素的内容、属性、样式与层级。无论是原始设计文件还是截图图像,最终都将标准化为统一的 IR 表示,作为后续处理基础。

针对布局还原问题,CodeWave 研发了基于投影聚类与最小连通子树分析的布局算法,能够自动推断出组件的嵌套关系和层级结构。通过布局转换模块,将原本以绝对定位为主的设计稿,自动转化为符合 Web 响应式要求的弹性布局(Flex Layout),兼顾页面自适应与前端开发规范,避免传统切图模式带来的维护成本。
在组件识别阶段,CodeWave 采用了分阶段增强识别策略:
1. 利用传统计算机视觉(CV)算法进行边界检测和元素关系分析,清除干扰;
2. 引入深度学习模型识别复杂组件(如图表、动态表单等);
3. 结合专家规则系统对表格、搜索栏、轮播图等常用业务组件进行语义打标;
4. 对于识别盲区,调用多模态大模型进行兜底补充,进一步提升整体准确率与稳定性。
为了量化 D2C 系统在实际场景下的表现,CodeWave 建立了 D2C 专属的 Benchmark 评估体系。不同于模型训练时的通用评测标准,该评估聚焦于视觉结构识别与组件还原能力,涵盖从设计稿或截图生成 IR 协议的准确率评估、拉伸测试下的布局响应性评估,以及组件分类准确率测试等关键维度。实测结果显示,系统在标准化测试集中实现了布局匹配率 92%、组件识别率 98%以上,验证了 D2C 在实际交付场景中的可用性。

此外,针对客户在私有化部署中提出的定制化需求,CodeWave 通过多 Lora 微调技术,对特定组件识别(如复杂图表、多级表单)进行局部能力强化,确保 D2C 系统具备良好的可扩展性与定制灵活性。

通过多模态增强识别、组件级语义理解、结构层还原与标准化输出,CodeWave 已实现从设计稿到代码的闭环生成路径。作为六大能力中最依赖视觉理解与系统还原的一环,D2C 不仅打通了视觉资产向系统结构的转化链路,也显著提升了整体交付效率,推动智能开发从“能生成”走向“能接入、能交付”。
商业化落地经验与未来展望
在推动 AI+低代码商业化落地的过程中,CodeWave 总结了三条核心经验:
首先,所有 AI 功能的效果必须建立在可量化的数据支撑上。无论是自然语言生成逻辑、代码补全还是 D2C,CodeWave 都构建了统一的 Benchmark 体系,细化评估用例正确率、展示率、留存率、综合采纳率、平均提效率等指标,通过定期批量测试和线上实际使用观测,量化 AI 功能的真实价值,避免凭感觉决策。
其次,平台架构需具备可插拔、可灵活扩展能力,以适应不同客户环境下的私有化部署要求。CodeWave 通过 AI 网关实现模型管理与热切换,支持多版本模型的动态适配,同时在 Prompt 构建、数据回流、后处理优化等环节模块化设计,使平台在不同场景中都能快速响应和调整,保证交付的一致性与高可控性。
第三,要持续自我否定与迭代进化,紧跟开源社区和行业技术趋势。CodeWave 坚持持续 Benchmark 对标最新开源模型和工程实践,不断调整微调策略、训练流程、部署机制,确保平台在引入新技术时既能快速试错,又能保障功能稳定性,不断拓宽 AI 能力边界。
在演讲最后,姜天意也对 CodeWave 未来的发展方向进行了展望:

在视觉线(Vision)方向,将进一步强化 D2C 能力,提升设计稿/截图转页面的准确性,优化响应式布局生成,同时探索样式还原、应用风格一键迁移等功能,降低前端开发门槛。
在编程辅助线(Copilot)方向,将继续增强 NASL 大语言模型训练,提升自然语言生成逻辑的正确率与上下文理解能力,扩展代码补全和推荐功能覆盖更多细粒度场景。
在智能体线(Agent)方向,将完善智能体分流、任务拆解、纠错优化与记忆总结机制,强化智能体在复杂业务需求下的多轮对话与规划执行能力。
面向未来,随着大语言模型对软件开发流程的深度重塑,智能开发平台也在不断演进。CodeWave 将持续以工程化能力为基石,以数据驱动优化为核心,深耕 AI 与应用开发的融合,助力企业数字化转型走向更加智能与高效的新时代。
演讲嘉宾介绍
网易数智 CodeWave 低代码平台技术负责人,曾先后就职于阿里、腾讯,资深前端架构师,开源框架 Egg.js 的核心开发者之一。曾负责盒马数据可视化前端团队、腾讯云大数据平台前端团队、腾讯低代码开源项目逻辑编排方向等。
本文首发于网易 CodeWave 公众号,原文链接:https://mp.weixin.qq.com/s/NBP1sOTfmOySBwaaEjt6Bw
评论