写点什么

从可演示到可交付——网易 CodeWave AI 提效开发的落地实践

姜天意

  • 2025-04-30
    北京
  • 本文字数:5598 字

    阅读完需:约 18 分钟

大小:2.81M时长:16:22
从可演示到可交付——网易 CodeWave AI 提效开发的落地实践

为了解决低代码使用门槛太高,效率低的问题,2023 年网易 CodeWave 相继完成了多种低代码 + AIGC 能力的研发,并成功商业交付了多个项目,但交付过程中发现,私有化模型的能力与 GPT 差距较大,且难以量化 AI 提效结果,同时 D2C 也面临识别准确率不高,难以商业化交付的问题。


近日,在 InfoQ 主办的 QCon 全球软件开发大会(北京站)上,网易数智低代码平台 CodeWave 技术负责人姜天意带来了主题为“从可演示到可交付 - 网易 CodeWave AIGC 商业落地实践”的精彩分享。他围绕如何提升 CodeWave AIGC 的商业化交付能力展开探讨,重点介绍了如何通过数据化手段量化评估当前 AI 效果,分析现有能力瓶颈,并基于真实业务场景构建自定义语言模型和 AI 工程化体系。此外,他还分享了如何融合多模态大模型能力与 Pipeline 架构,重塑 D2C(Design-to-Code)技术路径,实现更高质量的代码生成与交互体验,给听众带来了度量和提升 AIGC 能力最佳实践的启示。



本文为姜天意老师的演讲实录整理。

AI 编程快速演进,发展到了什么程度?


过去几年,AI 在编程领域的发展呈现出快速演进的趋势。


在 2022 年,以 GitHub Copilot 为代表的编程辅助工具首先兴起,为开发者提供了智能补全与提示能力,成为提升开发效率的重要利器。随后,行业涌现出以 MasterGo、Figma 等工具为代表的多模态辅助应用,结合大模型能力,实现了基于设计稿、图像等输入的自动化生成,推动了 AI 在更丰富媒介形态中的应用探索。2023 年,市场上也出现了如 Devin、MetaGPT、GPT-Engineer 等自主智能体工具,试图从自动推理、任务分解到代码生成,实现端到端的开发,但受限于大模型能力不足,实际落地效果仍不理想。今年以来,AI 工具如 Cursor、V0 等开始重新定义 IDE 的形态,为未来的软件开发模式变革提供了新的可能性。



尽管如此,姜天意在分享中指出,在 To B 场景下,大模型仍难以支撑完整的应用开发流程。自然语言本身存在表达模糊、上下文缺失等问题,难以准确描述复杂系统的业务逻辑。特别是在 ERP、CRM 等企业级场景中,全自动智能体模式难以有效落地。此外,编程大模型擅长处理通用问题,但对个性化的企业开发框架、架构设计和领域知识掌握较差。


对企业来说,借助新的技术实现降本增效始终是数字化团队的核心诉求之一。而编程大模型生成的代码,仍需要专业开发者的补充、修改,没有降低企业中软件开发的门槛。

以 CodeWave 为例的智能编程实现思路


为了充分利用 AI 大模型能力,同时满足企业开发降本增效的诉求,CodeWave 以可视化开发+AI 的模式实现 AI 赋能开发。


从实现的技术架构来看,网易 CodeWave 通过构建统一的 NASL 语言(网易用于描述 Web 应用的领域特定语言),定义 web 应用相关的概念如页面、逻辑、数据定义、数据查询、流程等,并配备对应的可视化设计器。平台配备 language server 完成类型检查、查找引用、静态补全、批量重命名等动作,并支持导出源码,脱离平台运行。


同时,平台将 AI 能力主要体现在可视化设计器的 AI 交互输入,开发者通过自然语言输入,平台就可以完成任务拆解、意图识别、生成对应的图形化界面。



以下方视频举例,开发者需要新增产品管理界面,只需输入“创建新增产品信息按钮,点击后打开添加产品信息的弹窗,弹窗内可填写产品信息并保存”,CodeWave 能通过多轮对话确认需求信息,确认执行后,平台可自动生成 NASL 结构代码并实现前端、后端、逻辑的全栈生成与即时预览。

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    在解决自然语言需求到实际应用实现的过程中,CodeWave 核心解决了几大问题:


    首先,便是用多智能体协同的 AI 生成架构解决自然语言的模糊性问题。在智能体设计上,CodeWave 融合了两种常见的智能体模式:ReAct 和 Plan and Execute,这两种智能体组合在一起,拆解、细分判断开发者需求描述与平台对应的模块,来应对复杂规划和细节控制的问题。


    • ReAct 智能体:它的工作方式是「先推理,再执行,再获取反馈」,可以灵活应对复杂对话和任务过程中的变化,非常适合动态交互场景。

    • Plan and Execute 智能体:则强调「先规划,再执行」。在需求较长、逻辑较重的开发任务中,它能保证整体流程的条理清晰、任务拆解明确。


    其次,为了提高 Prompt 工程质量,CodeWave 在系统设计中引入了 XML 标准化提示词结构。

    通过将指令、数据、示例、格式要求分块标注,提升了大模型对提示内容的解析准确性,减少了因 Prompt 理解错误导致的输出异常。同时,标准化结构便于后期增量更新与处理,提高了整体系统的可维护性和扩展性。


    第三,在交互流程上,CodeWave 采用了多阶段处理架构,确保了 AI 生成的内容可执行、可迭代:

    • 需求澄清:通过与用户的多轮对话,确认自然语言中的模糊内容,生成明确的 Prompt;

    • 代码生成:智能体根据澄清后的需求,调用已有的组件和工具,生成符合平台标准的 DSL 代码;

    • 优化阶段:对生成质量进行增强,修正常见错误和不符合规范的地方;

    • 规则检测与优化阶段:针对生成内容中的潜在逻辑错误、结构不合理、命名不规范等问题,自动进行修正与优化;

    • 记忆整理:通过持续整理用户偏好、项目上下文信息,动态更新记忆体系,为后续迭代生成提供更高质量的基础。


    第四、在资产管理方面,CodeWave 实现了混合召回机制,提升召回准确率:

    • 简单场景下,使用大模型做快速召回,覆盖用户常见需求;

    • 复杂场景下,采用 RAG(检索增强生成)策略,利用向量数据库召回当前项目中的组件、接口、逻辑模块等上下文信息。


    整体来看,CodeWave 在智能体编程体系上,兼顾了局部灵活性整体稳定性,通过工程化手段将自然语言输入转化为高质量、可交付的应用,显著提升了 AI 在实际开发流程中的可用性与交付价值。

    如何借助大模型持续优化智能开发能力?


    要让 AI 真正服务于低代码场景,只有“生成”远远不够,系统还需具备可量化评估、持续优化与工程部署的能力。为了支撑智能体编程的落地,CodeWave 构建了一套完整的数据驱动训练与优化体系,贯穿模型评估、数据构造、微调训练与服务架构四个核心环节。


    首先,在模型评估方面,CodeWave 建立了低代码场景下专属的 Benchmark 测评体系。该体系参考 HumanEval+、MBPP+、CRUXEval 等行业通用评测集,结合 NASL 语言特性,设置了页面逻辑生成、服务端逻辑、D2C 生成、逻辑补全等多维度任务指标。通过定期跑测与线上数据回流,平台可持续量化模型的准确率、展示率、留存率,为模型迭代提供精准反馈。


    为进一步提升底层能力的稳定性与泛化能力,CodeWave 也制定了模型基座选型的评估标准,重点关注三项核心能力:


    • 代码生成能力:通过 HumanEval+、MBPP+ 等任务集评估模型生成完整函数逻辑的能力;

    • 代码补全能力:基于 HumanEval-FIM、CrossCodeEval 等任务评估模型在 IDE 场景下的行级与块级代码补全效果;

    • 代码推理能力:引入 CRUXEval 测试模型对输入与输出关系的语义理解能力,判断其是否具备逻辑推演能力而非表面匹配。


    当前,CodeWave 已接入 Qwen2.5-Coder 作为核心模型基座,并根据不同下游任务的需求构建多模型支持体系。在具体集成过程中,平台注重模型通用能力与低代码语义的适配,通过统一的提示词结构与调用协议,降低模型替换与调度成本,为平台后续模型演进与多模型协同奠定了工程基础。


    在微调训练阶段,平台采用了监督微调(SFT)结合偏好对齐(DPO)的方法。训练数据来源于开源代码集与平台自有业务数据,通过 OSS-Instruct 技术构造多样化指令样本,涵盖页面搭建、流程配置、表单生成等典型任务场景。所有数据均通过 NASL 沙箱执行验证,确保可执行性与语义准确性。基于这些高质量样本,平台首先进行 SFT 微调,再通过沙箱运行反馈构建正负样本三元组,执行 DPO 优化,使模型输出更符合实际开发者偏好。


    考虑到企业级用户对稳定性与环境适配的高要求,CodeWave 在平台架构中构建了统一的 AI 服务管理体系。平台通过 AI 网关支持模型管理、版本切换与动态加载,兼容不同客户环境下的模型接入需求。无论是 SaaS 场景还是私有化部署,都能确保模型能力与平台一致性,提升交付效率与系统稳定性。



    除了在视觉输入场景下推进自动化生成,CodeWave 也在代码逻辑补全方向进行了智能能力扩展。针对结构性逻辑编排、流程生成等任务,平台基于 DeepSeek 搭建了智能补全体系,支持包括框内块补全线补全在内的多种补全方式。


    姜天意特别指出,智能开发体系中并非所有能力模块都需要依赖大参数量的大模型,像代码补全这类局部结构性任务,充分利用轻量模型(如 DeepSeek 1.5B)即可在保持推理速度和响应能力,同时满足功能性需求,显著降低系统资源消耗和部署复杂度。通过合理匹配任务类型与模型规模,也让 CodeWave 在不同智能模块中实现了性能与成本的动态平衡。


    整体来看,CodeWave 通过完善的 Benchmark 评估、系统化的数据构建、精细化的模型微调,以及统一灵活的工程部署体系,实现了低代码场景下 AI 能力的持续演进与商业化落地支撑。

    智能开发能力在 D2C 场景中的实践


    CodeWave 当前已覆盖 6 项智能开发能力,包括设计稿/截图转页面、智能代码生成、智能编程助手、智能代码解读、智能代码分析、智能 SQL 生成。


    其中,设计稿/截图转页面,也就是常说的 D2C(Design-to-Code),是将界面设计自动转化为可交付低代码结构的能力,能极大提升前端界面开发效率,缩短从设计到上线的周期。D2C 能力面向设计协议文件或截图图像等视觉输入任务,通过建立视觉中间表示结构(IR 层)、调用多阶段识别模型,完成组件分类、布局还原与结构化生成。


    在 D2C 能力建设上,CodeWave 坚持将信息幂等转换作为技术核心,即在不改变设计意图的前提下,实现界面布局与组件逻辑的自动转化,确保最终生成结果符合智能开发平台的标准体系。该能力已在实际项目中投入使用,成为平台在页面构建链路中重要的自动化能力之一。

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      在视觉处理层,CodeWave 支持来自 Sketch、Figma、MasterGo 等常见设计工具的多格式输入,通过构建视觉中间表示结构(IR 层),抽象提取页面元素的内容、属性、样式与层级。无论是原始设计文件还是截图图像,最终都将标准化为统一的 IR 表示,作为后续处理基础。



      针对布局还原问题,CodeWave 研发了基于投影聚类与最小连通子树分析的布局算法,能够自动推断出组件的嵌套关系和层级结构。通过布局转换模块,将原本以绝对定位为主的设计稿,自动转化为符合 Web 响应式要求的弹性布局(Flex Layout),兼顾页面自适应与前端开发规范,避免传统切图模式带来的维护成本。


      组件识别阶段,CodeWave 采用了分阶段增强识别策略:

      1. 利用传统计算机视觉(CV)算法进行边界检测和元素关系分析,清除干扰;

      2. 引入深度学习模型识别复杂组件(如图表、动态表单等);

      3. 结合专家规则系统对表格、搜索栏、轮播图等常用业务组件进行语义打标;

      4. 对于识别盲区,调用多模态大模型进行兜底补充,进一步提升整体准确率与稳定性。


      为了量化 D2C 系统在实际场景下的表现,CodeWave 建立了 D2C 专属的 Benchmark 评估体系。不同于模型训练时的通用评测标准,该评估聚焦于视觉结构识别与组件还原能力,涵盖从设计稿或截图生成 IR 协议的准确率评估、拉伸测试下的布局响应性评估,以及组件分类准确率测试等关键维度。实测结果显示,系统在标准化测试集中实现了布局匹配率 92%、组件识别率 98%以上,验证了 D2C 在实际交付场景中的可用性。



      此外,针对客户在私有化部署中提出的定制化需求,CodeWave 通过多 Lora 微调技术,对特定组件识别(如复杂图表、多级表单)进行局部能力强化,确保 D2C 系统具备良好的可扩展性与定制灵活性。



      通过多模态增强识别、组件级语义理解、结构层还原与标准化输出,CodeWave 已实现从设计稿到代码的闭环生成路径。作为六大能力中最依赖视觉理解与系统还原的一环,D2C 不仅打通了视觉资产向系统结构的转化链路,也显著提升了整体交付效率,推动智能开发从“能生成”走向“能接入、能交付”。

      商业化落地经验与未来展望


      在推动 AI+低代码商业化落地的过程中,CodeWave 总结了三条核心经验:


      首先,所有 AI 功能的效果必须建立在可量化的数据支撑上。无论是自然语言生成逻辑、代码补全还是 D2C,CodeWave 都构建了统一的 Benchmark 体系,细化评估用例正确率、展示率、留存率、综合采纳率、平均提效率等指标,通过定期批量测试和线上实际使用观测,量化 AI 功能的真实价值,避免凭感觉决策。


      其次,平台架构需具备可插拔、可灵活扩展能力,以适应不同客户环境下的私有化部署要求。CodeWave 通过 AI 网关实现模型管理与热切换,支持多版本模型的动态适配,同时在 Prompt 构建、数据回流、后处理优化等环节模块化设计,使平台在不同场景中都能快速响应和调整,保证交付的一致性与高可控性。


      第三,要持续自我否定与迭代进化,紧跟开源社区和行业技术趋势。CodeWave 坚持持续 Benchmark 对标最新开源模型和工程实践,不断调整微调策略、训练流程、部署机制,确保平台在引入新技术时既能快速试错,又能保障功能稳定性,不断拓宽 AI 能力边界。


      在演讲最后,姜天意也对 CodeWave 未来的发展方向进行了展望:


      • 视觉线(Vision)方向,将进一步强化 D2C 能力,提升设计稿/截图转页面的准确性,优化响应式布局生成,同时探索样式还原、应用风格一键迁移等功能,降低前端开发门槛。

      • 编程辅助线(Copilot)方向,将继续增强 NASL 大语言模型训练,提升自然语言生成逻辑的正确率与上下文理解能力,扩展代码补全和推荐功能覆盖更多细粒度场景。

      • 智能体线(Agent)方向,将完善智能体分流、任务拆解、纠错优化与记忆总结机制,强化智能体在复杂业务需求下的多轮对话与规划执行能力。


      面向未来,随着大语言模型对软件开发流程的深度重塑,智能开发平台也在不断演进。CodeWave 将持续以工程化能力为基石,以数据驱动优化为核心,深耕 AI 与应用开发的融合,助力企业数字化转型走向更加智能与高效的新时代。


      演讲嘉宾介绍

      网易数智 CodeWave 低代码平台技术负责人,曾先后就职于阿里、腾讯,资深前端架构师,开源框架 Egg.js 的核心开发者之一。曾负责盒马数据可视化前端团队、腾讯云大数据平台前端团队、腾讯低代码开源项目逻辑编排方向等。


      本文首发于网易 CodeWave 公众号,原文链接:https://mp.weixin.qq.com/s/NBP1sOTfmOySBwaaEjt6Bw

      2025-04-30 15:5611932

      评论

      发布
      暂无评论
      从可演示到可交付——网易 CodeWave AI 提效开发的落地实践_AI&大模型_InfoQ精选文章