
作者 | 何鹏飞,建信金科解决方案工程师
引言
在数字化浪潮与日益趋严的监管背景下,大型商业银行的研发工作正面临诸多挑战,如效率低下、协同不畅和质量控制困难。为了突破这些瓶颈,推动研发工作从“重复劳动”向“高价值创造”转型,智能化已成为其实现跨越式发展的关键突破口。
近年来,以 LLM(大型语言模型)、RAG(检索增强生成)、Function Calling(函数调用)和 AI Agent(智能体)为代表的 AI 大模型技术正以前所未有的速度发展,并深刻改变着各行各业的运作模式,尤其是在企业研发工程领域。
本文将深入探讨 AI 大模型技术的演进路径,剖析大型科技企业的成功实践(以微软为例),结合大型商业银行研发工程的实际需求,提出切实可行的建设思路与实施策略,并展望 LLM 在未来的发展趋势,旨在为银行研发智能化建设提供系统性指引。
AI 大模型技术演进:解锁研发工程智能化潜力
1. LLM 的“涌现”与基础能力(2022 年)
2022 年 11 月 30 日,OpenAI 的 ChatGPT(基于 GPT-3.5)正式上线,向世人展示了 LLM 在“无监督预训练”中“涌现”出的通用智能,在全球范围内引发了巨大震动。这是公众首次直观体验到 AI 能像人类一样进行对话、完成写作、编程、翻译等复杂任务。此次事件不仅验证了“暴力美学”路线(即通过海量算力、数据与参数堆砌实现智能)的可行性,更直接引爆了全球大模型领域的军备竞赛,为当前 AI 生态系统的基础架构奠定了基石。
然而,从本质上看,纯 LLM 是互联网信息的一种“有损压缩包”,仅是从其训练数据中提取的知识快照。若没有外部功能扩展,LLM 无法提供实时信息,例如 ChatGPT 无法回答模型训练后发生的事情。当然,并非所有能力增强都依赖外部上下文,通过 提示词工程(如上下文学习、小样本学习等技术),LLM 在无需检索外部信息的情况下也能展现出良好的处理能力。
2. RAG 与 Function Calling:LLM 的外部增强(2023-2024 年)
RAG(检索增强生成) 的概念最早由 Meta AI 在 2020 年提出。随着 2023 年 LLM 的普及,RAG 技术获得了爆发式的应用与发展,成为 LLM 落地应用的首选方案之一。
RAG 技术的核心在于解决 LLM 无法与外部数据实时交互的局限。它通过检索外部知识库提供相关上下文来增强 LLM 的能力,使其输出更具时效性、精确性和实用性。这一检索过程通常需要借助向量化工具、向量数据库和语义搜索等技术来实现。尽管如此,RAG 的局限性在于它仅赋予了模型检索数据的能力。

为了进一步突破纯文本生成的限制,OpenAI 在 2023 年 6 月 13 日正式发布了 Function Calling(函数调用)功能。这项功能允许 LLM 理解用户请求中的潜在意图,并自动生成结构化参数来调用外部的任何函数或工具,从而实现与真实世界的交互,例如查询天气、发送邮件或进行复杂的数学计算。
未来,LLM 将能够通过定义明确的路径实现业务流程自动化。这类系统尤其适用于处理结构清晰、标准统一的任务,它们将利用可靠的外部工具(如计算器、Python 解释器),而非仅仅依赖 LLM 自身可能存在的非确定性原生能力。
3. AI Agent:迈向复杂问题解决(2025 年及以后)
Google 在 2022 年 10 月发布的论文"ReAct: Synergizing Reasoning and Acting in Language Models"中,提出了 ReAct(Reasoning and Acting,推理与行动)范式。这一框架使得 LLM 能够结合推理(思考要做什么)与行动(调用工具或执行步骤),并根据观察结果进行迭代优化。随后,2023 年 3-4 月,Auto-GPT 和 BabyAGI 等早期自主 Agent 的出现,标志着 AI Agent 正式成为行业热点,并引发了广泛的探索与实践。
构建 AI Agent 的根本目标是解决复杂问题。Agent 的智能不仅体现在其个体能力上,更在于它们如何组织自身的“思维”过程以及如何与其他 Agent 或系统协作。因此,编排模式和系统架构的选择对 Agent 的整体效能具有深远影响。实现更高级的 Agent 能力,需要引入以下核心机制:
引入推理机制:构建 Agent 思维与行动
LLM 将作为 Agent 的中央决策者,负责执行推理、规划和语言生成等核心认知任务。它处理输入信息、进行推断,并生成与上下文相关的输出。通过任务特定的提示、角色扮演模板或领域知识配置 LLM,可增强其处理特定任务的能力。
通过增加规划模块,Agent 能够洞察复杂的工作流程,并生成结构化、多步骤的计划,这对于将复杂任务分解为可管理的小块至关重要。常用的规划技术包括:
思维链 (Chain-of-Thought, CoT): 将任务分解为更小的步骤以逐步求解,尤其适合需要逻辑或多步骤推理的任务。它帮助模型分解任务,使其思考过程更易于理解。
ReAct (Reasoning and Acting): 将 CoT 推理与外部工具使用相结合,涉及“思考 (Thought) -> 行动 (Action) -> 观察 (Observation)”的循环。这使得 Agent 能够根据新信息或前一步骤的结果动态调整方法,增强 LLM 在 Agent 工作流中处理复杂任务和决策的能力。

Reflexion (反思): 利用反馈循环,使 LLM 反思过去的输出并迭代改进性能,适用于需要多次尝试进行优化和复杂推理的任务。
Plan-and-Execute: 作为标准 ReAct 框架的扩展和优化,旨在处理更复杂、多步骤的任务,将 Agent 的工作流程明确划分为规划和执行两个阶段。

这些技术赋予 Agent 处理模糊性、迭代解决方案和动态调整策略的能力。规划能力对于 Agent 识别必要步骤、评估潜在行动,并根据可用信息和期望结果选择最佳行动方案至关重要。
提升语义理解能力:记忆与个性化
Agent 需具备强大的记忆能力,这对其连续性、连贯性、从过去交互中学习以及通过回忆历史交互和适应新情况来提高性能至关重要。LLM 本身缺乏个性化,而 记忆系统能够充分提取个性化特征,使 LLM 提供个性化回复。
短期记忆 (Short-Term Memory): 通常在 LLM 的上下文窗口内处理,用于支持轮次间的对话和即时回忆。它能维持会话内的上下文,对于需要在多次交流中保持上下文的对话式 AI 非常有用。由于上下文受限,若将全部会话记录保存,可能导致 LLM 失去重点并产生“幻觉”,因此更好的方式是对短期记忆进行不断地总结和归纳,提取关键信息。
长期记忆 (Long-Term Memory): 涉及对交互历史、事实或学习行为的持久化存储,常通过向量数据库(如 FAISS、Pinecone)或知识图谱实现。它能使 Agent 从过去学习、提取洞察以改进未来会话,并提供个性化能力。RAG 技术能从 LTM 中动态获取和整合相关知识,GraphRAG、HybridRAG、Agentic RAG 和 Router 等变体在 LTM 中有广泛应用。
感知环境并采取行动:LLM 与真实世界的交互
为了不只停留在对话层面,Agent 需要感知其所处的数字或物理环境,并据此采取行动,这要求 Agent 具备环境感知能力。
环境感知模块: 负责召回所需的上下文和环境信息,并传递给大模型。语义搜索、NL2SQL 等能力是此模块的基础,它们将 LLM 感知环境的需求转化为具体的获取数据操作。
行动模块: 负责执行 Agent 的决策,这可能包括调用 API、与外部工具交互、生成文本或代码,甚至在机器人技术中执行物理动作。
环境感知至关重要,因为 LLM 仅负责推理,其所针对的场景需由环境感知模块决定。如果获取的数据不准确,LLM 也难以给出完美的答案。
为了进一步强化 Agent 间的协同与功能调用,衍生出两大技术框架:

MCP(Model Context Protocol): LLM 和工具之间的标准化交互协议,核心是 Function Call,但也包括资源管理和 Prompt 优化等。

A2A(Agent-to-Agent): Agent 之间的交互协议,使 Agent 各司其职并协同解决问题。

4. 单 Agent 与多 Agent 系统架构
问题的复杂性通常会影响架构选择:是采用单个高能力的 Agent 应对问题,还是由专业化、协作的 Agent 团队更为有效。这一选择对通信和协调基础设施有重大影响。
单 Agent 系统: 最适合需要快速执行且无需复杂协调或协作的任务。
多 Agent 系统 (MAS): 适用于横跨多专业领域的复杂任务,如图文创作。在 MAS 中,可以为 Agent 分配专门的角色并让它们协同工作。多 Agent 工作流为基于规则的自动化提供了一种灵活的、自然语言驱动的替代方案。Agent 之间可以协作、辩论想法、相互学习,从而做出更好的决策。然而,MAS 也面临着协调复杂性、性能可变性、可扩展性、资源管理等挑战。

从单 Agent 系统向多 Agent 系统(MAS)演进,不仅是智能体数量的增加,更是一种架构和能力层面的质变。这一转变引入了智能体之间的通信、协调与信任等复杂挑战,要求基础设施从仅支持单体推理扩展为支持多体协作的系统环境。MAS 架构下,智能体不再是孤立运行的个体,而需要通过可靠的通信协议实现信息交互,通过共享内存或黑板机制维护共同的环境认知,同时具备明确的角色划分与资源协调能力。为保障系统高效运行,还需引入管理型 Agent 或编排层,对任务分配、冲突解决进行统一调度。因此,MAS 所需的基础设施不仅要支撑智能体的计算执行,更要服务于复杂多变的协作模式,真正构建起具备“社会性”的智能体网络。
业界实践借鉴:微软的“智能体网络”布局
微软战略背景与目标
微软《工作趋势指数报告》揭示了一个普遍存在的“现代工作数字困境”:约 60% 的工作时间被消耗在电子邮件等日常任务执行中,而真正用于深度思考和价值创造的时间仅剩 40%。微软从 2023 年开始布局办公智能体,其核心目的正是解决这一矛盾,通过让 AI 智能体负责执行性工作,从而解放人类,使其能更专注于创造性任务。
战略规划与演进
通过过去三年对 AI 智能体的深度布局,微软勾勒出 “下一个 10 年最具竞争力的组织”的实践路径:以办公软件为入口,以云计算和 AI 大模型为智算平台,以 Github 和 MCP 协议为生态协同工具,为解放全球数亿“打工人”的创造力而部署 AI 解决方案——微软称之为超越单一智能体的“智能体网络”。

与 Google、Meta 等科技巨头“大炼模型”的路径不同,微软选择与 OpenAI 深度合作。其战略规划清晰地展现了 从相对简单的工具集成,到 LLM 与产品生态深度融合,再到 AI 全面参与工作流的逐步推进工程。
微软产品战略的核心不是开发单一智能体,而是 构建一个“智能体网格”来贯穿办公的全生命周期。通过这一网络,实现人与 AI、智能体之间充分协作,解决复杂问题,在提高组织生产效率的同时,进一步突破人类创新天花板。
智能体网络 是指构建一个以“智能体”为核心,贯穿开发者工具、办公协同、云平台、操作系统、数据服务的完整功能集合。它旨在支撑企业内部各智能体之间无缝传递任务、消息和知识,而非孤立运作。
运营层面考量
微软将 AI 使用率(Human-Agent Ratio)纳入绩效考核体系,既推动员工积极掌握和应用 AI 工具,也通过实际使用场景促进智能体能力的不断优化,实现人机协同的正向循环与能力共建。这一策略有效激发了组织内部对 AI 技术的适应与创造潜力,成为前瞻性企业在推进 AI 战略落地过程中至关重要的一步。
微软的经验对于大型商业银行的研发工程智能化建设具有重要的借鉴意义。
大型商业银行研发工程智能化:需求洞察与建设考量
1. 银行业研发工具现状
大型商业银行因其业务和组织的高度复杂性、广泛的服务受众和庞大的用户基数,往往代表着最为先进的业务需求,能够反映当前大型央国企面临的实际问题。然而,受限于技术选型的稳健性以及对数据安全等主客观因素的严苛要求,其在研发工具建设方面往往存在一定滞后。
2. 研发智能化需求梳理
参考大型商业银行的研发工艺,可以将银行研发过程中涉及的工具分为研发作业域和管理域两大领域:
作业域: 涉及需求、分析、设计、编码、测试、投产、运维等环节。
管理域: 涵盖架构洞察、架构巡检、数据集成、数据分析、监控等。
通过建立研发工具专班,广泛收集各方需求,梳理出以下需求:
作业域

在作业域中,智能化需求聚焦于将大模型技术深度融入需求分析、设计、编码、测试等核心研发环节,以显著提升研发效率与质量。具体而言,通过 AI 解析需求与设计文档可自动提取测试要点、生成测试用例;智能体辅助生成单元测试与多语言代码注释;实现 AI 辅助编码并接入统一 RAG 知识库系统;进一步支持测试必要性判断、安全漏洞识别以及立项材料的智能检核,最终推动研发流程的全面自动化与智能化升级。
管理域

在管理域方面,智能化则侧重于如何借助大模型实现研发活动的数据整合与智能监控,从而 高效支撑架构洞察、架构审查与决策分析。这包括通过 AI 能力赋能安全测试平台与知识管理系统,使其具备自动识别系统隐患、沉淀知识资产、支撑架构合理性评估的能力,最终为构建统一的研发数据视图和智能管理体系奠定坚实基础。
3. 产品建设关键考量
2025 年 6 月,在 AI Engineer World's Fair 大会上,OpenAI 对齐团队的工程师 Sean Grove 提出:“代码只是我们意图的一种‘有损投影’,而真正有价值、能够跨越人与机器鸿沟的,是规约(Specification)。”

这表明智能化时代的研发工具,应能让人通过有效的、结构化的沟通(Prompt),在给予 AI 明确的目标、要求和详尽的上下文(Context)的前提下,由 AI 自动执行并产出结果。这为未来的产品建设提出了全新的要求,应当 将人类工程师的精力转向关注“做什么”和“为什么做”,而让 AI 接管“怎么做”。
基于此,产品建设需着重考量以下几点:
先做对的事,再把事情做对: 方向错误,再努力也可能徒劳。如果现有研发流程无法适应智能化产品的交互方式,就应勇于改变现状,避免因迁就而影响核心能力建设。例如,当 AI 识别出设计文档中不符合架构规范或功能变更影响的问题时,应在人工确认后直接修改设计件,而非仅罗列问题再人工订正。
以终为始,解决整体问题: 工具建设应旨在解决领域内的系列问题,而非仅应对单一场景的某个任务。例如,文档辅助工具不仅服务于需求和设计文档编写,还应能支持个人内容创作、协同编辑、知识分享与沉淀等多元场景。
注重用户体验与流程融合: 始终将用户体验放在首位,确保 AI 功能无缝融入现有作业流程,而非独立于作业流程之外。例如,在编写文档时应能直接唤起 AI 辅助编辑,避免用户手动复制粘贴文本到独立的 AI 工具中进行交互。同时,必须确保系统响应迅速,超长的等待时间和繁琐的功能交互是不可接受的。
平衡技术选型,避免“LLM 包治百病”: 并非所有问题都适合 LLM 解决。在图像识别等特定领域,CNN、ResNet 等传统算法仍具有优势。因此,应尝试进行工具组合,在不同技术间寻找最佳平衡点,以追求效益最大化。例如,在企业内部问答系统或客户服务聊天机器人中,用户查询的多样性决定了需要多种检索策略的组合。
构建开放生态,持续迭代: AI 的进步是基于自主学习而非简单的配置,应充分运用 RAG、MCP、Fine-tuning 等技术强化 AI 能力,实现持续优化。同时,应建设开放式的 Agent 和组件广场,通过共建共创和多种运营手段,激活社区氛围,促进知识与能力的共享。
重视向量数据库建设: 大型商业银行拥有海量高价值数据资产,且对数据安全要求极高。数据是智能化时代的燃料,合理的存储和使用至关重要。因此,必须重视向量数据库的建设,它通过数值向量表示,专门高效处理图像、音频、视频和文本等各种非结构化数据类型。通过优先考虑语义相似性搜索而非精确关键词匹配,以应对在海量非结构化信息数据集中实现高效语义相似性搜索的挑战。

借鉴业界最佳实践: 避免闭门造车。应时刻关注并学习行业内最优秀的工具和平台,例如 Notion、飞书文档(在线文档),Cursor、以及 TRAE 等 IDE。值得一提的是,7 月 21 日晚,TRAE SOLO 正式发布,实现了从“代码生成”向“软件交付”的跨越。它通过内置四大 Context 工具,为 AI 提供了完整的上下文与工具链支持,覆盖从需求到部署的全流程,无疑印证了上述关于未来产品建设和 AI 协作模式的观点。 此外,向量知识库可参考 VikingDB,Agent 开发平台可参考 Coze。结合自身现状和实际诉求,借鉴最佳实践能为研发工具建设指明方向,从而少走弯路。
大型商业银行研发工程智能化的路径探索与实践策略
鉴于银行普遍面临算力基础设施薄弱、研发资源有限等实际问题,同时又要兼顾低成本和快速交付的需求,实践策略应侧重于低投入、高回报的方案。
1. 核心技术应用:基础大模型与行内资产结合
可以引入零初始化注意力机制(Zero-initialized Attention) 等轻量级、高效的模型微调方法。《LLaMA-Adapter: Efficient Fine-tuning of Large Language Models with Zero-initialized Attention》(发表于 ICLR 2024)提出了一种仅需训练少量参数即可实现高性能模型微调的方式,专门用于构建指令跟随模型,也能扩展到多模态任务。

通过将基础大模型与银行海量的行内资产(如业务需求文档、源代码、数据库模型、交易码、错误码、运行监控报文等)相结合,构建行内大模型,解决各细分领域的专业问题。例如,利用 Deepseek 基础大模型结合行内全量 C、C’0、C‘、D 模型数据,辅助进行设计研发一致性检查和数据库表设计质量控制,将大大提升效率与准确性。
2. Agent 架构选择:单 Agent 优先与多 Agent 的审慎考量
AI Agent 的根本目标是在有限上下文约束下,可靠地完成复杂任务。然而,多 Agent 架构在此框架下可能面临“上下文碎片化悖论”和“决策熵增定律”两个根本性矛盾。
因此,在架构设计上,建议优先回归单线程设计,并着重发展单 Agent 系统。这能确保智能体的每个动作都基于系统中所有相关决策的完整上下文,并确保决策一致性。对于中短任务,单 Agent 设计可确保所有动作在单一连续上下文中执行,避免决策分散,适用于搜索 Agent 等多数场景。对于长任务,可以考虑对上下文信息进行有损压缩,例如在全栈开发等复杂场景中应用。
不可否认,Multi-Agent(多智能体)在处理大型复杂问题方面存在一定优势。百度关于多智能体的论文《Towards AI Search Paradigm》也印证了这一点。但同时也意味着设计复杂度与系统开销的显著增加,需在实践中进行慎重权衡。
展望未来:AI 大模型在研发工程领域的深度融合
未来,AI 大模型将更深层次地融入研发工程,持续提升组织效能,并带来高度集成化和个性化的体验。
1. 持续提升 AI 效能
增强的推理和感知能力: 随着 LLM 技术的不断演进,更先进的 LLM 将持续提升 Agent 的理解力、上下文感知能力,使其能够处理更复杂的业务场景、多轮对话,并支持高风险决策。
群体智能与多 Agent 协作: 多个 Agent 将更加紧密地协同工作,通过共享数据和决策,以集体智慧解决复杂的工程问题。AI 技术将更深入地集成到协作机制中,以改善协调效率。
AI Agent 全面接管研发作业: 随着 AI Agent 能力的不断增强,它们将全面接管研发流程中分析、编码、测试等环节,真正实现由 AI 负责“怎么做”,从而进一步解放人类工程师的生产力。
2. 高度集成与定制化
高度集成和结构化的 Agent 开发环境: 未来的 Agent 开发环境将不再仅仅是传统的 IDE,而是集成研发作业上下游各类工具的综合平台,涵盖打包、测试、版本控制、配置管理、运营监控等全生命周期功能。
多环境无缝操作: 未来的自主 Agent 将能够无缝地在虚拟平台和物理操作之间转换,例如在物流领域同时管理仓库自动化系统和在线库存系统,实现线上到线下的闭环作业。
个性化与定制化交互体验: 基于对用户行为的深入分析和上下文学习,并通过强化学习在动态环境中自我改进,AI 将提供更量身定制的个性化体验,例如成为高度专属的研发私人助理。
评论