用AI“打开”金融市场黑盒：微软亚洲研究院如何构建订单级仿真引擎

在大模型与智能 Agent 崛起的时代，金融行业正迎来前所未有的变革。从投资决策到市场模拟，AI 的潜力正在被持续释放。InfoQ 荣幸邀请到了微软亚洲研究院机器学习组首席研究员刘炜清在 AICon 全球人工智能开发与应用大会上分享《MarS：由生成式基础模型驱动的金融市场仿真引擎》，他分享了团队在“AI for Finance”上的探索：通过构建基于订单级原生数据的金融基座模型与可自动迭代的 Agent 流程，实现了高保真市场模拟与高效决策优化。

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）～

首先，我想回答一个问题：为什么微软亚洲研究院（MSRA）这样一家专注 AI/ 计算机领域的研究机构会投入 AI for Finance？时间要追溯到九年前，正值 AlphaGo 横空出世。彼时各行各业受到的冲击与这次大模型浪潮相似，大家都在思考：AI 能为本行业带来什么？基于此，微软亚洲研究院提出了新的方向——“AI for Industry”。在这一框架下，我们率先在金融领域展开探索。在从研究走向实际应用的过程中，我们发现一个问题：论文中表现优异的算法与真实场景中的问题与现象之间，往往存在较大差距。

因此，我们总结出需要一套工具化、框架化的设计，来确保研究结果与实际效果能够更好地对齐。由于当时没有合适的开源工具可用，我们自研了一个平台，命名为 Qlib。平台最初仅支持监督学习，随后，我们将支持扩展到强化学习，并加入了元学习（Meta Learning）。最近，Qlib 又支持了基于 Agent 的自动化研发流程。

在大语言模型（LLM）与 Agent 的加持下，社区对这项工作的热情远超此前的各类深度学习范式。也正因如此，在近年来大语言模型、Agent 与基础模型的浪潮下，AI for Finance 同样需要新的工作与思考。

我们将各行业——尤其是金融行业——存在的大量领域特有信息用于对大模型进行微调（fine-tune）以便让标准模型更好地适配金融场景。问题在于，金融领域存在大量难以用自然语言充分表述的数据：专业性强、结构化程度高，甚至尚未形成成熟的语言化表达。将这类信息直接融入语言模型并不容易，因而在某些场景下，微调往往会忽略这些极具价值的数据。

另一类方法基于 Agent 架构。其优势在于可无缝衔接多模态数据源，并对复杂任务（如具体交易决策：买涨 / 买跌）做出直接判断。然而，金融场景对决策的确定性要求更高：在相同或相似情形下，系统应输出一致的结果；同一输入反复运行若产生不同输出，会显著降低可接受性并影响落地。不幸的是，基于 LLM 的决策 Agent 天然带有更高的不确定性。

基于上述观察，我们对在金融领域应用大模型形成了明确的愿景：构建具有相对确定性的 Agent，能够自迭代地将市场与金融行业特有的本质因素纳入评估与决策流程。

具体而言，我们重点推进两项工作：其一，基于领域原生数据构建 Foundation Model（基座模型）；其二，构建以代码为驱动的自动化迭代 Agent 流程。

我们从自然语言出发，逐步扩展到能适配那些金融领域特有、且难以充分语言化的数据。以订单级市场交易数据为例：其粒度细、结构复杂，难以用自然语言完整刻画，但能描述金融市场的微观结构。基于这类数据，我们观测到类似于大语言模型的 Scaling Law。由此，我们构建了贴近真实、可控的订单生成基座模型，并在此基础上搭建面向金融市场的 Digital Twin（数字孪生）模拟平台。相较传统的静态回测或基准测试，数字孪生提供更动态、覆盖更广的评估能力，适用于压力测试与 what-if 场景分析，从而在上线前更真实地验证监管 / 合规、策略效果、风险与模型性能。

我们进一步引入基于 Agent 的自动化迭代流程。以 Code 为核心可获得更强的确定性：一方面，可直接将生成模型产出的代码作为可执行方案；另一方面，可生成训练脚本以训练深度模型，并将所得模型纳入方案的一部分。同时，我们将行业内的工具与框架，与上述模型及生成方案进行融合。在更高层级的评估阶段——以 World Model 或 Digital Twin 为度量——开展多轮迭代，最终收敛到更优、更鲁棒且可确定复现的结果。

Quant Research Automation powered by Qlib and R&D-Agent

先介绍 Agent 部分。我们的相关工作基于两个开源项目：Qlib 与 R&D-Agent。许多金融及其他行业的工作均基于与任务高度耦合的数据集，并由领域专家反复设计模型与方案；该过程既耗时又依赖人为反复试错（包括 A/B 测试或在模拟环境中的测试），最终才上线验证。我们的原始动机即是能否将“尝试—获取反馈—更新”这一迭代流程实现自动化。

为实现自动化迭代，我们设计了基于 Agent 的自动化框架，并将整个流程划分为两类互补的 Agent：Research Agent 与 Development Agent。Research Agent 负责提出高质量的研究思路与方案；Development Agent 则负责工程化实现，目标是实现高效、节约资源，并尽可能避免缺陷。

要使多轮、人类式的训练与迭代得以可靠进行，关键在于从外部环境获取准确的评估反馈。我们将外部反馈分为两类：一类为工程执行层面的反馈（例如是否存在 bug、训练耗时、资源消耗等），由 Development Agent 负责接收与优化；另一类为方案效果层面的反馈（例如指标表现等），由 Research Agent 负责利用该反馈进行方法改进，并驱动新的研究方向。该设计在可扩展性与鲁棒性方面表现优良，因而适用于多行业场景。

该设计具有通用性，同时可针对若干专门领域进行适配——例如金融、医疗，以及更广泛的机器学习任务。面对这些多样化挑战，可采用与 R&D-Agent 类似的思路加以解决。

基于 Qlib 平台，以量化研究（Quant Research）为例：典型流程包括数据采集、特征构建、模型设计与训练、回测与评估、以及分析与迭代。上述流程中诸多关键步骤高度依赖专家判断且耗费人力；将其置于 R&D-Agent 框架下后，迭代过程即可实现自动化。

如图上，我们选取了四个关键指标来评估量化投资解决方案的效果。图中灰色虚线表示基于 Qlib 等流行开源工具的现有方案所能达到的最高指标。基于 R&D-Agent 的多轮自动迭代，仅在约 18 小时、52 轮全自动迭代后，即可得到在四个指标上全面超越此前由人类专家设计的方案。

这一实例表明，基于 Agent 的自动化迭代不仅高效，而且能够显著缓解对专家人力和知识的依赖。与此同时，基于 Foundation Model 构建的模拟系统，也可辅助 Agent 或专家在各行业任务中进行类似优化。

Large Market Model (LMM) & Its Universal Financial Market Simulation Engine (MarS)

在此，我们以金融市场交易为基础，介绍 Large Market Model 的构建与应用。

以往的量化研究通常基于抽象的数据集或专家定义的特征 / 因子来构建模型，而金融市场中仍存在大量未被充分挖掘的信息。以股票市场为例，成百上千的投资者提交买卖订单，这些订单在市场中撮合成交，未成交订单则保留在订单簿中。单只股票每分钟可能产生上千笔交易。传统深度学习或机器学习方法难以全面刻画如此复杂的交易流程，因此往往将市场视为黑盒，通过人工定义的特征或因子建模。然而，市场中蕴含更多潜在信息，可通过对最细粒度的订单流建模加以挖掘。

在基座模型的构建中，我们从每个订单入手，将其视作单个市场参与者的行为，并对每笔订单进行 Tokenization。与此同时，将同一标的在一定时间窗口内的所有订单汇总为“订单组”，形成订单分布序列。市场中常见三类订单——买入（bid）、卖出（ask）、撤单（cancel）——可在时间序列上分别映射为图像的三个通道（蓝 / 绿 / 红），据此将订单组序列表示为“视频”。基于该表示，我们借鉴计算机视觉与视频生成的建模方法进行训练。

在两类 Tokenization 方法下，我们均基于 Transformer 架构进行训练，并观察到显著的 Scaling 特性（Scaling Law）。这为 Large Market Model 能力提升提供了依据。

在构建基座模型后，其应用价值远超单纯的 Next-token 预测。传统深度学习方法需要为每个任务或场景单独设计数据集与模型，性能上限受限于专家构建的数据集；而基于订单生成的基座模型可以把此前被视为黑盒的金融市场“打开”，仅对小场景或小任务做有限定制，即可适配多样化任务。

以预测类任务为例：将历史真实订单流输入基座模型，模型可 Auto-Regressive 地生成未来潜在订单序列。通过多轮生成并模拟订单撮合，可统计未来各类指标的分布或均值，从而实现对市场行为的更全面预测。与同样基于订单级数据的监督学习模型相比，该方法在各分钟级指标上表现出明显优势。

在分享模型结果时，我们经常被问到何时能够实际应用。半年前的回答是：仍需等待，因为存在若干落地问题。新的范式虽在理论上带来性能提升，但往往伴随新的处理方式。此方案的核心瓶颈在于未来预测的时效性：基座模型需要对每个订单进行 Auto-Regressive 生成，预测窗口越长，所需生成的订单序列越长，生成速度遂成为限制实用性的关键因素。

例如，在此前实验中，对 5 分钟的预测使用了 128 次 rollout 的设置，预测性能虽好，但生成完整序列需要 15 分钟，这在实际应用中显然不可行。

因此，过去半年我们针对生成效率进行了定向优化。与自然语言模型不同，订单生成中的每个 Token 对应一笔订单，需要经过市场撮合以判断是否成交；若未成交，还需放回订单簿并参与下一轮生成。这一差异使得订单流 token 序列的推理流程比自然语言 token 序列的推理流程耗时。经过多轮优化，目前生成完整序列的时间已缩短至约 1 分钟，系统可用性显著提升，具备在真实场景中落地的潜力。

此外，我们构建的模拟系统与传统金融市场模拟存在本质区别。传统系统多基于高层价格或走势进行模拟；我们则以最细粒度的订单级信息建立数字孪生市场场景。在该系统中，可以开展以往难以在真实市场中进行的研究。例如，“金手指”事件——因交易员误提交异常大额订单而引发的市场波动——在真实市场中难以实验且风险极高，而在细粒度模拟系统中可通过数据驱动的方法安全地模拟并研究其影响。

为支持此类研究，还需提供与模拟系统的交互接口。不同于可通过对话交互的自然语言模型，市场模型最自然的交互方式是订单操作。为此，我们设计了接口，允许用户向市场模型插入订单，并快速获得该订单可能产生的市场影响反馈，从而实现高效交互。

此外，我们关注的研究问题通常具有一定的热点性与时效性。以牛市为例，我们希望了解在特定情形下的市场表现。为此，我们设计了可控生成接口，使用户能够模拟所关注的场景。结合 Large Market Model 与上述功能接口，我们构建了 MarS 系统——一个可控、可交互的市场模拟平台。在该系统中，用户可以直接调用市场模型；Agent 亦可在其上开展自动化的多轮迭代，针对不同场景优化方案，并进一步落地到真实市场。

在订单生成方面，我们采用两类模型：订单组（分钟级）生成模型和订单级别生成模型。

以订单组生成模型为例：我们按分钟将真实发生的订单、模型生成的订单以及用户交互产生的订单合并为一个订单组，并将该序列输入模型进行多次生成与采样，从历史数据规律中生成未来可能的多种订单组候选。随后，选取与目标场景最接近的订单组，作为下一分钟的生成目标。

在订单级别生成模型中，每笔订单基于历史序列得到生成分布；再与订单组模型给出的分布组合，得到校准后的分布并进行采样生成订单。同时，将用户插入的订单实时并入序列，形成循环生成，从而对用户操作的市场影响提供实时反馈。最终，通过分钟级订单组模型与订单级别模型的结合，可生成符合用户设定场景、并显式反映用户交互的未来订单序列。

其中，每一分钟的控制信号由自然语言模型的代码生成能力提供。例如，用户以自然语言描述目标场景（如下跌场景），系统生成代码在历史数据中检索符合条件的片段，并将其作为生成未来订单序列的指导。类似地，上涨或其他场景也可通过该方法实现可控生成。

为验证生成数据的真实性，我们采用金融学中常用的 11 项指标来衡量模拟市场与真实市场的相似度。结果显示，生成的市场数据在统计特性上高度契合历史数据规律，因此可称为数字孪生市场。

以上图中的“金手指”事件为例，我们模拟了异常大额操作对市场的短期与长期影响。橘色曲线为历史真实价格；在施加模拟操作后，蓝色曲线与真实市场走势高度一致，表明模拟系统能够真实反映市场的微观行为。同时，我们开展了大量场景实验，使用多种不同的订单与情境，以验证模型生成的市场数据是否与经济学家基于真实交易得到的经验公式一致。

红色虚线表示宏观经验公式，用于刻画价格变化与订单规模的关系，可近似为 √q / v。需要强调的是，模型在训练阶段并未接触该公式；我们通过大量采样生成数据后进行统计分析。蓝色折线为统计结果，显示在宏观层面上，该经验公式与我们基于微观模拟得到的市场现象高度一致。

若类比至视觉生成模型，这类似于通过生成的视频测得物体下落的加速度约为 9.8 m/s²，与真实重力加速度一致。这样的观察使我们有理由认为，模型确已学习到真实世界的规律，因此可将其视为事件模型与数字孪生。对应到金融市场，我们同样认为该模型可作为金融市场的数字孪生与事件模型加以使用。

有了这两部分工作的结合，就形成了我们前面提到的左图：以世界模型级别、领域原生的基座模型为核心，叠加适配场景的模拟与评测（evaluation）。在此基础上，我们可以扩展出金融场景中的各类下游任务，既可以由人工执行，也可以由 Agent 自动化完成。

同时需要说明的是，左图所示框架并未与金融场景深度绑定。我们认为，这一范式同样适用于其他领域——尤其是那些拥有领域特有数据、且高度依赖专家与大量人力以完成高质量迭代的场景。它们都可以参照这一流程框架，在各自行业中开展基于大模型的迭代与探索。

嘉宾介绍

刘炜清，微软亚洲研究院，机器学习组首席研究员及研究经理。领导团队多年来专注于人工智能在金融领域的应用研究，并将部分成果开源在 Qlib 项目（https://github.com/microsoft/qlib）中。目前的研究重点是 R&D-Agent（https://github.com/microsoft/rd-Agent）和 MarS（https://github.com/microsoft/mars）项目。在顶级会议上发表了数十篇论文。

活动推荐

AI 重塑组织的浪潮已至，Agentic 企业时代正式开启！当 AI 不再是单纯的辅助工具，而是深度融入业务核心、驱动组织形态与运作逻辑全面革新的核心力量。

把握行业变革关键节点，12 月 19 日 - 20 日，AICon 全球人工智能开发与应用大会在北京举办！本届大会精准锚定行业前沿，聚焦大模型训练与推理、AI Agent、研发新范式与组织革新，邀您共同深入探讨：如何构建起可信赖、可规模化、可商业化的 Agentic 操作系统，让 AI 真正成为企业降本增效、突破增长天花板的核心引擎。

创作场景

用 AI“打开”金融市场黑盒：微软亚洲研究院如何构建订单级仿真引擎

Quant Research Automation powered by Qlib and R&D-Agent

Large Market Model (LMM) & Its Universal Financial Market Simulation Engine (MarS)

嘉宾介绍

活动推荐