九章云极推出 DART-GUI-7B 模型，基于 Alaya NeW Cloud 强化学习云训练，登顶 OSWorld 7B 榜首！

2026 年 1 月，在操作智能领域权威评测体系 OSWorld 发布的最新榜单中，九章云极 DataCanvas 凭借在 Alaya NeW Cloud 强化学习平台上训练的 DART-GUI-7B 模型，以卓越的智能操控表现，一举夺得 OSWorld 7B 赛道冠军！

九章云极：Alaya NeW Cloud 强化学习平台

Alaya NeW Cloud 是由九章云极打造的以强化学习（ Reinforcement Learning, RL ）为核心能力的智算云平台，该平台通过将强化学习能力深度融入底层基础设施，重构了智能计算的架构与逻辑，旨在为企业和开发者提供“可用、好用、经济”的算力资源。

Alaya NeW Cloud 打造前沿强化学习云平台，平台原生支持一键式 Agentic RL 开发环境启动、分布式极核 Agentic RL 训练，性能上实现训推分离与全流程加速，生态上预置多种主流 Agent 仿真环境，高效支撑强化学习技术的快速落地与创新突破，精准解决 AI 技术应用中的效率和成本等核心问题。目前，九章云极已在全球布局多个聚焦于加速计算优化的 AIDC 智算中心，持续赋能 AI 技术的高效应用与行业规模化落地。

DataCanvas Alaya NeW Cloud

核心技术解读：轻量化模型的 GUI 智能体突破

什么是 OSWorld？

OSWorld 是目前 AI 领域衡量 “智能体（ Agent ）跨软件操作电脑” 能力最顶尖的基准测试，它模拟真实的操作系统环境，要求 AI 像人类一样通过视觉观察屏幕，并精准操控浏览器、Excel 、VS Code 等各类桌面应用来完成跨平台的复杂任务，被 OpenAI 、Anthropic 、字节跳动 Seed 、月之暗面、智谱等顶尖 AI 团队广泛采用，更是检验 AI 能否从“只会聊天”进化为“高效数字员工”的硬核试金石。

为什么 OSWorld 对 7B 模型几乎是“地狱难度”？

真实生态：任务在 VS Code 、LibreOffice 等真实软件中运行，环境信息密度远超结构化数据
闭环操控：需要连续理解截图、规划路径和进行键鼠操作，考验长程推理能力
零容错率：限时 30 步，操作需步步为营，失败不可逆转
数据稀疏：基础成功率不足 1/4，即使是大模型也面临严峻挑战

复杂的跨软件协作与精细的坐标控制，使得参数规模有限的 7B 模型在“理解”与“执行”之间难以调和，长期处于“不可用”状态。

核心技术路径：九章云极三大创新赋能轻量化突破

1. 核心方法：解耦式 GUI 智能体强化学习框架

九章云极并未通过简单扩大模型规模取胜，而是选择了系统级的算法创新。提出了 DART（ Decoupled Agentic Reinforcement Training ），首次将 GUI 智能体的强化学习训练流程彻底解耦为四个异步模块：

三项关键突破

推演级轨迹调度（ Rollout-Level Scheduling ）：

以“单条轨迹”作为调度最小单位；

每个 rollout 完成后立即释放环境并启动下一个任务；

环境利用率提升从 12.2% 达到 67.7%，提升幅度高达 5.5 倍。

动态模型服务池（ Dynamic Model Serving Pool ）：

采用 GPU 推演的集中化管理，支持多模型版本的热加载；

避免了传统“一卡一环境”的资源浪费；

GPU 推演利用率提升 1.6 倍；

GPU 资源的并发弹性扩展能力。

训练与推理异步执行（ Asynchronous Execution of Training and Inference ）：

训练与推演实现异步解耦；

避免模型更新导致服务阻塞。

2. 数据策略：四层自适应筛选，放大稀疏成功信号

针对 GUI 强化学习中的“成功少、噪声多”核心难题，DART 设计了覆盖任务、轨迹、步骤和 Token 的四层筛选机制：

这一机制使得 7B 模型，在最大 30 步内，即可稳定的实现 OSWorld 中的任务要求。

3. 多维优化：以轻量化参数对冲复杂场景，重塑性能边界

九章云极经过强化学习训练的 7B 模型之所以能实现突破，关键在于采用了“场景适配、精度优化、算力协同”的三维技术方案，在控制参数量的同时，最大化提升操作智能性能：

场景化指令对齐技术：基于百万级真实操作场景数据训练，构建细分领域的指令库，优化模型对办公自动化、数据处理等高频场景的语义理解能力，精准捕捉模糊指令背后的核心需求，使指令理解准确率较通用模型提升 23 %，并减少无效操作；
混合精度推理优化：借鉴智算硬件优化经验，对模型不同模块进行精度分层处理。核心推理模块保留 FP16 精度以确保准确性，非核心模块量化至 INT8 精度。这一调度方式实现推理效率提升 1.8 倍，资源占用率降低 40 %；
软硬件协同调度机制：依托自研的智算技术栈优势，深度协同模型推理与算力资源，动态调整算力分配策略以应对负载波动，避免资源闲置。同时使用专用推理加速引擎优化 GUI 元素识别与动作规划的计算链路，进一步降低轻量化模型的推理延迟。

实验结果：全类型任务下性能优势显著

在最大步长仅有 30 步的情况下，DART-GUI-7B 在多种任务类型上表现出显著优势，包括：

浏览器类（ Chrome ）；
图像/设计类（ GIMP ）；
邮件客户端类（ Thunderbird ）；
代码/ IDE 类（ VS Code ）；
操作系统交互类（ OS ）。

亮点：GIMP 类任务的正确率高达 80.77 %，且在办公套件（ Impress、Writer、Calc ）、媒体播放类（ VLC ）以及多应用协同等任务中，其能力也有显著提升。

九章云极还进行了真实场景的验证。在 DataCanvas Alaya NeW 平台上，DART-GUI-7B 成功地通过键鼠操作完成文档查找、导航到指定页面及查找官网联系方式等场景任务，其成功率超过 90 %。

产业价值与未来展望

目前，AI 大模型正加速从“技术验证”向“产业落地”转变。通用人工智能作为连接数字世界与物理操作的重要工具，在办公自动化、智能运维和工业控制等领域展现出广阔的应用前景。然而，模型部署成本高、轻量化模型性能不足及数据出域安全等问题，仍然是产业规模化的关键瓶颈。

九章云极的 7B GUI 模型突破为行业提供了“低成本、高性能”的通用人工智能解决方案，有望推动通用人工智能在中小企业及长尾场景的普及。

创作场景