九章云极推出 DART-GUI-7B 模型,基于 Alaya NeW Cloud 强化学习云训练,登顶 OSWorld 7B 榜首!

  • 2026-01-28
    北京
  • 本文字数:2258 字

    阅读完需:约 7 分钟

2026 年 1 月,在操作智能领域权威评测体系 OSWorld 发布的最新榜单中,九章云极 DataCanvas 凭借在 Alaya NeW Cloud 强化学习平台上训练的 DART-GUI-7B 模型,以卓越的智能操控表现,一举夺得 OSWorld 7B 赛道冠军!

九章云极:Alaya NeW Cloud 强化学习平台

Alaya NeW Cloud 是由九章云极打造的以强化学习( Reinforcement Learning, RL )为核心能力的智算云平台,该平台通过将强化学习能力深度融入底层基础设施,重构了智能计算的架构与逻辑,旨在为企业和开发者提供“可用、好用、经济”的算力资源。

Alaya NeW Cloud 打造前沿强化学习云平台,平台原生支持一键式 Agentic RL 开发环境启动 、分布式极核 Agentic RL 训练,性能上实现训推分离与全流程加速,生态上预置多种主流 Agent 仿真环境,高效支撑强化学习技术的快速落地与创新突破,精准解决 AI 技术应用中的效率和成本等核心问题。目前,九章云极已在全球布局多个聚焦于加速计算优化的 AIDC 智算中心,持续赋能 AI 技术的高效应用与行业规模化落地。

DataCanvas Alaya NeW Cloud

核心技术解读:轻量化模型的 GUI 智能体突破

什么是 OSWorld?

OSWorld 是目前 AI 领域衡量 “智能体( Agent )跨软件操作电脑” 能力最顶尖的基准测试,它模拟真实的操作系统环境,要求 AI 像人类一样通过视觉观察屏幕,并精准操控浏览器、Excel 、VS Code 等各类桌面应用来完成跨平台的复杂任务,被 OpenAI 、Anthropic 、字节跳动 Seed 、月之暗面、智谱等顶尖 AI 团队广泛采用,更是检验 AI 能否从“只会聊天”进化为“高效数字员工”的硬核试金石。

为什么 OSWorld 对 7B 模型几乎是“地狱难度”?

  • 真实生态:任务在 VS Code 、LibreOffice 等真实软件中运行,环境信息密度远超结构化数据

  • 闭环操控:需要连续理解截图、规划路径和进行键鼠操作,考验长程推理能力

  • 零容错率:限时 30 步,操作需步步为营,失败不可逆转

  • 数据稀疏:基础成功率不足 1/4,即使是大模型也面临严峻挑战

复杂的跨软件协作与精细的坐标控制,使得参数规模有限的 7B 模型在“理解”与“执行”之间难以调和,长期处于“不可用”状态。

核心技术路径:九章云极三大创新赋能轻量化突破

1. 核心方法:解耦式 GUI 智能体强化学习框架

九章云极并未通过简单扩大模型规模取胜,而是选择了系统级的算法创新。提出了 DART( Decoupled Agentic Reinforcement Training ),首次将 GUI 智能体的强化学习训练流程彻底解耦为四个异步模块:

三项关键突破

  • 推演级轨迹调度( Rollout-Level Scheduling ):

以“单条轨迹”作为调度最小单位;

每个 rollout 完成后立即释放环境并启动下一个任务;

环境利用率提升从 12.2% 达到 67.7%,提升幅度高达 5.5 倍。

  • 动态模型服务池( Dynamic Model Serving Pool ):

采用 GPU 推演的集中化管理,支持多模型版本的热加载;

避免了传统“一卡一环境”的资源浪费;

GPU 推演利用率提升 1.6 倍

GPU 资源的并发弹性扩展能力。

  • 训练与推理异步执行( Asynchronous Execution of Training and Inference ):

训练与推演实现异步解耦;

避免模型更新导致服务阻塞。

2. 数据策略:四层自适应筛选,放大稀疏成功信号

针对 GUI 强化学习中的“成功少、噪声多”核心难题,DART 设计了覆盖任务、轨迹、步骤和 Token 的四层筛选机制:

这一机制使得 7B 模型,在最大 30 步内,即可稳定的实现 OSWorld 中的任务要求。

3. 多维优化:以轻量化参数对冲复杂场景,重塑性能边界

九章云极经过强化学习训练的 7B 模型之所以能实现突破,关键在于采用了“场景适配、精度优化、算力协同”的三维技术方案,在控制参数量的同时,最大化提升操作智能性能:

  • 场景化指令对齐技术:基于百万级真实操作场景数据训练,构建细分领域的指令库,优化模型对办公自动化、数据处理等高频场景的语义理解能力,精准捕捉模糊指令背后的核心需求,使指令理解准确率较通用模型提升 23 %,并减少无效操作;

  • 混合精度推理优化:借鉴智算硬件优化经验,对模型不同模块进行精度分层处理。核心推理模块保留 FP16 精度以确保准确性,非核心模块量化至 INT8 精度。这一调度方式实现推理效率提升 1.8 倍,资源占用率降低 40 %

  • 软硬件协同调度机制:依托自研的智算技术栈优势,深度协同模型推理与算力资源,动态调整算力分配策略以应对负载波动,避免资源闲置。同时使用专用推理加速引擎优化 GUI 元素识别与动作规划的计算链路,进一步降低轻量化模型的推理延迟。

实验结果:全类型任务下性能优势显著

在最大步长仅有 30 步的情况下,DART-GUI-7B 在多种任务类型上表现出显著优势,包括:

  • 浏览器类( Chrome );

  • 图像/设计类( GIMP );

  • 邮件客户端类( Thunderbird );

  • 代码/ IDE 类( VS Code );

  • 操作系统交互类( OS )。

亮点:GIMP 类任务的正确率高达 80.77 %,且在办公套件( Impress、Writer、Calc )、媒体播放类( VLC )以及多应用协同等任务中,其能力也有显著提升。

九章云极还进行了真实场景的验证。在 DataCanvas Alaya NeW 平台上,DART-GUI-7B 成功地通过键鼠操作完成文档查找、导航到指定页面及查找官网联系方式等场景任务,其成功率超过 90 %

产业价值与未来展望

目前,AI 大模型正加速从“技术验证”向“产业落地”转变。通用人工智能作为连接数字世界与物理操作的重要工具,在办公自动化、智能运维和工业控制等领域展现出广阔的应用前景。然而,模型部署成本高、轻量化模型性能不足及数据出域安全等问题,仍然是产业规模化的关键瓶颈。

九章云极的 7B GUI 模型突破为行业提供了“低成本、高性能”的通用人工智能解决方案,有望推动通用人工智能在中小企业及长尾场景的普及。