写点什么

研究人员推出 ACE 框架,实现大语言模型自我优化上下文

作者:Robert Krzaczyński

  • 2025-10-22
    北京
  • 本文字数:1127 字

    阅读完需:约 4 分钟

大小:545.95K时长:03:06
研究人员推出ACE框架,实现大语言模型自我优化上下文

斯坦福大学、SambaNova Systems 和加州大学伯克利分校的研究人员提出了智能体情境工程(Agentic Context Engineering,ACE),这是一个旨在通过演变、结构化的上下文而非权重更新来改进大语言模型(LLM)的新框架。在相关学术论文中,ACE 被详细阐述为一种无需重新训练即可使语言模型自我改进的方法。


基于 LLM 的系统通常依赖于提示词或上下文优化来提升推理能力和整体性能。虽然像 GEPA 和动态备忘单这样的技术在一定程度上改善了模型表现,但它们往往过度追求简洁性,这可能导致“上下文坍缩”现象,即在反复改写过程中丢失关键细节。ACE 通过将上下文视为一种随着时间推移,通过模块化生成、反思和策划逐步发展的动态剧本,成功地解决了这一问题。


该框架将职责分配给三个关键组件:

  • 生成器(Generator),生成推理追踪和输出

  • 反思器(Reflector),分析成功和失败,从中总结经验教训

  • 策划者(Curator),将这些经验教训作为增量更新进行整合



来源:https://www.arxiv.org/pdf/2510.04618


与传统的重写完整提示词不同,ACE 采用了增量更新策略,即局部编辑,积累新见解的同时保留先前的知识。此外,ACE 引入了一种独特的“生长与精炼”机制,通过基于语义相似性的分析合并或修剪上下文项目来管理扩展和冗余。


在性能评估中,ACE 在智能体任务和特定领域任务上均展现出了显著的性能提升。在 AppWorld 基准测试中,ACE 平均准确率达到 59.5%,比先前的方法高出 10.6 个百分点,并与公共排行榜上的顶级条目——一个基于 GPT-4.1 的 IBM 智能体不相上下。在金融推理数据集(如 FNER 和 Formula )上,ACE 实现了平均 8.6%的性能提升,尤其在有真实反馈的情况下,其表现尤为出色。



来源:https://www.arxiv.org/pdf/2510.04618


作者强调,在多数情况下,ACE 所实现的性能提升并未借助模型微调或标记监督,而是依靠诸如任务结果、代码执行结果等自然信号来驱动优化。他们报告称,相较于 GEPA 等既定基线方法,ACE 显著降低了适应延迟,降幅高达 86.9%,同时将计算展开量减少了 75% 以上。


研究人员指出,这种方法使模型能够通过上下文更新实现“学习”,同时保持可解释性——这对于金融或医疗保健等透明度和选择性遗忘至关重要的领域来说是一种优势。


社区对该研究的反应十分积极。例如,一位 Reddit 用户分享了自己的看法

这确实令人振奋。这种方法看起来是一种更加智能的情境工程策略。如果将其与后处理以及其他模型开发中的“低垂果实”相结合,我相信我们将会看到更具性价比的改进。


ACE 证明了借助结构化且动态演变的上下文能够实现大语言模型的可扩展自我优化,为无需重新训练的持续学习开辟了一条全新的替代路径。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/agentic-context-eng/

2025-10-22 12:004352

评论

发布
暂无评论

Java-技术专题-多线程顺序执行的8种方案实现

码界西柚

Java 并发编程 AQS 多线程 JUC

6 张图带你彻底搞懂分布式事务 XA 模式

阿里巴巴云原生

Java 数据库 云原生 存储

连续三年入围 Gartner 容器竞争格局,阿里云容器服务新布局首次公开

阿里巴巴云原生

容器 运维 云原生 k8s 边缘计算

老爷子这代码,看跪了!

why技术

Java

硬核系列 | 手写脚本语言编译器

九叔(高翔龙)

Java 编译器 脚本语言 词法分析器 编译器原理

CloudIDE:为开发者写代码开启“加速”模式

华为云开发者联盟

开发者 代码 华为云 CloudIDE HDC2021

BOE(京东方)成都数字医院开诊,投资60亿打造西南智慧医疗创新典范

爱极客侠

南京的春天

小天同学

随笔 4月日更 春天 南京 散文

拍立淘创始人潘攀博士为你揭开“以图搜图”的神秘面纱!

博文视点Broadview

FusionInsight MRS:你的大数据“管家”

华为云开发者联盟

大数据 数据湖 云原生 华为云 FusionInsight MRS

Rust从0到1-代码组织-路径

rust 路径 代码组织 paths

Python异常的这些知识点你都get到了吗?

老猿Python

Python 编程语言 异常处理

20年研发安全积累,5大研发安全能力让软件“天生安全”

华为云开发者联盟

DevOps 安全 DevSecOps 华为云 devcloud

新疆重点人员管控系统搭建,指挥调度系统开发

Java中&、|、&&、||详解

Sakura

4月日更

近期值得关注的四款工具

彭宏豪95

效率 工具 Mac 4月日更

Golang easyjson

escray

学习 极客时间 Go 语言 4月日更

应“云”而生的 Java 框架 Quarkus:构建小而快的镜像

张晓辉

Java Docker Serverless CloudNative Quarkus

如何快速准备高质量的AI数据?

华为云开发者联盟

AI 数据 华为云 modelarts 数据标注

软件 IT 专业的高校大学生创新创业问卷调查

五分钟学大数据

问卷调查

机器学习训练营第一次作业

学习

基于区块链技术的去中心化自治组织——核心属性、演进脉络与应用前景

CECBC

区块链

谁说 Java 不能用来跑 Serverless?

张晓辉

Java Serverless Knative Quarkus

curl使用

Hex

工具

低功耗深度休眠后无法唤醒、烧录程序,怎么办?(华大半导体HC32L136)

不脱发的程序猿

嵌入式软件 单片机 4月日更 华大半导体 HC32L136

全球案例 | Dropbox: 在 COVID-19 时代通过 Atlassian 为远程工作提供动力

Atlassian

敏捷 Atlassian Jira 远程工作 Dropbox

BOE(京东方)亮相数字中国 “三驾马车”加速物联网战略转型

爱极客侠

RocketMQ 在使用上的一些排坑和优化

AI乔治

Java 架构 分布式 RocketMQ 高并发

面向软件 IT 专业的高校大学生职业规划问卷调查

打工人!

IT 问卷调查 职业生涯规划

【Node专题】Buffer理解

南吕

后端 nodejs 4月日更

全球案例 | Dropbox: 在 COVID-19 时代通过 Atlassian 为远程工作提供动力

Atlassian

DevOps 敏捷 远程办公 Atlassian Jira

研究人员推出ACE框架,实现大语言模型自我优化上下文_AI&大模型_InfoQ精选文章