写点什么

Databricks Agent Bricks 使用 TAO 和 ALHF 方法自动化企业 AI 开发

作者:Vinod Goje

  • 2025-07-29
    北京
  • 本文字数:1830 字

    阅读完需:约 6 分钟

大小:911.40K时长:05:11
Databricks Agent Bricks使用TAO和ALHF方法自动化企业AI开发

Databricks推出了Agent Bricks,这是一种新产品,它改变了企业开发特定领域智能体的方式。该平台通过允许团队专注于定义智能体的目的,并提供通过自然语言反馈的战略指导来提高质量,从而解决了智能体开发的复杂性问题。“Agent Bricks 处理剩下的工作,自动生成评估套件并自动优化质量,”该公司表示。自动化工作流程包括生成特定任务的评估和 LLM 裁判以进行质量评估,创建类似于客户数据的合成数据以补充智能体学习,以及搜索优化技术以完善智能体性能。

 

来源:Databricks Agent Bricks

 

Agent Bricks通过一个四步自动化工作流程进行操作,当用户通过选择他们的目标、用自然语言定义他们希望智能体完成的高级描述,并连接他们的数据源来声明他们的任务时,工作流程开始。然后平台启动自动评估,其中 Agent Bricks 自动创建特定于任务的评估基准,可能涉及合成生成新数据或构建自定义 LLM 裁判。

 

系统继续进行自动优化,Agent Bricks 智能地搜索和组合各种优化技术,如提示工程、模型微调、奖励模型或测试自适应优化(TAO)以实现高质量。最后阶段涉及成本和质量,因为 Agent Bricks 确保智能体不仅高效而且具有成本效益,允许用户选择成本优化或质量优化模型。“在许多情况下,与其他 DIY 方法相比,最终解决方案的质量更高,成本更低。”公司表示。

 

Agent Bricks 结合了智能体学习的最新研究,Databricks强调了一个关键创新,称为从人类反馈中学习的智能体(ALHF)。公司识别出一个质量挑战,即从反馈中引导智能体行为被证明是困难的,因为反馈通常以简单的点赞与否的信号出现,这使得不清楚智能体系统中的哪些组件需要调整。当前的方法将所有指令打包成一个庞大的 LLM 提示,Databricks 将其描述为脆弱且无法推广到更复杂的智能体系统。ALHF 通过两种方法解决这个问题:从自然语言指导中接收丰富的上下文,并使用算法智能地将这些指导转化为技术优化,如完善检索算法、增强提示、过滤向量数据库或修改代理式模式

 

Databricks 还引入了测试时自适应优化(TAO),这是一种新的模型调整方法,只需要未标记的使用数据,让企业使用现有数据提高 AI 的质量和成本。该方法利用测试时计算和强化学习来教模型仅根据过去的输入示例更好地执行任务,用可调调优的计算预算而不是人工标记工作进行扩展。“即使没有标记数据,TAO 也能实现比传统微调更好的模型质量,它可以将像 Llama 这样的廉价开源模型的质量提升到像 GPT-4o 和 o3-mini 这样的昂贵专有模型的质量范围内。”公司表示

 

Databricks 的Mosaic AI智能体评估帮助开发人员评估代理式 AI 应用的质量、成本和延迟,包括RAG应用和链。该工具识别质量问题,并确定这些问题的根本原因,涵盖MLOps生命周期的开发、预发和生产阶段,所有评估指标和数据都记录在MLflow运行中。智能体评估在开发和生产环境之间保持一致,使团队能够快速迭代、评估、部署和监控代理式应用。环境之间的主要区别在于地面真实标签的可用性,这允许智能体评估在开发期间计算额外的质量指标。

 

Agent Bricks 通过四种主要智能体类型解决关键行业的多个客户用例。信息提取智能体将电子邮件、PDF 和报告等文档转换为结构化字段,如名称、日期和产品详细信息,允许零售组织从供应商 PDF 中提取产品详细信息,无论文档复杂性如何。知识助理智能体提供基于企业数据的快速、准确的答案,使制造技术人员能够从 SOP 和维护手册中获得即时、可引用的答案。多智能体监督者使构建系统能够协调 Genie 空间、其他 LLM 智能体和工具(如 MCP)中的智能体,允许金融服务组织协调多个智能体进行意图检测、文档检索和合规检查。自定义LLM智能体为特定行业任务转换文本,帮助营销团队生成符合组织品牌指南的内容。

 

Databricks 的首席技术官兼加州大学伯克利分校计算机科学教授Matei Zaharia强调了开发工作的协作性质。

 

这是我们工程和 Databricks Mosaic 研究团队之间的一项联合努力,基于我们开发的新调优方法,如 TAO 和 ALHF。我认为这种声明式开发是人工智能的未来

Zaharia说道。

 

该平台代表了一种转变,允许领域专家直接为系统改进做出贡献,而不需要在人工智能基础设施方面拥有深厚的技术专长,可能会改变企业处理智能体开发工作流的方式。

 

有兴趣了解更多关于 Agent Bricks 实现和多智能体系统开发的读者,可以通过Databricks的Data AI峰会会议了解构建结构化和非结构化数据的多智能体系统的额外技术细节。该平台功能的视频演示提供了自动化优化工作流程和实际应用场景的可视化示例。

 

原文链接:

https://www.infoq.com/news/2025/07/databricks-agent-bricks-platform/

2025-07-29 15:003999

评论

发布
暂无评论

软件测试/测试开发/人工智能丨机器学习特征,离散特征和连续特征

测试人

人工智能 软件测试

展位火爆!TDengine 受邀参加EDT2023中国能源化工数字科技峰会

TDengine

tdengine 时序数据库

Google SEO服务的常见坑人套路

九凌网络

4种Python中基于字段的不使用元类的ORM实现方法

华为云开发者联盟

Python 开发 华为云 华为云开发者联盟

Python在人工智能领域的应用案例分析

技术冰糖葫芦

API

Pinduoduo API丨Pinduoduo commodity details data interface丨Pinduoduo commodity data interface

tbapi

拼多多API接口 pinduoduo API 拼多多商品详情数据接口

集成开发环境(IDE)的用途?

小魏写代码

腾讯捐赠编译器基础软件,为中国开发者“添了双筷子”

腾讯云大数据

大数据

用友出席操作系统大会,携手麒麟软件深度服务企业数智化

用友BIP

外贸各个大洲客户的特点

九凌网络

大型媒体网站霸占86.1% Google首位排名:普通网站如何突围?

九凌网络

软件测试/测试开发/人工智能丨模型通过什么原理帮助业务解决问题

测试人

人工智能 软件测试

文心大模型助力企业级NLP模型快速定制

百度开发者中心

人工智能 nlp 文心大模型

制造业进项税额转出全场景数智化管理

用友BIP

聊聊kube-scheduler如何完成调度和调整调度权重

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟

理解 Paimon changelog producer

不在线第一只蜗牛

大数据 Data

5个免费、跨平台的SQLite数据库可视化工具

不在线第一只蜗牛

sqlite sql 开源 数据可视化

TDengine 签约中船九院,助力航运业智能化转型升级

TDengine

tdengine 时序数据库 国产时序数据库

变革自然语言处理的新型大模型架构

百度开发者中心

nlp 大模型

软件测试/测试开发/人工智能丨GraphWalker自动化测试用例生成

测试人

人工智能 软件测试

Curve 文件系统为 AI 业务降本增效

OpenCurve

云计算 大数据 AI 分布式 文件存储

多家公司荣获Autodesk Design & Make大中华区杰出贡献奖

E科讯

前端框架如何帮助开发者构建应用程序?

互联网工科生

软件开发 前端框架 应用开发 JNPF

社招邀请|阿里云热招岗位简历投递中!

阿里云CloudImagine

云计算

基于Stable Diffusion的智能绘画大模型

百度开发者中心

人工智能 大模型

Databricks Agent Bricks使用TAO和ALHF方法自动化企业AI开发_AI&大模型_InfoQ精选文章