Sarang Kulkarni 谈在生产环境中构建深度研究智能体的经验教训

深度研究智能体系统（如 OpenAI 和 Gemini Deep Research Agent）是一类 AI 智能体，旨在利用动态推理和多步骤信息检索技术，在互联网上针对复杂任务进行多步骤研究，并生成达到研究分析师水平的全面的结构化分析报告。

在 2026 年 Arc of AI 大会上，来自 Thoughtworks 团队的 Sarang Kulkarni 发表了演讲，探讨如何设计和部署用于深度推理与合成的多智能体研究系统，以及在实际的医疗保健和制药研发项目中开发深度研究智能体时汲取的经验教训。他还探讨了团队如何利用智能体循环和任务工程等技术，充分发挥该解决方案的潜力。

在医疗保健和临床试验等关键行业中，研究人员需要的不仅仅是能够执行简单问答任务的传统 AI 模型。他们需要的是能够在处理内部数据和互联网数据时进行发现、关联和推理，同时确保可靠性、透明度和合规性的系统。

在演讲开时时，Kulkarni 指出，将一种新药推向市场通常需要花费 26 亿美元。此外，大约一半的研究是在缺乏前期证据的情况下进行的，因为虽然存在相关的知识，但获取这些知识和信息却存在障碍。在整个药物发现与开发流程中，如何在恰当的时机获取正确的数据是一项很大的挑战。为了利用 AI 技术研发新药，两年前，他们团队构建了一个基于检索增强生成（RAG）技术的聊天机器人，用于检索非结构化数据。对于研究中的简单查询，RAG 解决方案运行良好，但面对复杂问题时，他们不得不对其进行升级，使其成为一个智能体 RAG [] 应用程序。而针对深度研究用例，该团队开发了一个名为 Agentic RAG++ 的解决方案。

Kulkarni 详细介绍了该深度研究系统的架构，包括：澄清循环、研究循环（用于执行思考与规划、执行、反思和规划调整等任务）以及写作循环（专注于写作和反思任务）。研究智能体的初始版本基于两个工具：RAG 工具和 text2sql 工具。RAG 工具的设计基于加权混合搜索、20 个上下文块、一个重新排序器以及 7 个精炼后的上下文块。text2sql 工具负责将 SQL 查询错误反馈给大型语言模型（LLM），以便优化模型，提高查询执行的准确性。他提到，诸如令牌成本过高、性能不佳和延迟过长等因素，都可能导致 AI 智能体的检索效果不佳。上下文焦虑是团队需要警惕的另一个问题。此外，数据不完整也会导致自我评估失准，但反思循环等技术有助于解决数据完整性问题。

演讲者探讨了在开发定制化深度研究智能体解决方案时需要应对的各种故障模式。长期任务需要明确的“思考-行动”循环。这可以通过整合多个步骤来解决，例如思考、规划（在搜索之前进行）、检查（在搜索完成后进行，并验证输出结果），以及最后的更新步骤，这一步实际上会生成最终报告。Anthropic 的 “think” 工具及其他类似的解决方案有助于规范化推理暂停。

此外，长期任务往往会在整体流程的各个步骤之间产生决策断层。在他们的解决方案中，反思步骤不仅包括数据反思，还包含流程反思，即评估流程是否已经完成。该阶段还包含第三个反思步骤“草稿撰写循环”，用于弥补合成方面的不足。例如，那些在研究过程中存在但在写作任务中未能涵盖的信息，会由“重写草稿”步骤来处理。

在演讲的最后，Kulkarni 探讨了新兴的治理框架工程技术，其中工具设计、记忆系统、验证检查、约束条件以及反馈循环的构建，使得自主式 AI 智能体可以更加可靠且可追溯。治理框架工程的目标是帮助 AI 解决方案从单纯的提示工程转向专注于 AI 智能体的自动化任务执行。本质上， AI 智能体是模型与治理框架的结合，因此，模型质量越高，所需的框架就越精简。

原文链接：https://www.infoq.com/news/2026/05/kulkarni-deep-research-agents/

创作场景

Sarang Kulkarni 谈在生产环境中构建深度研究智能体的经验教训