大规模网络浏览：Orca 探索由人类引导的 AI 代理未来

加州大学圣地亚哥分校的研究团队发布了开源系统 Orca，其核心创新在于：大型语言模型（LLMs）并非接管网页操作，而是通过智能引导辅助用户。这份经过同行评议的白皮书显示，在评估测试中，该系统显著提升了任务速度与准确性，为现实工作流程中“真人参与”智能体的潜力提供了早期实证。Orca 被设计为网页信息处理的决策“副驾驶”，其功能定位并非全自动浏览代理，而是为用户从网页中提取有用信息。

该系统提供一系列功能，包括从冗长网页生成摘要、非结构化内容中提取规整数据、跨会话浏览追踪变更，以及多源信息交叉验证。该系统能根据指令执行搜索、滚动、点击等网站交互动作，使用户在保持流程控制权的同时，可将重复性高或上下文复杂的任务委托处理。

在一项八人参与的实验研究中，研究者发现 Orca 能显著加速网络信息探索、拓宽信息检索范围并增强用户对结果的信任度。

参与者尤其肯定以下功能：可视化页面重组、选择性任务委派，以及对信息源的持续掌控。例如，有测试者借助 Orca 并排对比 Yelp 商户选项，另一用户则通过过滤 Reddit 帖子进行产品调研。系统的空间布局设计和批量交互功能因降低上下文切换成本、简化复杂工作流而获得特别好评。

研究团队特别强调"共享控制权"这一核心设计原则：用户始终作为操作发起者和决策者，这种设计显著提升了信任度和使用意愿。这种对控制权共享的坚持，有效保障了流程透明度与可信度，研究者认为这两大特质对建立用户信心、确保 AI 辅助工作流中的主体能动性具有关键作用。

Orca 系统采用 Electron 框架实现，前端基于 React 构建。每个网页都被加载到独立的 webview 中，而用于组织和交互多页面的“Web Canvas”界面则是基于开源 tldraw 库开发的。

所有基于语言的功能（如摘要生成、信息提取和自动化操作）均由 Claude 3.7 Sonnet 模型驱动。在后台，Orca 采用定制的 HTML 蒸馏和智能体管道架构，将原始网页内容转换为可供大语言模型使用的结构化表示。这些管道在各功能间共享，并设计为允许用户在执行过程中进行干预。

该开源版本的定位为研究原型而非生产就绪工具，是为帮助开发者探索未来的协作式智能体工作流。尽管前景看好，但研究人员指出该原型在增加工作负载时表现出性能限制：“配备 36GB 统一内存的 M4 Max MacBook Pro 在加载约 80 个网页后会卡死。"

Orca 在“真人参与”系统优势方面取得的积极成果，让我们得以一窥未来用户与智能体协作交互的可能形态：在高语境、强决策的工作流程中，AI 智能体是辅助而非取代用户。

截至本文撰稿时，Orca 并非唯一秉持这一理念的工具，它与其它新兴工具共享这一领域。更多案例可见于 OpenAI 的 Operator 和重新设计的 Opera Neon 浏览器。

创作场景

大规模网络浏览：Orca 探索由人类引导的 AI 代理未来