
加州大学圣地亚哥分校的研究团队发布了开源系统 Orca,其核心创新在于:大型语言模型(LLMs)并非接管网页操作,而是通过智能引导辅助用户。这份经过同行评议的白皮书显示,在评估测试中,该系统显著提升了任务速度与准确性,为现实工作流程中“真人参与”智能体的潜力提供了早期实证。Orca 被设计为网页信息处理的决策“副驾驶”,其功能定位并非全自动浏览代理,而是为用户从网页中提取有用信息。
该系统提供一系列功能,包括从冗长网页生成摘要、非结构化内容中提取规整数据、跨会话浏览追踪变更,以及多源信息交叉验证。该系统能根据指令执行搜索、滚动、点击等网站交互动作,使用户在保持流程控制权的同时,可将重复性高或上下文复杂的任务委托处理。

在一项八人参与的实验研究中,研究者发现 Orca 能显著加速网络信息探索、拓宽信息检索范围并增强用户对结果的信任度。
参与者尤其肯定以下功能:可视化页面重组、选择性任务委派,以及对信息源的持续掌控。例如,有测试者借助 Orca 并排对比 Yelp 商户选项,另一用户则通过过滤 Reddit 帖子进行产品调研。系统的空间布局设计和批量交互功能因降低上下文切换成本、简化复杂工作流而获得特别好评。
研究团队特别强调"共享控制权"这一核心设计原则:用户始终作为操作发起者和决策者,这种设计显著提升了信任度和使用意愿。这种对控制权共享的坚持,有效保障了流程透明度与可信度,研究者认为这两大特质对建立用户信心、确保 AI 辅助工作流中的主体能动性具有关键作用。
Orca 系统采用 Electron 框架实现,前端基于 React 构建。每个网页都被加载到独立的 webview 中,而用于组织和交互多页面的“Web Canvas”界面则是基于开源 tldraw 库开发的。
所有基于语言的功能(如摘要生成、信息提取和自动化操作)均由 Claude 3.7 Sonnet 模型驱动。在后台,Orca 采用定制的 HTML 蒸馏和智能体管道架构,将原始网页内容转换为可供大语言模型使用的结构化表示。这些管道在各功能间共享,并设计为允许用户在执行过程中进行干预。
该开源版本的定位为研究原型而非生产就绪工具,是为帮助开发者探索未来的协作式智能体工作流。尽管前景看好,但研究人员指出该原型在增加工作负载时表现出性能限制:“配备 36GB 统一内存的 M4 Max MacBook Pro 在加载约 80 个网页后会卡死。"
Orca 在“真人参与”系统优势方面取得的积极成果,让我们得以一窥未来用户与智能体协作交互的可能形态:在高语境、强决策的工作流程中,AI 智能体是辅助而非取代用户。
截至本文撰稿时,Orca 并非唯一秉持这一理念的工具,它与其它新兴工具共享这一领域。更多案例可见于 OpenAI 的 Operator 和重新设计的 Opera Neon 浏览器。
评论