写点什么

大规模网络浏览:Orca 探索由人类引导的 AI 代理未来

作者:Matt Foster

  • 2025-06-16
    北京
  • 本文字数:1088 字

    阅读完需:约 4 分钟

大小:544.47K时长:03:05
大规模网络浏览:Orca 探索由人类引导的 AI 代理未来

加州大学圣地亚哥分校的研究团队发布了开源系统 Orca,其核心创新在于:大型语言模型(LLMs)并非接管网页操作,而是通过智能引导辅助用户。这份经过同行评议的白皮书显示,在评估测试中,该系统显著提升了任务速度与准确性,为现实工作流程中“真人参与”智能体的潜力提供了早期实证。Orca 被设计为网页信息处理的决策“副驾驶”,其功能定位并非全自动浏览代理,而是为用户从网页中提取有用信息。

 

该系统提供一系列功能,包括从冗长网页生成摘要、非结构化内容中提取规整数据、跨会话浏览追踪变更,以及多源信息交叉验证。该系统能根据指令执行搜索、滚动、点击等网站交互动作,使用户在保持流程控制权的同时,可将重复性高或上下文复杂的任务委托处理。



在一项八人参与的实验研究中,研究者发现 Orca 能显著加速网络信息探索、拓宽信息检索范围并增强用户对结果的信任度。

 

参与者尤其肯定以下功能:可视化页面重组、选择性任务委派,以及对信息源的持续掌控。例如,有测试者借助 Orca 并排对比 Yelp 商户选项,另一用户则通过过滤 Reddit 帖子进行产品调研。系统的空间布局设计和批量交互功能因降低上下文切换成本、简化复杂工作流而获得特别好评。

 

研究团队特别强调"共享控制权"这一核心设计原则:用户始终作为操作发起者和决策者,这种设计显著提升了信任度和使用意愿。这种对控制权共享的坚持,有效保障了流程透明度与可信度,研究者认为这两大特质对建立用户信心、确保 AI 辅助工作流中的主体能动性具有关键作用。

 

Orca 系统采用 Electron 框架实现,前端基于 React 构建。每个网页都被加载到独立的 webview 中,而用于组织和交互多页面的“Web Canvas”界面则是基于开源 tldraw 库开发的。

 

所有基于语言的功能(如摘要生成、信息提取和自动化操作)均由 Claude 3.7 Sonnet 模型驱动。在后台,Orca 采用定制的 HTML 蒸馏和智能体管道架构,将原始网页内容转换为可供大语言模型使用的结构化表示。这些管道在各功能间共享,并设计为允许用户在执行过程中进行干预。

 

该开源版本的定位为研究原型而非生产就绪工具,是为帮助开发者探索未来的协作式智能体工作流。尽管前景看好,但研究人员指出该原型在增加工作负载时表现出性能限制:“配备 36GB 统一内存的 M4 Max MacBook Pro 在加载约 80 个网页后会卡死。"

 

Orca 在“真人参与”系统优势方面取得的积极成果,让我们得以一窥未来用户与智能体协作交互的可能形态:在高语境、强决策的工作流程中,AI 智能体是辅助而非取代用户。

 

截至本文撰稿时,Orca 并非唯一秉持这一理念的工具,它与其它新兴工具共享这一领域。更多案例可见于 OpenAI 的 Operator 和重新设计的 Opera Neon 浏览器

2025-06-16 14:003677

评论

发布
暂无评论
发现更多内容

vue2.x版本中Object.defineProperty对象属性监听和关联

程序猿布欧

JavaScript Vue vuejs 数据响应式原理 Javascript框架

【直播回顾】OpenHarmony知识赋能第五期第一课——精益开源

OpenHarmony开发者

OpenHarmony 成长计划

资讯|WebRTC M99 更新

网易云信

WebRTC

STM32+华为云IOT制作酒驾监控系统:上车就监控

华为云开发者联盟

mqtt stm32 华为云IoT 酒驾 酒驾监控系统

如何完成与龙蜥操作系统的兼容验证,看这里! | 一周动态

OpenAnolis小助手

操作系统 龙蜥社区 一周动态

活动报名|OpenHarmony 战“码”先锋,PR征集令

OpenHarmony开发者

OpenHarmony

得物技术浅谈深入浅出的Redis分布式锁

得物技术

redis 分布式 分布式锁 CAP 一致性

解析数仓OLAP函数:ROLLUP、CUBE、GROUPING SETS

华为云开发者联盟

Rollup GaussDB(DWS) cube GROUPING SETS OLAP函数

OpenHarmony技术日全面解读3.1 Release版本 系统基础能力再升级

OpenHarmony开发者

OpenHarmony OpenHarmony 3.1 Release

分享一个JDK批量异步任务工具Completion Service,超好用

华为云开发者联盟

jdk 线程 异步 CompletionService 批量异步任务工具

基于场景文字的多模态融合的图像分类

华为云开发者联盟

计算机视觉 图像分类 场景文本 图像视觉 多模态融合分析

深入微服务-SpringCloud调用组件Feign

janyxe

spring Spring Cloud Feign OpenFegin

Spring Data MongoDB 使用示例

Java mongodb 4月月更

好的每日站会,应该这么开 | 敏捷开发落地指南

阿里云云效

云计算 阿里云 敏捷开发 研发敏捷 每日站会

C语言总结_数组知识

DS小龙哥

4月月更

帮助文档——助客户快速了解您的产品如何使用

小炮

帮助文档

一文掌握 Docker 技术体系

博文视点Broadview

毕业总结

孙强

#架构实战营

丰富多彩的管理端—主题功能介绍

中原银行

前端 中原银行 主题 管理端工程

阿里云机器学习PAI开源中文NLP算法框架EasyNLP,助力NLP大模型落地

阿里云大数据AI技术

深度学习 nlp 开源技术

IOS技术分享| ARCallPlus 开源项目(二)

anyRTC开发者

ios 开源 音视频 移动开发 呼叫邀请

稳定性领导者!阿里云获得信通院多项系统稳定性最高级认证

阿里巴巴云原生

阿里云 云原生 可观测 性能压测 获奖

TiFlash 源码阅读(一) TiFlash 存储层概览

PingCAP

把pinpoint编译环境做成Docker镜像文件

程序员欣宸

4月月更

【建议收藏】整理Golang面试第二篇干货13问

利志分享

golang golang 面试

如何写好B端产品的技术方案?

AI架构师汤师爷

SaaS 架构设计 技术方案 B端产品

圈重点!一图读懂OpenHarmony技术日

OpenHarmony开发者

OpenHarmony 技术日

TiDB 查询优化及调优系列(二)TiDB 查询计划简介

PingCAP

为什么 Rust 是 Stack Overflow 最受欢迎语言?

非凸科技

c++ rust 性能 Stack Overflow 内存安全

浅谈小程序开源业务架构建设之路

百度Geek说

大规模网络浏览:Orca 探索由人类引导的 AI 代理未来_AI&大模型_InfoQ精选文章