2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

大规模网络浏览:Orca 探索由人类引导的 AI 代理未来

作者:Matt Foster

  • 2025-06-16
    北京
  • 本文字数:1088 字

    阅读完需:约 4 分钟

大小:544.47K时长:03:05
大规模网络浏览:Orca 探索由人类引导的 AI 代理未来

加州大学圣地亚哥分校的研究团队发布了开源系统 Orca,其核心创新在于:大型语言模型(LLMs)并非接管网页操作,而是通过智能引导辅助用户。这份经过同行评议的白皮书显示,在评估测试中,该系统显著提升了任务速度与准确性,为现实工作流程中“真人参与”智能体的潜力提供了早期实证。Orca 被设计为网页信息处理的决策“副驾驶”,其功能定位并非全自动浏览代理,而是为用户从网页中提取有用信息。

 

该系统提供一系列功能,包括从冗长网页生成摘要、非结构化内容中提取规整数据、跨会话浏览追踪变更,以及多源信息交叉验证。该系统能根据指令执行搜索、滚动、点击等网站交互动作,使用户在保持流程控制权的同时,可将重复性高或上下文复杂的任务委托处理。



在一项八人参与的实验研究中,研究者发现 Orca 能显著加速网络信息探索、拓宽信息检索范围并增强用户对结果的信任度。

 

参与者尤其肯定以下功能:可视化页面重组、选择性任务委派,以及对信息源的持续掌控。例如,有测试者借助 Orca 并排对比 Yelp 商户选项,另一用户则通过过滤 Reddit 帖子进行产品调研。系统的空间布局设计和批量交互功能因降低上下文切换成本、简化复杂工作流而获得特别好评。

 

研究团队特别强调"共享控制权"这一核心设计原则:用户始终作为操作发起者和决策者,这种设计显著提升了信任度和使用意愿。这种对控制权共享的坚持,有效保障了流程透明度与可信度,研究者认为这两大特质对建立用户信心、确保 AI 辅助工作流中的主体能动性具有关键作用。

 

Orca 系统采用 Electron 框架实现,前端基于 React 构建。每个网页都被加载到独立的 webview 中,而用于组织和交互多页面的“Web Canvas”界面则是基于开源 tldraw 库开发的。

 

所有基于语言的功能(如摘要生成、信息提取和自动化操作)均由 Claude 3.7 Sonnet 模型驱动。在后台,Orca 采用定制的 HTML 蒸馏和智能体管道架构,将原始网页内容转换为可供大语言模型使用的结构化表示。这些管道在各功能间共享,并设计为允许用户在执行过程中进行干预。

 

该开源版本的定位为研究原型而非生产就绪工具,是为帮助开发者探索未来的协作式智能体工作流。尽管前景看好,但研究人员指出该原型在增加工作负载时表现出性能限制:“配备 36GB 统一内存的 M4 Max MacBook Pro 在加载约 80 个网页后会卡死。"

 

Orca 在“真人参与”系统优势方面取得的积极成果,让我们得以一窥未来用户与智能体协作交互的可能形态:在高语境、强决策的工作流程中,AI 智能体是辅助而非取代用户。

 

截至本文撰稿时,Orca 并非唯一秉持这一理念的工具,它与其它新兴工具共享这一领域。更多案例可见于 OpenAI 的 Operator 和重新设计的 Opera Neon 浏览器

2025-06-16 14:001

评论

发布
暂无评论
发现更多内容

如何成为web安全工程师?

喀拉峻

网络安全 安全 信息安全

海康摄像机RTSP地址格式(官方最新版)

音视频牛哥

WebRTC RTMP RTSP 播放器

【AI最前线】精准优质-资讯|分享|热议第41期

百度大脑

人工智能

提升研发效能的低代码思路

赫杰辉

研发效能 低代码平台 x-series

钉钉小程序快照技术初窥

阿里巴巴终端技术

小程序 ios android 快照 体验优化

在 JavaScript 中如何检查对象为空

编程江湖

JavaScript 大前端

线程如何实现保持同步

编程江湖

Java 多线程

Stratifyd数据分析平台加盟腾讯云市场,赋能品牌消费洞察

宝马、西门子是如何开始DevOps 的?

飞算JavaAI开发助手

新来的00后真是卷王,工作没两年,跳槽到我们公司起薪26K

Geek_1df311

Java 程序员 架构 面试

面试官:系统需求多变时如何设计?

Geek_1df311

程序员 架构 面试 计算机

你不知道的$nextTick

CRMEB

CTF夺旗PWN题:二叉树的漏洞利用

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

Go WebSocket开发与测试实践【gorilla/websocket】

FunTester

Java websocket 接口测试 Go 语言 FunTester

Go语言学习查缺补漏ing Day5

Regan Yue

Go 语言 11月日更

如何实现在线播放mpeg-ts文件?

Changing Lin

11月日更

TDSQL-C for MySQL版产品新特性

腾讯云数据库

tdsql 国产数据库

社交重构、游戏革新,万物皆可元宇宙?这场大会给你讲清楚了|活动预告

网易云信

人工智能 音视频 元宇宙

白话 Linux 容器资源的隔离限制原理

恒生LIGHT云社区

Linux 运维

发布一个免费的 Elasticsearch 多集群监控和管理平台 - 极限数据平台

极限实验室

elasticsearch infini 极限实验室 极限数据平台 ES多集群管理

拒绝卡顿,揭秘盒马鲜生 APP Android 短视频秒播优化方案

阿里巴巴终端技术

android App 短视频 移动开发 体验优化

Python代码阅读(第61篇):延迟调用函数

Felix

Python 编程 Code 阅读代码 Python初学者

什么是微服务架构,有何优缺点?

雯雯写代码

微服务

TDSQL-C for MySQL版产品新特性

腾讯云数据库

数据库 tdsql

TDSQL MySQL版产品能力介绍及新特性

腾讯云数据库

数据库 tdsql

Spark面试题大全

编程江湖

大数据 Spark面试题

2022年游戏市场趋势——最后一个十亿蓝海待挖掘

游戏出海 手机游戏

如何判断一个需求是真的用户需求,还是伪需求呢?

石云升

产品思维 需求分析 11月日更

YU12 YV12 NV12 NV21区别

音视频牛哥

WebRTC RTMP RTSP yuv

EMQ 出席 2021 ArchSummit,打造全连接时代的数据基础设施

EMQ映云科技

大数据 物联网 IoT 智能

如何设计一款跨平台低延迟的RTMP|RTSP直播播放器

音视频牛哥

WebRTC HLS RTMP RTSP

大规模网络浏览:Orca 探索由人类引导的 AI 代理未来_AI&大模型_InfoQ精选文章