写点什么

雅虎开源语义数据 Web 爬虫:Anthelion

  • 2015-12-25
  • 本文字数:1096 字

    阅读完需:约 4 分钟

整个 Web 世界正在发生剧烈的转变,包含语义注解的 Web 页面让数据的提取和重用变得越来越容易,而为了提供更好的用户体验搜索引擎和社交媒体网站对这种数据的使用也越来越多。要获取这些数据离不开网络爬虫的支持,为此,Yahoo 创建了 Anthelion 项目,一个旨在爬取语义数据的 Nutch 插件,最近,该项目已在 GitHub 上开源

Anthelion 是为了更好地爬取嵌在 HTML 页面中的结构化数据而设计的,它采用了一种全新的方法来爬取含有丰富数据的页面上的内容:将线上学习和 Bandit 探索方法有效地结合起来,根据页面上下文以及从之前页面提取到的元数据反馈预测 Web 页面的数据丰富程度。 这种方法明显优于主题爬取(Focused Crawling)目前所采用的其他技术,极大地提升了爬取效率。

整个数据爬取的流程如下:

正如上面的流程图所展示的,为了执行主题爬取,该插件实现了三个扩展:

  1. AnthelionScoringFilter(实现了 ScoringFilter 接口):在线分类器,它对每一个外链打分,同时将新发现的外链分为相关的和不相关的两类。
  2. WdcParser(实现了 Parser 接口):解析 Web 页面内容并提取语义数据。该扩展基于 any23 类库实现,能够从 HTML 中提取 Microdata、Microformats 和 RDFa 注解。
  3. TripleExtractor(实现了 IndexingFilter 接口):将新域存储到索引中供之后的查询使用。

对于想亲身感受 Anthelion 的用户而言,直接从GitHub 上下载整个项目包或许是一个不错的选择,因为它包含了完整的Nutch 1.6 代码和相关插件,不需要任何修改和设置就能运行。如果只想下载插件,那么需要从文件的根目录下下载 nutch-anth.zip 并进行相关的设置。

在构建好项目之后,导航到\target 文件夹,执行 CCFakeCrawler 类的 main 函数就能启动爬虫,例如:

java -Xmx15G -cp ant.jar com.yahoo.research.robme.anthelion.simulation.CCFakeCrawler [indexfile] [networkfile] [labelfile] [propertiesfile] [resultlogfile]其中,indexfile 是 ID 和 URL 之间的映射文件,networkfile 是索引中 ID 的图,labelfile 是满足目标函数的 ID 列表,propertiesfile 是配置文件,resultlogfile 存储性能和爬取流程信息。

Anthelion 支持 init、start、stop 和 exit 操作,在爬取的过程中,用户还可以通过 status 命令查看爬取进程的状态。另外,对于 Anthelion 爬取数据的精确度 Yahoo 也进行了评测,结果如下:


感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-12-25 18:004760
用户头像

发布了 321 篇内容, 共 132.4 次阅读, 收获喜欢 19 次。

关注

评论

发布
暂无评论
发现更多内容

AI如何重塑芯片设计未来

qife122

半导体 芯片设计

TRAE + Milvus MCP,现在用自然语言就能搞定向量数据库部署了!

火山引擎开发者社区

字节跳动 Trae

Nexpose 8.15.1 for Linux & Windows - 漏洞扫描

sysin

Nexpose

Microsoft SQL Server 2019 RTM GDR & CU32 (2025 年 7 月更新)

sysin

SQL Server

Jarvis Agent快速开始

SkyFire

agent LLM

Proxmox Mail Gateway 8.2 - 全面的开源邮件安全平台

sysin

Proxmox

Proxmox VE 9.0 Beta - 开源虚拟化管理平台

sysin

proxmoxve

开源能源管理系统:数字化时代能源安全与效能提升的核心引擎

开源能源管理系统

开源 能源管理系统

JetBrains TRAE 插件上线 cue 能力,立即体验

火山引擎开发者社区

Trae

“高并发”对于Python爬虫有多重要?反封控的底层逻辑在这!

kookeey代理严选

python 爬虫 高并发 海外IP 动态代理IP 静态住宅IP

Microsoft SQL Server 2016 with SP3 GDR (2025 年 7 月更新)

sysin

SQL Server

Metasploit Pro 4.22.8-2025063001 (Linux, Windows) - 专业渗透测试框架

sysin

Metasploit

Playwright | 测试框架集成​指南:参数化测试 + 多浏览器并行执行

测试人

软件测试

Proxmox Backup Server 4.0 Beta - 开源企业级备份解决方案

sysin

Proxmox

年损耗超2300万!制造业工具管理困局背后的RFID破局之道

斯科信息

RFID解决方案 斯科信息 RFID技术

Jarvis Agent 核心概念与系统架构

SkyFire

agent LLM Jarvis

群聊记录太多怎么办? 用 TRAE + Chatlog MCP 实现微信群聊记录总结

火山引擎开发者社区

MCP Trae

保险科技行业需要用到堡垒机吗?哪些情况需要?

行云管家

网络安全 数据安全 堡垒机

Microsoft SQL Server 下载汇总 (2025 年 7 月更新)

sysin

SqlServer

聚力创新 智启未来:第四届中国PMO&PM大会,引领项目管理新航向

新消费日报

Microsoft Exchange Server 2016 Cumulative Update 23

sysin

Microsoft Exchange

Microsoft SQL Server 2022 RTM GDR & CU20 (2025 年 7 月更新)

sysin

SQL Server

Jarvis Agent 使用指南

SkyFire

agent LLM Jarvis

Jarvis Agent功能扩展

SkyFire

agent LLM Jarvis

Jarvis Agent高级主题

SkyFire

agent LLM Jarvis

微店商品列表API响应数据解析

tbapi

微店API 微店商品数据采集 微店商品列表接口

Burp Suite Professional 2025.7 (macOS, Linux, Windows) - Web 应用安全、测试和扫描

sysin

burp

Microsoft Exchange Server 2019 Cumulative Update 15

sysin

Microsoft Exchange

SQL Server Management Studio (SSMS) 21 - 微软数据库管理工具

sysin

SSMS

火山引擎DataAgent:AI完成从“数据洞察”到“自主行动”质变

火山引擎开发者社区

AI 火山引擎

Microsoft SQL Server 2017 RTM GDR & CU31 (2025 年 7 月更新)

sysin

SQL Server

雅虎开源语义数据Web爬虫:Anthelion_语言 & 开发_孙镜涛_InfoQ精选文章