写点什么

雅虎开源语义数据 Web 爬虫:Anthelion

  • 2015-12-25
  • 本文字数:1096 字

    阅读完需:约 4 分钟

整个 Web 世界正在发生剧烈的转变,包含语义注解的 Web 页面让数据的提取和重用变得越来越容易,而为了提供更好的用户体验搜索引擎和社交媒体网站对这种数据的使用也越来越多。要获取这些数据离不开网络爬虫的支持,为此,Yahoo 创建了 Anthelion 项目,一个旨在爬取语义数据的 Nutch 插件,最近,该项目已在 GitHub 上开源

Anthelion 是为了更好地爬取嵌在 HTML 页面中的结构化数据而设计的,它采用了一种全新的方法来爬取含有丰富数据的页面上的内容:将线上学习和 Bandit 探索方法有效地结合起来,根据页面上下文以及从之前页面提取到的元数据反馈预测 Web 页面的数据丰富程度。 这种方法明显优于主题爬取(Focused Crawling)目前所采用的其他技术,极大地提升了爬取效率。

整个数据爬取的流程如下:

正如上面的流程图所展示的,为了执行主题爬取,该插件实现了三个扩展:

  1. AnthelionScoringFilter(实现了 ScoringFilter 接口):在线分类器,它对每一个外链打分,同时将新发现的外链分为相关的和不相关的两类。
  2. WdcParser(实现了 Parser 接口):解析 Web 页面内容并提取语义数据。该扩展基于 any23 类库实现,能够从 HTML 中提取 Microdata、Microformats 和 RDFa 注解。
  3. TripleExtractor(实现了 IndexingFilter 接口):将新域存储到索引中供之后的查询使用。

对于想亲身感受 Anthelion 的用户而言,直接从GitHub 上下载整个项目包或许是一个不错的选择,因为它包含了完整的Nutch 1.6 代码和相关插件,不需要任何修改和设置就能运行。如果只想下载插件,那么需要从文件的根目录下下载 nutch-anth.zip 并进行相关的设置。

在构建好项目之后,导航到\target 文件夹,执行 CCFakeCrawler 类的 main 函数就能启动爬虫,例如:

java -Xmx15G -cp ant.jar com.yahoo.research.robme.anthelion.simulation.CCFakeCrawler [indexfile] [networkfile] [labelfile] [propertiesfile] [resultlogfile]其中,indexfile 是 ID 和 URL 之间的映射文件,networkfile 是索引中 ID 的图,labelfile 是满足目标函数的 ID 列表,propertiesfile 是配置文件,resultlogfile 存储性能和爬取流程信息。

Anthelion 支持 init、start、stop 和 exit 操作,在爬取的过程中,用户还可以通过 status 命令查看爬取进程的状态。另外,对于 Anthelion 爬取数据的精确度 Yahoo 也进行了评测,结果如下:


感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-12-25 18:004585
用户头像

发布了 321 篇内容, 共 127.2 次阅读, 收获喜欢 19 次。

关注

评论

发布
暂无评论
发现更多内容

测试三大难题之一:“测试有效性”的应对策略

测试人

软件测试

WebGL 开发 VR 应用的技术难点

北京木奇移动技术有限公司

VR开发 软件外包公司 webgl开发

技术干货丨 OptiStruct 非线性之前车门过开分析(内附模型下载)

Altair RapidMiner

CAE 汽车仿真 仿真设计 车门仿真 非线性仿真

测试右移的价值与实践体系:打造高效软件测试之路

测试人

软件测试

TiDB 工具 | PD全部扩缩容替换注意事项

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 故障排查/诊断 扩/缩容

7.5.4 MVCC优化测试

TiDB 社区干货传送门

7.x 实践

WebGL 技术开发 MR 应用的技术难点

北京木奇移动技术有限公司

软件外包公司 webgl开发 MR应用

语义检索效果差?深度学习rerank VS 统计rerank选哪个

Zilliz

Milvus 重排 语义搜索 混合搜索

人工智能如何影响社会公平与资源分配?

天津汇柏科技有限公司

AI 人工智能

CST软件如何仿真GPS上半球空间的辐射占比

思茂信息

cst cst操作 CST软件

TiDB 的 TiFlash 怎么用 | TiFlash 的最佳场景&稳定性管理

TiDB 社区干货传送门

7.x 实践

TiDB7.5.5版本加索引巨慢问题梳理

TiDB 社区干货传送门

7.x 实践

Zabbix agent2 自定义SQL监控和告警实施指南:针对TiDB数据库

TiDB 社区干货传送门

监控 实践案例 管理与运维

Lynx TiDB 慢日志收集工具

TiDB 社区干货传送门

性能调优

腾讯一面,感觉问Redis的难度不是很大

王中阳Go

redis 腾讯 面试 面试问题

2024 TiDB 社区年度总结,又携手共进了一年,2025年,一起迎接变化,挑战变化!

TiDB 社区干货传送门

火语言RPA轻松开发控制台程序或带界面交互的客户端应用

火语言RPA

RPA 自动化 低代码 影刀RPA 火语言

BladeDISC++:Dynamic Shape AI 编译器下的显存优化技术

阿里云大数据AI技术

人工智能 分布式 PAI BladeDISC++

云主机 vs 轻量型云主机:性能与灵活性的平衡

天翼云开发者社区

云计算 云主机 云主机厂商

Zilliz Cloud上新:容量提升3倍、享5折优惠,支持高精度搜索

Zilliz

zilliz cloud

探究获取亚马逊畅销榜API接口及实战应用

科普小能手

数据挖掘 数据分析 电商 亚马逊 API 接口

分布式系统架构7:本地缓存

卷福同学

Java 分布式 后端

新项目如何开展测试工作

老张

项目管理 软件测试 质量保障

Bonree ONE荣膺广东省CIO协会“2024优秀解决方案”奖!

博睿数据

雅虎开源语义数据Web爬虫:Anthelion_语言 & 开发_孙镜涛_InfoQ精选文章