最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

雅虎开源语义数据 Web 爬虫:Anthelion

  • 2015-12-25
  • 本文字数:1096 字

    阅读完需:约 4 分钟

整个 Web 世界正在发生剧烈的转变,包含语义注解的 Web 页面让数据的提取和重用变得越来越容易,而为了提供更好的用户体验搜索引擎和社交媒体网站对这种数据的使用也越来越多。要获取这些数据离不开网络爬虫的支持,为此,Yahoo 创建了 Anthelion 项目,一个旨在爬取语义数据的 Nutch 插件,最近,该项目已在 GitHub 上开源

Anthelion 是为了更好地爬取嵌在 HTML 页面中的结构化数据而设计的,它采用了一种全新的方法来爬取含有丰富数据的页面上的内容:将线上学习和 Bandit 探索方法有效地结合起来,根据页面上下文以及从之前页面提取到的元数据反馈预测 Web 页面的数据丰富程度。 这种方法明显优于主题爬取(Focused Crawling)目前所采用的其他技术,极大地提升了爬取效率。

整个数据爬取的流程如下:

正如上面的流程图所展示的,为了执行主题爬取,该插件实现了三个扩展:

  1. AnthelionScoringFilter(实现了 ScoringFilter 接口):在线分类器,它对每一个外链打分,同时将新发现的外链分为相关的和不相关的两类。
  2. WdcParser(实现了 Parser 接口):解析 Web 页面内容并提取语义数据。该扩展基于 any23 类库实现,能够从 HTML 中提取 Microdata、Microformats 和 RDFa 注解。
  3. TripleExtractor(实现了 IndexingFilter 接口):将新域存储到索引中供之后的查询使用。

对于想亲身感受 Anthelion 的用户而言,直接从GitHub 上下载整个项目包或许是一个不错的选择,因为它包含了完整的Nutch 1.6 代码和相关插件,不需要任何修改和设置就能运行。如果只想下载插件,那么需要从文件的根目录下下载 nutch-anth.zip 并进行相关的设置。

在构建好项目之后,导航到\target 文件夹,执行 CCFakeCrawler 类的 main 函数就能启动爬虫,例如:

java -Xmx15G -cp ant.jar com.yahoo.research.robme.anthelion.simulation.CCFakeCrawler [indexfile] [networkfile] [labelfile] [propertiesfile] [resultlogfile]其中,indexfile 是 ID 和 URL 之间的映射文件,networkfile 是索引中 ID 的图,labelfile 是满足目标函数的 ID 列表,propertiesfile 是配置文件,resultlogfile 存储性能和爬取流程信息。

Anthelion 支持 init、start、stop 和 exit 操作,在爬取的过程中,用户还可以通过 status 命令查看爬取进程的状态。另外,对于 Anthelion 爬取数据的精确度 Yahoo 也进行了评测,结果如下:


感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-12-25 18:004199
用户头像

发布了 321 篇内容, 共 116.0 次阅读, 收获喜欢 18 次。

关注

评论

发布
暂无评论
发现更多内容

拥抱梦想夏令营:2024年暑假招生计划发布,助力青少年成长

科技热闻

AlDente Pro for Mac v1.24激活版下载

iMac小白

泰开集团总会计师杜艳春:浅谈设备制造企业数智化之路

用友BIP

企业数智化

企业数字化转型是什么?数字化转型的痛点又是什么?怎么转?从哪里转?转了有哪些好处?

天津汇柏科技有限公司

数字化转型峰会

【领先实践之离散制造行业】MOM全场景,助力光伏单晶行业降本增效

用友BIP

领先实践 光伏单晶行业

“青否数字人”的应用领域!

青否数字人

数字人

Serato DJ Pro for Mac(专业DJ软件)v3.0.3中文激活版下载

影影绰绰一往直前

DevSecOps|极狐GitLab IaC 安全扫描,保障云原生安全

极狐GitLab

“数据要素×” 行动计划要做的几件小事,可都不是小事啊!

用友BIP

数据要素

商业智能、数据分析和需求预测在现代零售管理中的关键运用

第七在线

青否数字人系统源码到底怎么样?

青否数字人

数字人

文件备份和同步软件推荐:Syncovery 最新激活版

胖墩儿不胖y

Mac软件 同步备份软件

对话式搜索:基于OpenSearch向量检索版+大模型的实践

百度开发者中心

人工智能 大模型 对话系统

App Cleaner & Uninstaller for mac v8.2.5中文激活版下载

影影绰绰一往直前

AlDente Pro for Mac v1.24激活版下载

影影绰绰一往直前

Dynamic Wallpaper for Mac v17.1中文版下载

影影绰绰一往直前

即将取代你的数字人到底是什么?

青否数字人

数字人

Mybatis 拦截器实现单数据源内多数据库切换 | 京东物流技术团队

京东科技开发者

8种超简单的Golang生成随机字符串方式

华为云开发者联盟

开发 华为云 Go 语言 华为云开发者联盟

解锁前端新潜能:如何使用 Rust 锈化前端工具链

京东科技开发者

XPET宠物游戏系统开发

l8l259l3365

文心一言 VS 讯飞星火 VS chatgpt (174)-- 算法导论13.3 3题

福大大架构师每日一题

福大大架构师每日一题

打造新一代云原生"消息、事件、流"统一消息引擎的融合处理平台

洛神灬殇

RocketMQ 云原生 消息队列 2024年第五篇文章

IPQ6000 series IPQ6010 and IPQ6018: Explore infinite possibilities, when will your smart connection evolve?

wallysSK

龙蜥副理事长张东:潮蜥共引,繁荣系统软件生态 | 2023龙蜥操作系统大会

OpenAnolis小助手

操作系统 算力 系统软件 龙蜥社区 浪潮信息

Illustrator 2021 for mac v25.4.1中文直装版下载

影影绰绰一往直前

应对 DevOps 中的技术债务:创新与稳定性的微妙平衡

禅道项目管理

DevOps 自动化测试 技术债务 禅道项目管理

Navicat Premium 15 for Mac v15.0.36中文激活版下载

iMac小白

XMind for mac (XMind思维导图)v24.01中文版下载

iMac小白

大模型Chatbots评估新视角:结合定性与程序方法的实践经验

Baihai IDP

程序员 AI LLM 白海科技 Chatbots

“云+冷链”新场景,华为云助力前海粤十“物畅其流”

华为云开发者联盟

后端 物联网 华为云 华为云开发者联盟

雅虎开源语义数据Web爬虫:Anthelion_语言 & 开发_孙镜涛_InfoQ精选文章