NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

与 Julien Nioche 探讨基于 Apache Storm 的开源爬虫流水线 StormCrawler

  • 2016-12-26
  • 本文字数:1569 字

    阅读完需:约 5 分钟

Julien Nioche 是 DigitalPebble 公司的总监、PMC 成员和 Apache Nutch 网络爬虫项目的代码提交者。 StormCrawler 是一组可重用的组件,可以构建基于流式框架 Apache Storm 的分布式网络爬虫。Julien Nioche 就 StormCrawler 接受了我们的采访,谈了他的一些看法。

Nioche 是该项目的主要贡献者,InfoQ 采访他以了解更多关于 StormCrawler 的情况,以及在相同领域内它与其他技术相比有什么特点。

InfoQ:爬虫处理流水线在什么阶段可以受益于 StormCrawler?

Julien Nioche:StormCrawler 提供了代码和资源,可以用它来实现所有爬虫处理流水线的核心阶段,比如调度、获取、解析和生成索引等。它也为常用项目提供了可供调用的模块,比如 Apache Solr Elasticsearch MySQL 或者 Apache Tika 等。它还有一套可扩展的功能,可以用 XPath sitemaps 、URL 过滤器或语言识别等去做数据提取。

InfoQ:与其他爬虫技术,比如 Apache Nutch 和 Python 的 Scrapy 等相比较,StormCrawler 有什么特点?

Nioche:StormCrawler 是基于我开发 Apache Nutch 的经验开发的,很大程度上要归功于它,主要是一些概念(比如 FetcherBolt、URL 和解析过滤器的设计)和早期实现。StormCrawler 实现了 Nutch 的功能,并且像 Nutch 2.x 版一样,可以使用不同的后端数据库(HBase、Cassandra 等等)。

StormCrawler 和 Nutch 之间的主要区别是,后者基于(并且催生了)Apache Hadoop 项目,而且是批量驱动的。URL 提取、内容解析和生成索引都是作为单独的步骤完成的。这会导致当提取 URL 的时候,CPU 和磁盘的使用率相对较低,而网络流量高。而当解析或生成索引时则反之,CPU 和磁盘的使用率高,网络流量低。

与它相反,StormCrawler 基于流处理框架 Apache Storm 实现的,并且所有的操作都可以在同一时间进行:URL 提取、解析和生成索引都不断地并行进行。这就使整个爬取过程更加高效,而且没有长尾的工作量,而这是面向批处理方法的常见问题。与 Nutch 不同,处理内容不一定要保存在磁盘上(但如果必要的话也可以保存在磁盘上)。也可以用 StormCrawler 更容易地实现更丰富的用例,比如需要低延迟的时候,或者当 URL 成为流不断到达的时候(比如用户生成的事件,像访问页面等)。

把两者之间进行对比,我们可以发现 StormCrawler 运行在一个分布式的、可扩展的环境中,而 Scrapy 是单进程的,即使有像 Frontera 那样的项目去做分布式爬虫,。

StormCrawler 代表了 Apache Storm 的分布式和可靠性(再加上其他的功能,比如用户界面、指标框架和日志等)。

Scrapy 和 StormCrawler 都在力图实现用户友好性和为数据抓取提供好的解决方案。

总之我认为,StormCrawler 是 Nutch 的可扩展性和 Scrapy 的用户友好性的结合体。

InfoQ:爬取的工作量往往是 I/O 密集型的。与其他的替代品,比如 Apache Spark 或 Apache Flink 等相比,使用 Apache Storm 作为流处理框架的优势是什么?

Nioche:Apache Storm 设计和概念简单并且高效。Spark 那时还不存在。Spark 对数据进行小批量流处理的方式,及其声明式的风格并不非常适合我的需求。

爬行的主要挑战之一是礼貌,这个概念的意思是爬虫访问 Web 服务器的频率。与大多数的流式应用不同,它的目的并不只是尽可能快地获得尽可能多的信息,而是要有礼貌地执行但同时优化吞吐量。我们要进行更好的控制,Apache Storm 的机制恰好可以满足我们的需求。

InfoQ:StormCrawler 接下来的版本的路线图是什么?

Nioche:StormCrawler 的发展是由社区驱动的。最新发布的稳定版本是1.2,它是基于Storm 的1.x 版本开发的。下一个要发布的版本将包括语言识别模块,并且很有可能会提供一个新端口来支持 Elasticsearch 5 。在某种程度上即将发布的主要功能是实现基于 Selenium 的协议,这将适用于基于 Ajax 的网站。

查看英文原文 Julien Nioche on StormCrawler, Open-Source Crawler Pipelines Backed by Apache Storm

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2016-12-26 18:006522
用户头像

发布了 152 篇内容, 共 68.0 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

拼多多ID取商品详情API:电商行业的秘密武器与实时数据获取的智慧之路

Noah

一文搞懂Android和嵌入式Linux开发差异点

巫山老妖

INFINI Labs 产品更新 | Easysearch 新增快照搜索功能,Console 支持 OpenSearch 存储

极限实验室

console easysearch

一文详解 BRC20 衍生品协议 Bitcat,铭文市场长期发展的助推

威廉META

openEuler商业化进展可观:累计装机量超610万套,市场持续扩容

彭飞

AI数字人直播的完整教程!

青否数字人

数字人

C 语言教程:数据类型和格式说明符

小万哥

c 程序员 软件 后端 开发

APIitem_get:你的淘宝商品详情搜索神器

技术冰糖葫芦

API 接口

小红书商品详情API:电商助力

Noah

开放原子云社区正式成立

开放原子开源基金会

Java 开源 程序员 开发者 算法

欧拉与AI深度结合:操作系统升级带来全新智能体验

彭飞

专业的磁盘管理工具:DiskCatalogMaker 中文激活版

胖墩儿不胖y

Mac软件 磁盘管理工具 磁盘清理管理

菜单栏图标管理软件推荐 Bartender最新激活版

mac大玩家j

Mac软件 菜单栏管理工具 菜单栏工具

让你的Mac变得更加智能——Bookends for Mac

影影绰绰一往直前

AI数字人源码的售后保障!

青否数字人

数字人

开放原子开源基金会与9个开源项目举行捐赠签约仪式

开放原子开源基金会

Java 开源 程序员 开发者 算法

为开发者服务,让梦想成为可能|孙文龙理事长发表专题演讲

开放原子开源基金会

Java 开源 程序员 开发者 算法

Merlin Protocol,一个专业的比特币生态资产适配协议

中本聪研究院

区块链

微服务的学习与实践 主赛道:技术人的 2023 总结

Echo_Wish

微服务 云原生 年度总结 2023 技术总结

找不到想找的图片?半小时,帮你实现一个AI版“图片搜索引擎”

鹤涵

Redis 核心技术与实战 openai AIGC ChatGPT

Raw图像处理推荐 Capture One Pro 23中文最新版

胖墩儿不胖y

Mac软件 raw图像 raw图像处理工具

PWM 调光的线性降压 LED 恒流驱动器

智趣匠

敏捷任务拆解、工作量评估和指派

laofo

Scrum 敏捷 敏捷开发 研发效能 持续交付

开源漏洞共享平台及安全奖励计划正式发布

开放原子开源基金会

Java 开源 程序员 开发者 算法

openEuler社区与9大海外开源基金会深入合作,构建全球开源新生态

彭飞

大数据之云平台的使用与总结 主赛道:技术人的 2023 总结

Echo_Wish

大数据 云平台 年度总结 2023 开天平台

简约好用的Markdown文本编辑器:Typora中文激活版

mac大玩家j

文本编辑器 Mac软件 markdown编辑

体育直播程序源代码降低搭建门槛,低成本建体育赛事平台成为行业常态

软件开发-梦幻运营部

生成式AI给我们带来的影响

月下独酌

大模型

ON1 Photo RAW MAX 2024:Mac上的高效照片处理解决方案

影影绰绰一往直前

图像处理AI软件推荐:Topaz Photo AI 激活直装版

胖墩儿不胖y

Mac软件 图像处理工具

与Julien Nioche探讨基于Apache Storm的开源爬虫流水线 StormCrawler_大数据_Alexandre Rodrigues_InfoQ精选文章