与Julien Nioche探讨基于Apache Storm的开源爬虫流水线 StormCrawler_大数据_Alexandre Rodrigues



 写点什么

Julien Nioche 是 DigitalPebble 公司的总监、PMC 成员和 Apache Nutch 网络爬虫项目的代码提交者。 StormCrawler 是一组可重用的组件，可以构建基于流式框架 Apache Storm 的分布式网络爬虫。Julien Nioche 就 StormCrawler 接受了我们的采访，谈了他的一些看法。

Nioche 是该项目的主要贡献者，InfoQ 采访他以了解更多关于 StormCrawler 的情况，以及在相同领域内它与其他技术相比有什么特点。

InfoQ：爬虫处理流水线在什么阶段可以受益于 StormCrawler？

Julien Nioche：StormCrawler 提供了代码和资源，可以用它来实现所有爬虫处理流水线的核心阶段，比如调度、获取、解析和生成索引等。它也为常用项目提供了可供调用的模块，比如 Apache Solr 、 Elasticsearch 、 MySQL 或者 Apache Tika 等。它还有一套可扩展的功能，可以用 XPath 、 sitemaps 、URL 过滤器或语言识别等去做数据提取。

InfoQ：与其他爬虫技术，比如 Apache Nutch 和 Python 的 Scrapy 等相比较，StormCrawler 有什么特点？

Nioche：StormCrawler 是基于我开发 Apache Nutch 的经验开发的，很大程度上要归功于它，主要是一些概念（比如 FetcherBolt、URL 和解析过滤器的设计）和早期实现。StormCrawler 实现了 Nutch 的功能，并且像 Nutch 2.x 版一样，可以使用不同的后端数据库（HBase、Cassandra 等等）。

StormCrawler 和 Nutch 之间的主要区别是，后者基于（并且催生了）Apache Hadoop 项目，而且是批量驱动的。URL 提取、内容解析和生成索引都是作为单独的步骤完成的。这会导致当提取 URL 的时候，CPU 和磁盘的使用率相对较低，而网络流量高。而当解析或生成索引时则反之，CPU 和磁盘的使用率高，网络流量低。

与它相反，StormCrawler 基于流处理框架 Apache Storm 实现的，并且所有的操作都可以在同一时间进行：URL 提取、解析和生成索引都不断地并行进行。这就使整个爬取过程更加高效，而且没有长尾的工作量，而这是面向批处理方法的常见问题。与 Nutch 不同，处理内容不一定要保存在磁盘上（但如果必要的话也可以保存在磁盘上）。也可以用 StormCrawler 更容易地实现更丰富的用例，比如需要低延迟的时候，或者当 URL 成为流不断到达的时候（比如用户生成的事件，像访问页面等）。

把两者之间进行对比，我们可以发现 StormCrawler 运行在一个分布式的、可扩展的环境中，而 Scrapy 是单进程的，即使有像 Frontera 那样的项目去做分布式爬虫，。

StormCrawler 代表了 Apache Storm 的分布式和可靠性（再加上其他的功能，比如用户界面、指标框架和日志等）。

Scrapy 和 StormCrawler 都在力图实现用户友好性和为数据抓取提供好的解决方案。

总之我认为，StormCrawler 是 Nutch 的可扩展性和 Scrapy 的用户友好性的结合体。

InfoQ：爬取的工作量往往是 I/O 密集型的。与其他的替代品，比如 Apache Spark 或 Apache Flink 等相比，使用 Apache Storm 作为流处理框架的优势是什么？

Nioche：Apache Storm 设计和概念简单并且高效。Spark 那时还不存在。Spark 对数据进行小批量流处理的方式，及其声明式的风格并不非常适合我的需求。

爬行的主要挑战之一是礼貌，这个概念的意思是爬虫访问 Web 服务器的频率。与大多数的流式应用不同，它的目的并不只是尽可能快地获得尽可能多的信息，而是要有礼貌地执行但同时优化吞吐量。我们要进行更好的控制，Apache Storm 的机制恰好可以满足我们的需求。

InfoQ：StormCrawler 接下来的版本的路线图是什么？

Nioche：StormCrawler 的发展是由社区驱动的。最新发布的稳定版本是1.2，它是基于Storm 的1.x 版本开发的。下一个要发布的版本将包括语言识别模块，并且很有可能会提供一个新端口来支持 Elasticsearch 5 。在某种程度上即将发布的主要功能是实现基于 Selenium 的协议，这将适用于基于 Ajax 的网站。

查看英文原文： Julien Nioche on StormCrawler, Open-Source Crawler Pipelines Backed by Apache Storm

公众号推荐：

2024 年 1 月，InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》，揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步，预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」，回复「大模型报告」免费获取电子版研究报告。

发布

暂无评论

创作场景

与 Julien Nioche 探讨基于 Apache Storm 的开源爬虫流水线 StormCrawler

公众号推荐：

评论

如何深入学习前端培训技术知识

天翼云铸牢国云安全，护航千行百业

2022世界人工智能大会开幕，天翼云注智城市数字化转型

Chrome操作指南——入门篇（四） command

车联网该怎样跳过车企设置的红线

大数据开发入门学习方法推荐

本周四晚19：00知识赋能第八期第1课丨ArkUI框架整体设计

打造国云安全品牌，铸牢企业云上安全防线

Chrome操作指南——入门篇（二）

Chrome操作指南——入门篇（三）

Java 将 Word 转换为PDF文档

[MyBatisPlus]映射匹配兼容性

软件测试最常用的 SQL 命令(二) | 高级 Join 多表查询

技术分享 | 黑盒测试方法论-判定表

零基础学习大数据还是自学呢

[MyBatisPlus]乐观锁、代码生成器

面试 | Python 自动化测试技术面试真题

web前端培训开发技术前景怎么样？

数据库高可靠，轻松解决事务丢失问题

小程序容器，让你快速控制智能家居

[MyBatisPlus]id生成策略控制

重磅启动！第 17 届「中国 Linux 内核开发者大会」征稿

软件测试最常用的 SQL 命令 | 通过实例掌握基本查询、条件查询、聚合查询

面试 | 今日头条测试开发岗位面试题目回顾

多因素身份认证 (MFA) 插件：手机验证码认证因素配置流程

为什么C++能屹立这么久？细说C++ 可以开发的 7 件事以及 C++ 的特点和学习的优点

web前端培训课程哪家好

大数据生态安全框架的实现原理与最佳实践（下篇）

云行| 天翼云中国行走进宁波，推动千行百业迈向数字化转型之路

跨平台API对接（Python）的使用

墨天轮沙龙 | 庚顿数据姚羽：实时数据技术赋能流程工业，保障业务连续性

创作场景

与 Julien Nioche 探讨基于 Apache Storm 的开源爬虫流水线 StormCrawler

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载