【QCon】精华内容上线92%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

与 Julien Nioche 探讨基于 Apache Storm 的开源爬虫流水线 StormCrawler

  • 2016-12-26
  • 本文字数:1569 字

    阅读完需:约 5 分钟

Julien Nioche 是 DigitalPebble 公司的总监、PMC 成员和 Apache Nutch 网络爬虫项目的代码提交者。 StormCrawler 是一组可重用的组件,可以构建基于流式框架 Apache Storm 的分布式网络爬虫。Julien Nioche 就 StormCrawler 接受了我们的采访,谈了他的一些看法。

Nioche 是该项目的主要贡献者,InfoQ 采访他以了解更多关于 StormCrawler 的情况,以及在相同领域内它与其他技术相比有什么特点。

InfoQ:爬虫处理流水线在什么阶段可以受益于 StormCrawler?

Julien Nioche:StormCrawler 提供了代码和资源,可以用它来实现所有爬虫处理流水线的核心阶段,比如调度、获取、解析和生成索引等。它也为常用项目提供了可供调用的模块,比如 Apache Solr Elasticsearch MySQL 或者 Apache Tika 等。它还有一套可扩展的功能,可以用 XPath sitemaps 、URL 过滤器或语言识别等去做数据提取。

InfoQ:与其他爬虫技术,比如 Apache Nutch 和 Python 的 Scrapy 等相比较,StormCrawler 有什么特点?

Nioche:StormCrawler 是基于我开发 Apache Nutch 的经验开发的,很大程度上要归功于它,主要是一些概念(比如 FetcherBolt、URL 和解析过滤器的设计)和早期实现。StormCrawler 实现了 Nutch 的功能,并且像 Nutch 2.x 版一样,可以使用不同的后端数据库(HBase、Cassandra 等等)。

StormCrawler 和 Nutch 之间的主要区别是,后者基于(并且催生了)Apache Hadoop 项目,而且是批量驱动的。URL 提取、内容解析和生成索引都是作为单独的步骤完成的。这会导致当提取 URL 的时候,CPU 和磁盘的使用率相对较低,而网络流量高。而当解析或生成索引时则反之,CPU 和磁盘的使用率高,网络流量低。

与它相反,StormCrawler 基于流处理框架 Apache Storm 实现的,并且所有的操作都可以在同一时间进行:URL 提取、解析和生成索引都不断地并行进行。这就使整个爬取过程更加高效,而且没有长尾的工作量,而这是面向批处理方法的常见问题。与 Nutch 不同,处理内容不一定要保存在磁盘上(但如果必要的话也可以保存在磁盘上)。也可以用 StormCrawler 更容易地实现更丰富的用例,比如需要低延迟的时候,或者当 URL 成为流不断到达的时候(比如用户生成的事件,像访问页面等)。

把两者之间进行对比,我们可以发现 StormCrawler 运行在一个分布式的、可扩展的环境中,而 Scrapy 是单进程的,即使有像 Frontera 那样的项目去做分布式爬虫,。

StormCrawler 代表了 Apache Storm 的分布式和可靠性(再加上其他的功能,比如用户界面、指标框架和日志等)。

Scrapy 和 StormCrawler 都在力图实现用户友好性和为数据抓取提供好的解决方案。

总之我认为,StormCrawler 是 Nutch 的可扩展性和 Scrapy 的用户友好性的结合体。

InfoQ:爬取的工作量往往是 I/O 密集型的。与其他的替代品,比如 Apache Spark 或 Apache Flink 等相比,使用 Apache Storm 作为流处理框架的优势是什么?

Nioche:Apache Storm 设计和概念简单并且高效。Spark 那时还不存在。Spark 对数据进行小批量流处理的方式,及其声明式的风格并不非常适合我的需求。

爬行的主要挑战之一是礼貌,这个概念的意思是爬虫访问 Web 服务器的频率。与大多数的流式应用不同,它的目的并不只是尽可能快地获得尽可能多的信息,而是要有礼貌地执行但同时优化吞吐量。我们要进行更好的控制,Apache Storm 的机制恰好可以满足我们的需求。

InfoQ:StormCrawler 接下来的版本的路线图是什么?

Nioche:StormCrawler 的发展是由社区驱动的。最新发布的稳定版本是1.2,它是基于Storm 的1.x 版本开发的。下一个要发布的版本将包括语言识别模块,并且很有可能会提供一个新端口来支持 Elasticsearch 5 。在某种程度上即将发布的主要功能是实现基于 Selenium 的协议,这将适用于基于 Ajax 的网站。

查看英文原文 Julien Nioche on StormCrawler, Open-Source Crawler Pipelines Backed by Apache Storm

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2016-12-26 18:006508
用户头像

发布了 152 篇内容, 共 67.7 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

阿里张勇:全力投入生成式AI大模型建设,为行业发展提供好算力支撑

阿里技术

人工智能 云计算

电商难做?低代码开发平台为企业转型升级保驾护航

加入高科技仿生人

低代码 电商 数据管理 b2b

热点面试题:为什么 0.1+ 0.2 != 0.3,如何让其相等?

控心つcrazy

JavaScript 面试 大前端 前端面试题 超全前端面试题

活动报名:Tapdata Cloud V3 最新功能全解与核心应用场景演示

tapdata

ChatGPT对于普通人有什么机会和影响?

引迈信息

人工智能 AI AIGC ChatGPT

不被同事骂的代码规范,程序员们值得拥有!

程序员小毕

Java 程序员 程序人生 架构师 代码

5分钟入门物联网大数据计算——实践类

阿里云AIoT

阿里云 物联网 IoT

公众号接入 chatGPT 教程(附源码)

攻城狮杰森

Python AI openai ChatGPT

DawnSql快速入门

陈飞

微服务 分布式数据库 实时数仓

技术分享| anyRTC回声消除算法进化

anyRTC开发者

人工智能 音视频 回声消除 语音通话 视频通话

可观测性最佳实践|阿里云事件总线 EventBridge 最佳实践

观测云

可观测性 云服务 可观测 观测云 可观测性用观测云

Python 基础知识入门(三)

漫步桔田

3款百里挑一的国产软件,逆天好用,装了就舍不得卸载

这我可不懂

思维导图 低代码 GIF

【kafka】常用命令汇总

石臻臻的杂货铺

kafka

开源面对面:浅谈数据库技术与人工智能的结合与实践

阿里云数据库开源

postgresql 阿里云 PolarDB for PostgreSQL ChatGPT 数据库技术

ChatGPT模拟MySQL数据库 | 社区征文

NineData

MySQL 数据库 编程 技术栈 ChatGPT

Teradata在华落幕,国产化崛起,袋鼠云数栈会是更好的选择吗?

袋鼠云数栈

3DMAX中的7个基本建模小窍门

Finovy Cloud

blender 3ds Max Cinema 4D

手把手教你如何快速检测设备异常——实践类

阿里云AIoT

阿里云 物联网 IoT

LED屏逐点校正指南

Dylan

像素 LED显示屏 全彩LED显示屏

企业经常需要进行传输文件,大文件传输有哪些方法?

镭速

451个PyPI包通过安装Chrome扩展窃取加密信息

墨菲安全

供应链安全 投毒

Python基础知识入门(四)

漫步桔田

父母、离别

毛广斌

生活

【2.17-2.24】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

Python基础知识入门(二)

漫步桔田

设备掉线怎么办?数据分析让冰冷的设备“开口说话”——实践类

阿里云AIoT

阿里云 物联网 IoT

瓴羊Quick BI智能报表,让报表化复杂为简单!

巷子

揭穿数据分析的六大谎言

葡萄城技术团队

NFTScan 与 KNN3 在 NFT 数据层面达成合作伙伴关系

NFT Research

NFT web3

吞吐量最高提升400%!百度智能云联合NVIDIA完成首批17个自动驾驶模型优化

科技热闻

与Julien Nioche探讨基于Apache Storm的开源爬虫流水线 StormCrawler_大数据_Alexandre Rodrigues_InfoQ精选文章