NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Aragog:Pinterest 的爬虫框架

  • 2015-11-30
  • 本文字数:1526 字

    阅读完需:约 5 分钟

为了在 Pin 上展示有用的信息(如产品价格、位置数据)、做出更好的推荐及打击垃圾邮件,Pinterest 需要充分利用Pin 链接的Web 页面中的内容。除了要抓取、存储及处理页面内容外,还要低延迟地向Pinner 提供处理过的内容。为了满足这些需求,他们构建了爬虫框架Aragog,用于处理数以十亿计的URL。近日,Pinterest 核心基础设施团队工程师 Varun Sharma撰文介绍了该框架

他们在构建 Aragog 时重点考虑了以下三个方面的问题:

  • URL“标准化 / 规范化(Normalization/canonicalization)”:同样的 URL 可以表示成许多不同的形式,多个不同的 URL 可能会重定向到同一个 URL。URL 标准化 / 规范化的目标就是消除重复,减少数据量。
  • 数据抓取礼仪:限定抓取频率,尊重 robots.txt 所设定的规则。
  • URL 数据建模:存储从单个 URL 中提取的多段元数据,或者存储及更新与单个 URL 相关的入链和出链。

重要通知:接下来 InfoQ 将会选择性地将部分优秀内容首发在微信公众号中,欢迎关注 InfoQ 微信公众号第一时间阅读精品内容。

如下图所示,Aragog 包含两个服务: Aragog Fetcher 会将 URL 规范化,并按照限定频率抓取 Web 页面; Aragog UrlStore 则负责存储和提供与 URL 相关的元数据。

Aragog Fetcher

Aragog Fetcher 是一个 Thrift 服务。它会发出一个 HTTP 请求,并返回一个封装了页面内容、HTTP 头、抓取延迟、重定向链等数据的 Thrift 结构。为了实现礼貌抓取,Aragog Fetcher 会将特定域名的 robots.txt 文件内容缓存 7 天,并严格按照其中的规则进行抓取。此外,Aragog Fetcher 会使用 URL 域名调用“频率限制器(rate limiter)”获取允许的抓取频率。该限制器将单个域名的最大抓取频率限定为 10QPS。需要的话,可以通过配置管理系统修改这一限制。

Aragog UrlStore

Rich Pin 的数据即是由 Aragog UrlStore 提供的。Aragog UrlStore 存储着页面内容本身、页面中提取的半结构化数据及 Web 图元数据(如入链 / 出链),其设计主要遵循如下两个目标:

  • 为整个组织提供所有 URL 元数据的一站式服务;
  • 以可以接受的延迟为 Pinterest 全部在线读流量以及离线处理系统的读 - 写流量提供服务。

为此,他们在延迟、稳定性和一致性之间进行了权衡。Varun 举了两个例子。

关于页面内容

他们会存储 Web 页面的全部内容。这些数据检索次数少,而且仅用于离线处理管道。因此,他们选择将这些数据存储在 S3 上。每个 Web 页面都作为一个 S3 文件单独存储。他们以 URL 散列值作为 Web 页面的键,但发现,当许多键的前缀都一样时,会导致 S3 集群中的单台机器过载,降低了 S3 bucket 中部分键的性能。

关于 Pin 元数据

Aragog UrlStore 采用了一种灵活的数据模型表示 URL 元数据,其中包含一个字段名和值的映射。例如,一个产品 Pin 可能有一个“product_name”字段和一个“price”字段。在大多数情况下,一个 URL 的元数据由离线处理系统增量更新。

考虑到 URL 元数据访问要求低延迟,而 URL 入链 / 出链非常适合用图模型表示,他们选择使用 Zen (基于 Hbase)作为底层存储系统。Zen 是 Pinterest 的图存储服务,允许定义节点及连接这些节点的边。Zen 的属性用于存储节点元数据,而边用于为入链 / 出链建模。Zen 会在节点和边上创建索引,提供快速高效的 CRUD 操作。

Aragog 已经成为 Pinterest 的一个基础设施,许多管道都用它获取和处理数据及提供 URL 内容。目前,Aragog 每天获取数以百万计的 URL,并提供数以十亿计的在线 URL 请求。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-11-30 18:008295
用户头像

发布了 1008 篇内容, 共 374.7 次阅读, 收获喜欢 341 次。

关注

评论

发布
暂无评论
发现更多内容

布局说明 - 大屏云极简使用手册

shulinwu

可视化 数据可视化 大屏可视化 智慧大屏可视化 大屏

Web 键盘输入法应用开发指南 (2) —— 键盘事件

天择

JavaScript 键盘 输入法 3月月更

Serverless 底座的持续创新

亚马逊云科技 (Amazon Web Services)

Serverless 架构

Rainbond 5.6 版本发布,增加多种安装方式,优化拓扑图操作体验

北京好雨科技有限公司

Linux之crontab命令

入门小站

Linux

白话大数据 | 从买菜这件小事来聊聊数据仓库

星环科技

网络安全kali渗透学习 web渗透入门 使用msf渗透攻击Win7主机并远程执行命令

学神来啦

网络安全 Web 渗透 kali kali Linux

墨天轮国产数据库沙龙 | 许力:阿里云原生Lindorm TSDB数据库,驱动工业IT&OT超融合数字化系统升级

墨天轮

数据库 阿里云 tsdb

HertzBeat赫兹跳动v1.0.beta.4 发布, 易用友好的高性能监控告警系统

TanCloud探云

开源 APM 监控 监控系统 监控告警

前端架构三大巨头之一Angular | 深度讲解

云智慧AIOps社区

开源 前端 Web angular 数据源

开讲了!龙蜥社区走进北大课堂

OpenAnolis小助手

开源 操作系统 龙蜥社区 北京大学 走进高校

【技术分享】历经16年猪八戒网如何成功实现双活流量架构

八戒技术团队

架构

新思科技最新报告显示97%的应用存在漏洞

InfoQ_434670063458

新思科技 应用安全

Nebula Graph 的 KV 存储分离原理和性能测评

NebulaGraph

图数据库 分布式图数据库

阿里云智能编码插件,更Cosy的开发体验

阿里云云效

Java 阿里云 程序员 开发 研发

ironSource 新功能发布,开发者可在同一会话中实时调整广告策略

Geek_2d6073

2021 “科创中国”开源创新榜单公布,优麒麟荣登两榜!

优麒麟

Linux 开源 开源社区 优麒麟

创建公司内部文档的入门指南

小炮

工作效率 企业管理 企业管理软件

【案例】基于星环科技数据云平台TDC为富国基金建设万能的数据湖

星环科技

数据库

教你如何使用flask实现ajax数据入库

华为云开发者联盟

Python 数据库 flask 文件上传 ajax数据

cdr2022序列号CorelDRAW2022绿色密钥

茶色酒

CorelDRAW 2022

低代码平台设计探索,如何更好赋能开发者

雯雯写代码

低代码 开发平台 开发者,

融合通信常见问题2月刊 | 云信小课堂

网易云信

音视频 融合通信

【C语言】数据类型存储、原码,反码,补码

謓泽

C语言 补码 原码 反码 3月月更

与容器服务 ACK 发行版的深度对话第二弹:如何借助 hybridnet 构建混合云统一网络平面

阿里巴巴云原生

阿里云 云原生 ACK Distro

Serverless常见的应用设计模式

亚马逊云科技 (Amazon Web Services)

Serverless 架构

直播带练 | 30 分钟用阿里云容器服务和容器网络文件系统搭建 WordPress 网站

阿里巴巴云原生

阿里云 云原生 课程 容器服务 直播回放

BFS/DFS/DP 算法案例 LeetCode题目:传递信息

OpenHacker

LeetCode 动态规划 深度优先搜索 算法解析 广度优先搜素

实践GoF的23种设计模式:SOLID原则(上)

华为云开发者联盟

设计模式 GoF SOLID SOLID原则 分布式应用系统

【BBC learningenglish】with Tango

IT蜗壳-Tango

IT蜗壳教学 3月月更 Tango English

ToB月报丨二月融资总金额超152亿元;「东数西算」国家工程全面启动

ToB行业头条

Aragog:Pinterest的爬虫框架_大数据_谢丽_InfoQ精选文章