2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Aragog:Pinterest 的爬虫框架

  • 2015-11-30
  • 本文字数:1526 字

    阅读完需:约 5 分钟

为了在 Pin 上展示有用的信息(如产品价格、位置数据)、做出更好的推荐及打击垃圾邮件,Pinterest 需要充分利用Pin 链接的Web 页面中的内容。除了要抓取、存储及处理页面内容外,还要低延迟地向Pinner 提供处理过的内容。为了满足这些需求,他们构建了爬虫框架Aragog,用于处理数以十亿计的URL。近日,Pinterest 核心基础设施团队工程师 Varun Sharma撰文介绍了该框架

他们在构建 Aragog 时重点考虑了以下三个方面的问题:

  • URL“标准化 / 规范化(Normalization/canonicalization)”:同样的 URL 可以表示成许多不同的形式,多个不同的 URL 可能会重定向到同一个 URL。URL 标准化 / 规范化的目标就是消除重复,减少数据量。
  • 数据抓取礼仪:限定抓取频率,尊重 robots.txt 所设定的规则。
  • URL 数据建模:存储从单个 URL 中提取的多段元数据,或者存储及更新与单个 URL 相关的入链和出链。

重要通知:接下来 InfoQ 将会选择性地将部分优秀内容首发在微信公众号中,欢迎关注 InfoQ 微信公众号第一时间阅读精品内容。

如下图所示,Aragog 包含两个服务: Aragog Fetcher 会将 URL 规范化,并按照限定频率抓取 Web 页面; Aragog UrlStore 则负责存储和提供与 URL 相关的元数据。

Aragog Fetcher

Aragog Fetcher 是一个 Thrift 服务。它会发出一个 HTTP 请求,并返回一个封装了页面内容、HTTP 头、抓取延迟、重定向链等数据的 Thrift 结构。为了实现礼貌抓取,Aragog Fetcher 会将特定域名的 robots.txt 文件内容缓存 7 天,并严格按照其中的规则进行抓取。此外,Aragog Fetcher 会使用 URL 域名调用“频率限制器(rate limiter)”获取允许的抓取频率。该限制器将单个域名的最大抓取频率限定为 10QPS。需要的话,可以通过配置管理系统修改这一限制。

Aragog UrlStore

Rich Pin 的数据即是由 Aragog UrlStore 提供的。Aragog UrlStore 存储着页面内容本身、页面中提取的半结构化数据及 Web 图元数据(如入链 / 出链),其设计主要遵循如下两个目标:

  • 为整个组织提供所有 URL 元数据的一站式服务;
  • 以可以接受的延迟为 Pinterest 全部在线读流量以及离线处理系统的读 - 写流量提供服务。

为此,他们在延迟、稳定性和一致性之间进行了权衡。Varun 举了两个例子。

关于页面内容

他们会存储 Web 页面的全部内容。这些数据检索次数少,而且仅用于离线处理管道。因此,他们选择将这些数据存储在 S3 上。每个 Web 页面都作为一个 S3 文件单独存储。他们以 URL 散列值作为 Web 页面的键,但发现,当许多键的前缀都一样时,会导致 S3 集群中的单台机器过载,降低了 S3 bucket 中部分键的性能。

关于 Pin 元数据

Aragog UrlStore 采用了一种灵活的数据模型表示 URL 元数据,其中包含一个字段名和值的映射。例如,一个产品 Pin 可能有一个“product_name”字段和一个“price”字段。在大多数情况下,一个 URL 的元数据由离线处理系统增量更新。

考虑到 URL 元数据访问要求低延迟,而 URL 入链 / 出链非常适合用图模型表示,他们选择使用 Zen (基于 Hbase)作为底层存储系统。Zen 是 Pinterest 的图存储服务,允许定义节点及连接这些节点的边。Zen 的属性用于存储节点元数据,而边用于为入链 / 出链建模。Zen 会在节点和边上创建索引,提供快速高效的 CRUD 操作。

Aragog 已经成为 Pinterest 的一个基础设施,许多管道都用它获取和处理数据及提供 URL 内容。目前,Aragog 每天获取数以百万计的 URL,并提供数以十亿计的在线 URL 请求。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-11-30 18:008874
用户头像

发布了 1008 篇内容, 共 440.9 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

评测有礼 | 飞桨黑客松第二期热身活动上线啦!

百度大脑

2021 盘点 | 券商 TOP 5 出炉,谁才是最“卷”的券商王者?

博睿数据

面由心生,由脸观心:基于AI的面部微表情分析技术解读

百度大脑

7招!实现安全高效的流水线管理

阿里云云效

云计算 阿里云 运维 云原生 持续交付

快速入门!全国大学生智能汽车竞赛百度创意组首期直播宣讲来啦

百度大脑

未来的直播技术将会有哪些新的进化形式?

字节跳动视频云技术团队

互联网 科技革命 直播技术 低延时 音视频技术

投稿开奖丨云服务器ECS征文活动(1月)奖励公布

阿里云弹性计算

阿里云 云服务器 征文投稿开奖 玩转ECS

昇思MindSpore再突破:蛋白质结构预测训练推理全流程开源,助力生物医药发展

Geek_32c4d0

mindspore 昇思 生物医药

网络安全kali渗透学习 web渗透入门 Metasploit---基于SMB协议收集信息

学神来啦

网络安全 kali kali Linux

百度Q4财报:百度智能云2021年营收151亿元,同比大增64%

百度大脑

软件工程能力漫谈:比编码更重要的,是项目管理能力

百度开发者中心

技术创想 | Cypress UI 自动化测试框架

领创集团Advance Intelligence Group

半导体材料的国产替代,机遇与挑战并存!

IC男奋斗史

芯片行业思考 芯片技术 芯片上游

CorelDRAW2022最新订阅版本下载

茶色酒

cdr2022

构建测试的体系化思维(进阶篇)

BY林子

测试体系 质量内建

浙江省人民医院:用宜搭助力党建改革工作,重构医院重大事项议事决策机制

一只大光圈

钉钉 低代码 钉钉宜搭 宜搭 宜搭数字化

2022年软件开发趋势:远程工作已成主流

码语者

开发提效小技巧分享(二)

编程三昧

工具 gitee GitHub、 3月月更

2022年炙手可热的边缘计算与端智能

战场小包

边缘计算 端智能 3月月更

一撕得:全员参与低代码开发,全面实现企业数字化管理

一只大光圈

钉钉 低代码 数字化 宜搭 一撕得

飞步科技 x 焱融 YRCloudFile:大幅提升训练效率,开启智驾新纪元

焱融科技

自动驾驶 云计算 分布式 高性能 文件存储

2021年信创产业融资分析报告

统小信uos

Mac 配置 Flutter 安卓开发环境

岛上码农

flutter ios 安卓 移动开发 3月月更

中国AI的“底线思维”与安全锁

脑极体

NFT音乐盲盒游戏系统开发方案

薇電13242772558

NFT

自动化测试指南

FunTester

敏捷 性能测试 自动化测试 测试框架 FunTester

【重磅发布】百度参编信通院《联邦学习场景应用研究报告(2022年)》

百度开发者中心

工业AI落地场景案例实战,飞桨EasyDL让工业更智能

百度大脑

阿里 BladeDISC 深度学习编译器正式开源

阿里云大数据AI技术

深度学习 开源 编译器

关于 ZEGO 支撑 100 亿场高质量直播的秘笈

ZEGO即构

后台开发 CDN 音视频技术 音视频引擎

无需嵌码的主动式监测:一种预先感知用户体验的最佳实践

博睿数据

Aragog:Pinterest的爬虫框架_大数据_谢丽_InfoQ精选文章