写点什么

2012.3.19 微博热报:布隆过滤与多路归并

  • 2012-03-18
  • 本文字数:1071 字

    阅读完需:约 4 分钟

布隆过滤与多路归并

JavaChen 发布一条可作为面试题的微博

给你 A,B 两个文件,各存放 50 亿条 URL,每条 URL 占用 64 字节,内存限制是 4G,让你找出 A,B 文件共同的 URL。如果是三个乃至 n 个文件呢? http://t.cn/zOMmWru

李良普

bloom filter 可以实现,但是很少使用。

HubbleDotNet

布隆的关键是随机数的选取要尽可能接近平均分布

kkkua

BF 只是说有哪些 URL 在以前已出现过了。 优点难度的是真正“找出”n 个 URL 列表中所有那些相同的 URL(聚类问题)。好办法是做一个 incremental index, 边输入边去重,正如高性能的重复网页检测

海纳百通

我的理解是:1 布隆过滤 是能“激进地”找出“很可能已存在的”URL;2 但是,在发现可能的重复后,要确定并记录下 URL,就要索引到 URL,并做全文比对;3 这个问题里还连带提到“n 个文件”。。。所以,有改进的空间吧?

bnu_chenshuo

毛估了一下,单机(4G 内存,双硬盘)4 个小时应该能搞定,没用到 bloom filter。

陆鑫 Lucian

bloom filter 是我能想到速度最快的方法了,这题的关键就是先把要处理的数据总数降低数个量级,剩下的就好办了。陈硕老师能介绍下你的思路,效率如何吗?

matrix-reload

用 MapReduce 方法吧

bnu_chenshuo 回复 @陆鑫 Lucian

你估计用 bloom filter 解决,单机花多少小时?我的思路很简单,分块(1G)排序再多路归并,在归并的同时求集合的交集。

bnu_chenshuo 回复 @如此玄妙

多路归并用不着“最后一次归并 将 2 个一样大的已排序的文件合并”。AB 两个文件,分块排成各 300 个 1G 的文件,然后同时打开这一共 600 个文件读数据,两套文件分别多路归并,并求交集,把结果写出来即可。

原题不是要求单机 4G 内存吗?“300 个 1g 文件归并的比较次数 会和比 2 个 150g 文件大很多”是的,但是你那两个 150g 的文件事先要花多长时间生成?“每次取出数据,都需要在一个 300 条记录的树或者堆上进行一次排序”是的,不过这并不影响整体速度,内存处理速度只要高于磁盘读数据的速度即可

摇摆巴赫

bloom 需要磁盘随机 IO 吧,内存里的 hash bit 相等后还得磁盘读出来看 url 是不是相同,分块排序应该是顺序磁盘 IO,我觉得哪个快要看重复率

@TreapDB

先把这些 url 算 hash%100, 分别存到 100 个文件夹里,每个文件夹有两个文件,分别来自 A 和 B. 这两个小文件可以在内存中求交集生成小文件。最后,把这些交集小文件 cat 成一个文件。并不要求有序。

今日微博推荐

梁斌penny

推荐理由:清华大学计算机科学与技术系在读博士;《走进搜索引擎》作者、《深入搜索引擎》译者, THUIRDB 的 Coder,个人博客地址: http://blog.csdn.net/pennyliang

2012-03-18 20:492428
用户头像

发布了 479 篇内容, 共 171.7 次阅读, 收获喜欢 52 次。

关注

评论

发布
暂无评论
发现更多内容

如何制作个性又美观的二维码?自定义Logo、样式,还能一键复用

草料二维码

二维码 二维码生成 草料二维码 二维码美化

亚马逊AI选择各种商品的最佳包装方式,节省大量包装材料

算AI

人工智能 深度学习 AI

鸟瞰图技术重塑大屏视觉体验:点量云流创新应用

点量实时云渲染

云渲染 虚拟现实 实时云渲染 大屏展示 鸟瞰图

京东JD商品详情API返回值全面解析

技术冰糖葫芦

api 货币化 API 接口 API 文档 pinduoduo API

抖音商单信息通过ETL工具快速同步

RestCloud

数据处理 抖音 数据同步 ETL

采集 Kubernetes 容器日志最佳实践

观测云

#Kubernetes#

国产 Web 组态软件 TopStack V5.0 发布

图扑物联

工业物联网 web组态 轻量化 组态编辑器 工业组态软件

初级Go工程师训练营毕业总结

想吃烤肉!

总结 心得体会

《containerd 系列》一文读懂 containerd 中的 NRI 机制

公众号:云原生Serverless

Docker Kubernetes 容器技术 Containerd NRI

【论文速读】|理解基于大语言模型的模糊测试驱动程序生成

云起无垠

《containerd 系列》【史上最全】带你全方位了解containerd 的几种插件扩展模式

公众号:云原生Serverless

Docker Kubernetes 云原生 容器技术 Containerd

《containerd 系列》作为资深 CRUD Boy,你知道 containerd 是如何保存容器元数据的吗?

公众号:云原生Serverless

Docker Kubernetes 云原生 容器技术 Containerd

手把手教你使用ChatGPT写论文;如何使用ChatGPT写论文?

蓉蓉

openai ChatGPT GPT-4

量化合约/合约量化系统开发运营版/成熟技术/源码案例

系统开发咨询1357O98O718

金融案例:统一查询方案助力数据治理与分析应用更高效、更安全

袋鼠云数栈

大数据 数据分析 数字化转型 金融 金融解决方案

《2023网信自主创新调研报告》正式发布,云起无垠连年参编

云起无垠

重庆兴农担保集团携手嘉为蓝鲸,锻造运维能力底座,精益信息化管理

嘉为蓝鲸

IT运维 自动化运维 嘉为蓝鲸

游戏发行困境及OgGame云游戏解决方案简述

Ogcloud

游戏 云游戏 云游戏发行 云游戏平台 游戏云化

怎么用云手机来做TikTok矩阵养号?

Ogcloud

云手机 海外云手机 tiktok云手机 云手机海外版 tiktok运营

AI手机,走入小径分岔的花园

脑极体

AI

开放签:引领中小微企业步入电子签章普惠时代

开放签开源电子签章

电子合同 电子签章 开放签

构建高效的商品计划系统:为品牌增长注入新动力

第七在线

数据统一高效管理 HashData支撑“数智石油”高质量发展

酷克数据HashData

《containerd 系列》一文了解 containerd 中的镜像加解密

公众号:云原生Serverless

Docker 云原生 ,docker Docker 镜像 Containerd

《containerd 系列》一文了解 containerd 中的 snapshot

公众号:云原生Serverless

Kubernetes 云原生 容器技术 ,docker Containerd

《containerd 系列》一文缕清 CRI 的发展脉络

公众号:云原生Serverless

Docker Kubernetes 云原生 容器技术 Containerd

2012.3.19微博热报:布隆过滤与多路归并_语言 & 开发_郑柯_InfoQ精选文章