百度技术沙龙第25期回顾：海量数据处理技术解析（含资料下载）_数据库_贾国清



 写点什么

在 4 月 7 日由 @百度主办、 @InfoQ 策划组织和实施的第25 期百度技术沙龙活动上，来自百度数据流计算系统DStream 项目负责人杨栋（ @Sherlock__Yang ）、58 同城 (58.com) 云平台技术负责人，58 同城技术中心架构部架构师徐振华（ @浊者）分别分享了各自在海量数据存储和处理上取得的成果及经验，话题涉及“Hypertable Goes Realtime at Baidu”，以及“58 同城在分布式存储方面的架构实践”等。本文将对他们各自的分享做下简单的回顾，同时提供相关资料的下载。

主题一：Hypertable Goes Realtime at Baidu（微盘下载讲稿）

来自百度数据流计算系统 DStream 项目负责人杨栋第一个为大家分享，本次演讲的主要内容包括：Hypertable 能够满足应用的哪些需求、实际应用中遇到的挑战有哪些、可靠性 or 性能、如何应对这些挑战以及 Hypertable 和 HBase 有哪些异同。杨栋提到，在 Noah 系统最初建设时，主要遇到了以下的问题：

MySQL
Not inherently distributed（数据的无序增长、频繁地手工分配数据）；表大小的限制；不够灵活的结构

Hadoop
不支持随机写入；随机读取的支持也不理想

由此，Hypertable+Hadoop 的组合成为了最终的理想方案，在此基础上 S，不仅从系统的角度有了足够多的灵活性，数据写入的高吞吐量、高可用的灾难恢复特性、错误隔离机制以及随机扫描等特性都得以大大增强。在详细介绍了模型设计和评估方法之后，杨栋对主要的设计关键点进行了总结：

应用层面

表设计

加载策略

去重处理

高可用层面

数据集中化

日志与数据隔离

负载均衡

内存使用

内存池

简洁策略

读 / 写性能

内存 /SSD/SAS/SATA

块 / 队列缓存

压缩策略

资源隔离

最后，杨栋从多个角度对 Hypertable 和 HBase 进行了对比：

社区（Hypertable：Hypertable；HBase：Apache）

实现语言（Hypertable：Boost C++；HBase：Java）

内存管理（Hypertable：详尽的内存管理；HBase：垃圾回收）

缓存管理（Hypertable：动态的缓存管理；HBase：Java 堆栈缓存）

性能（Hypertable：高；HBase：一般）

编译配置（Hypertable：容易；HBase：复杂）

压缩机制（Hypertable：直接的 Native 压缩；HBase：基于 JNI 方式）

主题二：58 同城在分布式存储方面的架构实践（微盘下载讲稿）

58 同城 (58.com) 云平台技术负责人，58 同城技术中心架构部架构师徐振华第二个为大家分享，徐振华主要从理论、分析和实践三个层次分享了 58 同城在分布式存储领域的思考和实践。首先，通过 Draw Something 成功和 C10K 问题，引出分布式系统的目标是提高资源利用率, 做到线性扩展；同时分享了分布式存储的主要存储模型，分布式 hash 表和分布式 B+ 树，以及常用的用空间换时间，用错误率换空间，用查询性能换插入性能等思想：

Consistent hash（去中心化）

B+ tree（实时、随机）

LSM tree（批量、顺序）

接着，和大家分享了 58 同城做为一个创业公司，如何根据自身业务的特点，选择适合自己的技术和架构, 用最小的成本获得最大的回报：

分析需求，做好平衡

使用 Kiss 原则，做到 RAS（可靠、可用、可扩展）

设计和充分利用硬件，分级存储

然后，和大家分享了 58 同城在分布式存储方面的实践：

信息系统：Search engine(index) +MySQL(shard + M/S)+ memcached

统计数系统：MongoDB + Auto sharding

图片系统：CDN+Nginx+simple GFS(master-slave)

统计分析：Hadoop + HBase

最后，徐振华提到 58 同城在使用开源软件的同时，也在积极参与和回报开源社区，推动开源社区的发展。

Open Space（开放式讨论环节）

和以往的环节一样，为了让参会者能够有更多的时间进行相互的交流，本次活动依然设置了 Open Space（开放式讨论）环节。除了讲师杨栋、徐振华外，新浪微博唐福林、阿里云王乐珩也参与了小组讨论。在 Open Space 的总结环节，几位话题小组长分别对讨论的内容进行了总结。

杨栋：主要分享了“如何构建一套完整的数据分析平台”的话题，包括如何构建分布式的存储系统、如何构建分布式的计算系统以及如何构建分布式的数据仓库，此外还讨论了关于实时计算和数据量方面的问题，并与个别参会者就如何处理压缩的问题进行了细节的讨论。

徐振华：主要分享了“如何构建一个弹性计算平台”的话题，并就 Hadoop 的使用经验与大家进行了讨论。

唐福林：主要分享了“最简单的大数据实现（微博计数器）”的话题，从微博计数器出发，引出每种大数据解决方案在特定限制条件下都有不足，并就如何选择和开发适合自己的大数据解决方案工具进行了讨论。

王乐珩：主要分享了“Offline 大数据处理”的话题，并就云平台上数据分析的工具和方法进行了讨论。

会后，一些参会者也通过新浪微博分享了他们的参会感受：

@genstoneV ：即时心得：云集算服务需要满足很多业务特点，所以什么边界条件都要研究。

@gqgl_work ：58 实现计算资源的统筹，任务与计算不绑定，灵活部署。

@Andy 平安：Draw Something 为什么可以这么火？出色的产品创意不可否认，另外一方面是 Zynga 早在用户膨胀之前就提前做了 Couchbase 方面的技术储备。兵马未动，粮草先行，用户数据量的增长是难以准确 hold 的，我们不能总是被动升级现有系统。

@genstoneV ：刚听完#百度技术沙龙# 的 Hypertable 的分享，对分布式系统的搭建过程，需要面临的细节问题提了些，很有心得。不过分享时能否尽量不要用 e 文呢，毕竟大家都是说中文，理解有些慢。

@Baidu 朱涛：百度需要的是持续创新，永葆活力，这样才能赢得更多百度用户的好评和网民的认可。

@solochar ：#百度技术沙龙# hypertable 高可用，内存，读写优化。Hypertable 很多思想与 HBase 很一致，优化的想法也很一致。C++ 的优势在于操控性，用于较苛刻的场景。

@赵国栋 TMT ：百度技术沙龙，讨论大数据技术。主题是海量数据处理技术。人非常多，许多人席地而座。我们准时到达，也只能站边上。

@ujnjing ：#百度技术沙龙# 诺亚最开始使用 MySQL 存储数据量确实太大了，而且数据格式无规律。

此外，在本次的沙龙活动中，还特别邀请到中科院计算所副研究员、大规模数据计算专家查礼（ @solochar ）来与大家分享在大数据领域的研究成果。

有关百度技术沙龙的更多信息，可以通过新浪微博关注 ** @百度技术沙龙，或者加入百度技术沙龙微群 **，InfoQ 上也总结了过往 24 期所有百度技术沙龙的演讲视频和资料等，感兴趣的读者可以直接浏览阅读。

公众号推荐：

AGI 概念引发热议。那么 AGI 究竟是什么？技术架构来看又包括哪些？AI Agent 如何助力人工智能走向 AGI 时代？现阶段营销、金融、教育、零售、企服等行业场景下，AGI应用程度如何？有哪些典型应用案例了吗？以上问题的回答尽在《中国AGI市场发展研究报告 2024》，欢迎大家扫码关注「AI前线」公众号，回复「AGI」领取。

发布

暂无评论

创作场景

百度技术沙龙第 25 期回顾：海量数据处理技术解析（含资料下载）

公众号推荐：

评论

为什么使用http代理要谨慎？动态ip地址和静态ip地址是什么意思？

人工智能塑造未来城市生活

人工智能伦理—面对技术的道德挑战

Illustrator 2023 mac(ai2023矢量图形编辑软件) v27.9中文激活版

HarmonyOS 4.0 实况窗上线！支付宝实现医疗场景智能提醒

AI在医疗保健中的潜力与挑战

自动驾驶汽车—AI技术的未来之路

深度学习之“智能标注”

筑牢网络安全防线，天翼云签署《云计算服务安全自律公约》！

全部自动化可行吗？

机器学习：解码人工智能的核心技术

2024广州国际涂布技术与模切产业展览会

自然语言处理的强大工具

2024广州国际智能防伪及新型标签设备展览会

AI革命：如何改变我们的工作和生活

DAPP去中心化交易所系统开发|详情方案|规则逻辑

量化交易/秒合约/合约跟单/交易所系统开发（成熟案例）

自动驾驶汽车：AI技术的未来之路

2024广州国际汽车塑料与复合材料展览会

日本站群服务器：提升网站流量的最佳选择

OpenAtom openEuler亮相2023欧洲开源峰会

深度理解自然语言处理的强大工具

2024广州国际吸塑板片材及成型技术展览会

Nginx的HTTP模块与Stream模块：区别与应用场景

为什么你的自动化测试无法落地

软件测试/测试开发丨利用ChatGpt编写测试方案

百度智能云 AI 加速器第二期今日开营，42家AI原生应用企业入选

教育部-华为“智能基座”2.0正式启动，开创数智人才新生态

预训练深度双向Transformer语言模型

创作场景

百度技术沙龙第 25 期回顾：海量数据处理技术解析（含资料下载）

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载