最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

百度技术沙龙第 49 期回顾:大规模分布式存储(含资料下载)

  • 2014-04-29
  • 本文字数:1912 字

    阅读完需:约 6 分钟

2014 年 4 月 19 日,在由 @百度主办、 @InfoQ 负责策划组织和实施的第 49 期百度技术沙龙活动上,来自百度运维部 MFS 组技术负责人程一仕,和目前负责整个搜狐云服务的后端存储和数据库系统的开发和运营陈伟,各自分享了其在大规模分布式存储的实战经验。他们的话题涉及“MooseFS 和 redis 在海量存储下的架构改进和性能提升”和“高性能 NoSQL 系统 BladeCube 的设计与优化”这两个方面,本文将对讲师各自的分享做简单的回顾,同时提供相关资料的下载。

主题一:MooseFS 和 redis 在海量存储下的架构改进和性能提升(下载讲稿

程一仕通过对MooseFS 的单点master 的架构升级,来提升系统的性能和扩展性,进而支撑百度的众多业务。他使用redis 的代理中间层构建高可用的分布式redis 集群来满足产品的低延迟,大数据量的业务需求。这两个系统广泛应用于百度商业产品体系,LBS 产品体系,数据库文件热备等在线业务,并支撑大量关键服务。

在线应用数据

“MosseFS 和redis 大家都比较了解,因为很大的技术架构方面我讲的比较少。先介绍一下应用数据,存储量大概是10PB 以上,比如说大家用百度影音,它主要应用的场景还是在商务系统,包括凤巢的报表,文件的数量大概是3 亿左右,我们大概有20 个群左右的数量,单个集群的规模大概可以到1000 左右。”

中心化节点的设计和问题

master 的功能

  • 客户端对元数据的访问和变更请求
  • chunkserver 之间的数据容量调整
  • 元数据的存储和持久化
  • 集群健康状态的维护

master 的局限和隐患

  • 性能瓶颈
  • 单点故障(single point of failure)

主从架构扩展性能瓶颈

“我们做的第一个改进就是开发一个 Shadow master,我不保证它的同步是一致的。大家对存储了解一点的都知道,我的访问有延迟。客户端这边会把这个全部发到 Shadow master 上面去。”程一仕使用 redis 的代理中间层构建高可用的分布式 redis 集群来满足产品的低延迟,大数据量的业务需求。

主题二:高性能 NoSQL 系统 BladeCube 的设计与优化(下载讲稿

BladeCube 系统是搜狐自己开发的一套 NoSQL 系统,陈伟的设计参考了 BigTable 和 HBase,使用 C++ 实现,性能优于 HBase,以下主要讲一下搜狐云服务在设计和优化这个系统时的一些心得。

MySQL 的可扩展性太差,分库分表带来的运维太大,无法搞定,主从结构的一致性也难以保证读写性能差,变 schema。包括 MongoDB 在内的数据库,在真正面对超大规模数据时,难以保证性能和可用性。超过十亿之后性能问题,潜在的 bug,丢数据等。持久化和内存放在一起,不能充分利用资源。

分层结构的优势,目标是减少运维开销,大部分错误能够自动恢复,不影响服务。

“最近一有一些比较新的开源系统宣传的很美好,但是真的用起来会有很多问题,我们有过一些测试。比如说超过 10 亿量级以后,在响应的性能上,以及它的某些丢数据的行为都是我们不能容忍的,因此我们抛弃了这些选择。”陈伟说。

“C++ 实际上性能是非常好的,跟 HBase 对比的过程中,我们可以发现在架构基本一致的情况下,我们通过一些比较好的编程的实现以及内部的优化,可以在性能上做到三倍、四倍,甚至更高。但是 C++ 也有一个问题,它的调试和开发周期都比 java 困难,为什么开源系统都采用 Java 来实现,但是实际上对于我们严肃的来完成一个基础架构的话,Java 虽然有天花板,但是用 C++ 可以更好的控制内存,可以把系统做的非常好。”

OpenSpace(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

夏粉:深度学习话题在现在大数据时代将会越来越火,我在演讲时算是为大家抛了个砖,互动过程中大家问了许多实际的问题,希望我的解释能给大家带来一些帮助。

王晓博:关注机器学习的同学热情很高,夏老师讲的干货很多,但只要不涉及关键商业化数据,比如百度广告点击的具体数字,这些模型公布出来对大家的学习还是很有好处的。希望下次主办方能准备相关话题,这样在 Open Space 时,讲师可提前做一些准备,为听众做更针对性的解答。

会上,一些参会者也通过新浪微博分享了他们的参会感受:

程序猿刘静:Tradeoff every details

_ 胡凯 _ :碉堡了!居然中头奖

韩占康_ 极简:原来技术高地在搜狐啊,哈哈。

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第50 期百度技术沙龙将在5 月17 日,周六,在北京车库咖啡举行,主题为前端应用相关内容,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。

2014-04-29 07:393958

评论

发布
暂无评论
发现更多内容

依赖项安全检测新利器:Scorecard API

SEAL安全

开源项目 开源安全 依赖项管理 开源组件 企业号九月金秋榜

后疫情时代,远程办公发展趋势如何?

Baklib

协同办公 文档管理

PostgreSQL逻辑复制解密

京东科技开发者

数据库 postgresql 数据迁移 WAL 逻辑复制

Baklib|7步教你写出实用的在线产品手册

Baklib

产品 产品文档 产品手册 在线协作

反诈骗要卷起来!隐私计算助攻反诈行动把握主动权

Jessica@数牍

数据安全 隐私计算 反欺诈

EasyNLP玩转文本摘要(新闻标题)生成

阿里云大数据AI技术

自然语言处理 深度学习 开源技术 文本检测 企业号九月金秋榜

“易+”开源 | 简单可信赖,GameSentry 正式开源

网易智企

开源 安全测试

中国移动政企科创专题:耕“云”不辍,厚积薄发

Geek_2d6073

活动报名|9月24日 Apache Flink Meetup · 北京站,Flink 1.16 新版本发布!

Apache Flink

大数据 flink 流计算 活动 实时计算

一起瓜分20万奖金!第三届火焰杯软件测试大赛开始公开选拔!

测吧(北京)科技有限公司

测试

百草味推出“潮卤江湖”系列新品 聚焦地域风味创新

E科讯

国民粮油品牌益海嘉里首个天猫超级品牌日交出完美答卷

以百分点大数据操作系统(BD-OS)为例 解读ToB产品架构设计的挑战及应对方案

百分点科技技术团队

Hinton等谈深度学习十年;PyTorch落地Linux基金会的影响;机器学习界的“GitHub”|AI系统前沿动态

OneFlow

人工智能

本周四晚19:00知识赋能第八期第2课丨ArkUI自定义组件

OpenHarmony开发者

OpenHarmony

带你了解CANN的目标检测与识别一站式方案

华为云开发者联盟

人工智能 目标检测 CANN 企业号九月金秋榜 目标识别

clickhouse 索引、索引局限与解决方案

水滴

Clickhouse 索引 解决方案 稀疏索引

推动零信任加速落地应用 天翼云为企业铸牢安全基石

Geek_2d6073

从零到一了解APP速度测评

百度Geek说

App 网络 企业号九月金秋榜 速度测评

还不会搭建自己的产品帮助中心?来看看这个

Baklib

ESP32-C3入门教程 基础篇(五、RMT应用 — 控制SK6812全彩RGB 灯)

矜辰所致

ESP32-C3 9月月更 RMT

《2022 社交泛娱乐出海白皮书》发布,最全出海破局指南

融云 RongCloud

社交 白皮书 泛娱乐

百分点大数据技术团队:Cesium技术在智慧应急行业的应用

百分点科技技术团队

大数据调度平台Airflow(四):Airflow WebUI操作介绍

Lansonli

airflow 9月月更

前端必读:如何在 JavaScript 中使用SpreadJS导入和导出 Excel 文件

葡萄城技术团队

JavaScript Excel canvas 数据导入 数据导出

堡垒机全称是什么?是运维安全审计系统吗?

行云管家

网络安全 堡垒机

HTML自带的拉风属性

大师兄

前端 HTML5, CSS3 9月月更

一文读懂数字化转型中的数据存储

元年技术洞察

数据库 数据中台 数据治理

直播预告 | PolarDB-X 动手实践系列——PolarDB-X 的表组与分区变更

阿里云数据库开源

MySQL 数据库 阿里云 开源 PolarDB-X

一条sql了解MYSQL的架构设计

京东科技开发者

MySQL 数据库 架构 innodb 存储引擎

SPI机制是什么,懂了

知识浅谈

spi 9月月更

百度技术沙龙第49期回顾:大规模分布式存储(含资料下载)_语言 & 开发_景琦_InfoQ精选文章