写点什么

百度技术沙龙第 49 期回顾:大规模分布式存储(含资料下载)

  • 2014-04-29
  • 本文字数:1912 字

    阅读完需:约 6 分钟

2014 年 4 月 19 日,在由 @百度主办、 @InfoQ 负责策划组织和实施的第 49 期百度技术沙龙活动上,来自百度运维部 MFS 组技术负责人程一仕,和目前负责整个搜狐云服务的后端存储和数据库系统的开发和运营陈伟,各自分享了其在大规模分布式存储的实战经验。他们的话题涉及“MooseFS 和 redis 在海量存储下的架构改进和性能提升”和“高性能 NoSQL 系统 BladeCube 的设计与优化”这两个方面,本文将对讲师各自的分享做简单的回顾,同时提供相关资料的下载。

主题一:MooseFS 和 redis 在海量存储下的架构改进和性能提升(下载讲稿

程一仕通过对MooseFS 的单点master 的架构升级,来提升系统的性能和扩展性,进而支撑百度的众多业务。他使用redis 的代理中间层构建高可用的分布式redis 集群来满足产品的低延迟,大数据量的业务需求。这两个系统广泛应用于百度商业产品体系,LBS 产品体系,数据库文件热备等在线业务,并支撑大量关键服务。

在线应用数据

“MosseFS 和redis 大家都比较了解,因为很大的技术架构方面我讲的比较少。先介绍一下应用数据,存储量大概是10PB 以上,比如说大家用百度影音,它主要应用的场景还是在商务系统,包括凤巢的报表,文件的数量大概是3 亿左右,我们大概有20 个群左右的数量,单个集群的规模大概可以到1000 左右。”

中心化节点的设计和问题

master 的功能

  • 客户端对元数据的访问和变更请求
  • chunkserver 之间的数据容量调整
  • 元数据的存储和持久化
  • 集群健康状态的维护

master 的局限和隐患

  • 性能瓶颈
  • 单点故障(single point of failure)

主从架构扩展性能瓶颈

“我们做的第一个改进就是开发一个 Shadow master,我不保证它的同步是一致的。大家对存储了解一点的都知道,我的访问有延迟。客户端这边会把这个全部发到 Shadow master 上面去。”程一仕使用 redis 的代理中间层构建高可用的分布式 redis 集群来满足产品的低延迟,大数据量的业务需求。

主题二:高性能 NoSQL 系统 BladeCube 的设计与优化(下载讲稿

BladeCube 系统是搜狐自己开发的一套 NoSQL 系统,陈伟的设计参考了 BigTable 和 HBase,使用 C++ 实现,性能优于 HBase,以下主要讲一下搜狐云服务在设计和优化这个系统时的一些心得。

MySQL 的可扩展性太差,分库分表带来的运维太大,无法搞定,主从结构的一致性也难以保证读写性能差,变 schema。包括 MongoDB 在内的数据库,在真正面对超大规模数据时,难以保证性能和可用性。超过十亿之后性能问题,潜在的 bug,丢数据等。持久化和内存放在一起,不能充分利用资源。

分层结构的优势,目标是减少运维开销,大部分错误能够自动恢复,不影响服务。

“最近一有一些比较新的开源系统宣传的很美好,但是真的用起来会有很多问题,我们有过一些测试。比如说超过 10 亿量级以后,在响应的性能上,以及它的某些丢数据的行为都是我们不能容忍的,因此我们抛弃了这些选择。”陈伟说。

“C++ 实际上性能是非常好的,跟 HBase 对比的过程中,我们可以发现在架构基本一致的情况下,我们通过一些比较好的编程的实现以及内部的优化,可以在性能上做到三倍、四倍,甚至更高。但是 C++ 也有一个问题,它的调试和开发周期都比 java 困难,为什么开源系统都采用 Java 来实现,但是实际上对于我们严肃的来完成一个基础架构的话,Java 虽然有天花板,但是用 C++ 可以更好的控制内存,可以把系统做的非常好。”

OpenSpace(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

夏粉:深度学习话题在现在大数据时代将会越来越火,我在演讲时算是为大家抛了个砖,互动过程中大家问了许多实际的问题,希望我的解释能给大家带来一些帮助。

王晓博:关注机器学习的同学热情很高,夏老师讲的干货很多,但只要不涉及关键商业化数据,比如百度广告点击的具体数字,这些模型公布出来对大家的学习还是很有好处的。希望下次主办方能准备相关话题,这样在 Open Space 时,讲师可提前做一些准备,为听众做更针对性的解答。

会上,一些参会者也通过新浪微博分享了他们的参会感受:

程序猿刘静:Tradeoff every details

_ 胡凯 _ :碉堡了!居然中头奖

韩占康_ 极简:原来技术高地在搜狐啊,哈哈。

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第50 期百度技术沙龙将在5 月17 日,周六,在北京车库咖啡举行,主题为前端应用相关内容,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。

2014-04-29 07:394020

评论

发布
暂无评论
发现更多内容

面试侃集合之SynchronousQueue非公平模式篇

码农参上

非公平锁 SynchronousQueue 8月日更

Go- map的定义

HelloBug

Go 语言 map的定义

【墨天轮专访第二期】巨杉数据库萧少聪:重视企业长期需求,打造中国的世界级产品

墨天轮

数据库 人物访谈 国产数据库 巨杉数据库

终于有人把操作系统,CPU,基础知识,网络一次讲清楚了,绝绝子

Java~~~

Java 架构 面试 TCP 网络

基于 Formily 的表单设计器实现原理分析 ​

全象云低代码

JavaScript 低代码开发 表单设计

Shopee物流业务核心数据库架构演变——权衡取舍的艺术

Shopee技术团队

架构 #数据库 #物流 #供应链 #Shopee

深层剖析鸿蒙轻内核M核的动态内存如何支持多段非连续性内存

华为云开发者联盟

鸿蒙 内存 结构体 OpenHarmony 动态内容

带你读AI论文丨LaneNet基于实体分割的端到端车道线检测

华为云开发者联盟

端到端 网络模型 车道线 实体分割 LanNet

Alibaba新产!Spring+SpringBoot+SpringCloud全家桶进阶小册

Java~~~

Java spring 架构 面试 Spring Cloud

惊!阿里大佬珍之若宝的最强高并发pdf,竟然被上传GitHub开源

Java 编程 架构 面试 程序人生

超实用?HUAWEI高工总结出15W字的图解计算机操作系统指南手册

Java~~~

Java 架构 面试 TCP 网络

字节再次出圈!GitHub上爆火一星期的算法刷题手册竟出自这人之手

Java~~~

Java 架构 面试 算法 数据结构与算法

今天我们来谈谈Golang的同步等待组

Regan Yue

Go 语言 8月日更 同步等待组

Spark必读!总有一些Spark知识点你需要知道

Qunar技术沙龙

spark hdfs mapreduce Web UI 数据倾斜

这一次!我在百度告诉你,当你请求百度时都发生了什么...

程序员 架构 面试 计算机

算法推荐规制!《互联网信息服务算法推荐管理规定(征求意见稿)》公开征求意见

郑州埃文科技

模块六作业

燕燕 yen yen

架构实战营

阿里内部推出Spring响应式微服务Boot2Cloud文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

阿里P8大牛耗费三年整理的:Java架构之完美设计实战PDF

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

eKuiper 联手 OpenYurt,解决物联网场景下边缘流数据处理难题

EMQ映云科技

云计算 阿里云 物联网 IoT #Kubernetes#

比POSTMAN更好用!在国产接口调试工具APIPOST中使用Mock

Proud lion

大前端 后端 Postman 开发工具 接口文档

使用接口文档快照机制,让接口文档不在频繁变动

CodeNongXiaoW

大前端 测试 后端 接口文档

如何支持亿级用户分流实验?AB实验平台在爱奇艺的实践

爱奇艺技术产品团队

测试 开发 精准测试 AB testing实战

堡垒机和防火墙的三大区别分析-行云管家

行云管家

网络安全 防火墙 信息安全 数据安全 堡垒机

常用正则表达式最强汇总(含Python代码举例讲解+爬虫实战)

Python研究者

8月日更

Go- map的使用

HelloBug

Go 语言 map的使用

金九银十给我疯狂内卷!GitHub再现星标86K面试手册,37K!妥妥的

Java~~~

Java 架构 面试 算法 JVM

阿里P8大牛终于整理完了564页大话java性能优化神仙文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

疫情小区离你有多远,百度地图告诉你

百度开发者中心

最佳实践 百度地图

膜拜!阿里内部都在强力进阶学习springboot实战派文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

保姆级教程,小白也能2周搞定3个月的Web开发任务!

博文视点Broadview

百度技术沙龙第49期回顾:大规模分布式存储(含资料下载)_语言 & 开发_景琦_InfoQ精选文章