都2023了!我不允许你还不了解AIGC!立即报名 了解详情
写点什么

冯宏华:做分布式存储系统不是一件容易的事情

  • 2014-07-14
  • 本文字数:1974 字

    阅读完需:约 6 分钟

随着业务的发展,数据存储不可避免。而建立一个稳定可用的分布式存储系统并不是一件容易的事情。在 ArchSummit 全球架构师峰会前夕,InfoQ 采访了小米软件工程师冯宏华,他同时也是 HBase committer。以下为对话全文:

InfoQ: 冯宏华你好,向 InfoQ 的读者和 ArchSummit 的听众介绍下自己吧。

冯宏华:我 1995-2002 年在清华大学计算机系读本科和硕士,毕业后先后在松下、IBM、微软、腾讯工作过,在微软 STCA 工作期间 (2007-2011) 开始从事分布式存储系统方面的工作,参加了 Kirin Store 系统 (Bing 的后台存储系统) 的开发;在腾讯 SOSO 的台风部门工作期间参与了 Xcube 系统 (类 Bigtable) 的开发和改进 ;2012 年底加入小米后,一直从事 HBase 系统的开发和改进。

InfoQ:从微软、腾讯到小米,你一直在专注分布式存储领域,6-7 年下来你最大的体会是什么?你观察到哪些趋势和变化?

冯宏华:最大的体会是做出一个稳定可用的分布式存储系统不是一件容易的事情,从架构设计到各个实现细节,有太多的因素最后决定了系统的稳定性可用性以及性能等各项指标;趋势和变化这个我只能说些自己的看法了 (不一定准确),对比几年前,开源系统尤其是 Hadoop/HBase 的成熟度有了很大的改观,已经达到较稳定和可用的程度,对大多数有大数据应用场景的公司来说,这是一个好消息,因为不再需要从无到有的开发一套自己的系统了。

InfoQ:接下来说说 HBase,首先恭喜你成为了 HBase 的 committer,说说你的贡献吧,怎么在老外主导的圈子得到认可的?

冯宏华:针对 HBase 的改进大多是建立在公司各业务部门真实的业务需求之上,他们的需求直接驱使了我们对 HBase 的改进,我们基本也都是先实现在自己的内部版本并服务在业务系统上,再找时间提交到社区去的,比如细粒度跨机房复制,反向扫描,写性能优化,指定 timestamp 批量删除等功能;说到社区认可,感觉还是比较顺其自然的,当持续提交 patch,以及过程中的讨论、交互,就慢慢积累起来了,当然 patch 的质量也会是一个因素。

InfoQ:HBaseCon2014 上好像只有你和谢良两名来自国内互联网公司的演讲人。这是你第一次去 HBaseCon 吗?说说这次大会的感受吧,有哪些值得关注的技术实现或创业公司?

冯宏华:这是小米第一次去 HBaseCon,谢良和我也都是第一次;对 HBaseCon 的感受就是面对面接触到社区的人还是和通过 jira 的 comment 交流不太一样。另外就是感觉硅谷那边对这种纯技术大会的参与比较积极,那边年纪比较大但仍然从事一线开发的“老码农”更多,感觉他们对仍然战斗在第一线没觉得有何不妥;遇到几个那种几个人组成的大数据公司,主要提供大数据业务支持、咨询等工作,比较意外。

InfoQ:说说你在 ArchSummit 上的分享吧。

冯宏华:主要集中在介绍小米大数据平台组做的三个方面:存储平台,计算平台和开放平台,我个人主要集中在存储平台,所以这块会讲的更详细些。

InfoQ:在小米,除了 MapReduce 还使用了哪些计算框架?分别用在了那些场景?

冯宏华:还用到了 Impala、Hive、Storm、Spark 这四个计算框架。

InfoQ:能否介绍一下大数据在贵公司主要是如何应用的?

冯宏华:小米的大数据平台是搭建在以 Hadoop/HBase 等一系列开源系统之上的,其主要用途分两类:大数据线上实时存取 (如 micloud/mipush/miliao 等);用户数据线下分析处理 (如电商 /SNS/ 互娱 / 多看等数据)。

InfoQ:大数据分析对于贵公司的业务产生了哪些推动作用?;

冯宏华:大数据分析主要满足了业务部门对各自数据的深度分析和挖掘的需求,而且是多维度多视角的,这样能让业务部门对他们的数据有更全面更深入的“理解”,这些“理解”又会驱使和促进他们对业务本身的改进和调整,这是一个不断反馈和迭代的过程。

InfoQ:未来在大数据的应用方面有何其他的计划?

冯宏华:可能会尝试使用其他种类的存储系统如 Cassandra 等,也会对 Hadoop/HBase 系统做一些基于业务需求的比较大的改进和扩展,数据计算方面会持续对诸如 Storm/Spark 等系统的投入,另外也在做开放平台方面的工作。

InfoQ:小米开放平台提供了类似 AWS S3 和 DynamoDB 的服务,这些服务服务于小米内部还是外部的用户?

冯宏华:目前还都是小米内部用户。

InfoQ:对于想要应用大数据的企业,您有何建议?

冯宏华:没有特殊原因的话,尽量采用已被业界同行验证和使用过的比较成熟的开源产品,避免无谓的投入大量人力和时间去重造“轮子”和走弯路,但同时也要对开源里的新技术 / 新系统保持兴趣,比如用测试集群、数据对这些新技术、新系统做一些尝试等,对它们的特性优劣以及成熟度等都有一个直观感性的认识,以决定是否以及何时对何种业务场景使用它们。

此专题详细信息,请见专题页面。关于此次 ArchSummit 全球架构师峰会其他专题的详细信息,请移步至大会官网

团体购票(5 人及以上)将享有更多优惠。详请咨询 arch【at】cn.infoq.com,或直接致电 010-89880682。报名请点击报名页面

2014-07-14 23:583811
用户头像

发布了 45 篇内容, 共 13.1 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

Tapdata 在线研讨会:如何快速上手 Tapdata Cloud?

tapdata

数据库 Cloud

使用APICloud AVM多端组件快速实现app中的搜索功能

YonBuilder低代码开发平台

前端 APP开发 APICloud 跨端开发 跨端框架

Go学习笔记——同构复合类型

为自己带盐

Go 学习笔记 2月月更

MongoDB在vivo评论中台的应用案例

MongoDB中文社区

mongodb

【C语言】 初始函数 & 数组

謓泽

数组 C语言 函数 2月月更

数蛙DG-IoT开源平台

dgiot

物联网 2月月更 2月日更 dgiot dgiot物联网

什么字体更适合程序员?

lencx

程序员 字体设置 主题

官宣 | 极狐GitLab SaaS来了

极狐GitLab

用UML来描述领域模型吧

蜜糖的代码注释

UML 领域建模 2月月更

剖析react核心设计原理--异步执行调度

有道技术团队

“区块链”将彻底改变人类社会文明,颠覆世界最强大的企业

CECBC

全方位构建信创生态体系,焱融科技完成海光 CPU 生态兼容性认证

焱融科技

云计算 分布式 高性能 文件存储 生态

元宇宙时代NFT的价值衡量

CECBC

优酷 IPv6 演进和实践指南

阿里巴巴终端技术

ipv6 移动网络

大数据培训:Flink 快照分析

@零度

flink 大数据开发

如何利用友盟平台定位安卓端的程序异常 | 社区征文

liuzhen007

移动开发 新春征文 2月月更

面试突击23:说一下线程生命周期,以及转换过程?

王磊

深入解析 Flink 细粒度资源管理

Apache Flink

大数据 flink 开源 编程 实时计算

Mysql数据库表中有索引为什么还是查询慢?

慕枫技术笔记

数据库 2月月更

MongoDB University 中文字幕视频上线!

MongoDB中文社区

mongodb

java培训:JVM参数配置

@零度

JVM JAVA开发

8分钟了解TDengine的WAL机制

TDengine

数据库 tdengine 开源 物联网

艾瑞咨询:青云科技入选中国开源软件产业图谱

青云技术社区

云计算 开源 混合云

幂等最佳实践

得物技术

数据 幂等 API 一致性 请求

数字货币或将消灭银行!未来3至5年,银行业可能将崩溃?

CECBC

前端培训:Vue3 的自定义指令

@零度

Vue 前端开发

跨项目度量,CTO、PMO们的好帮手

阿里云云效

阿里云 云原生 敏捷开发 CTO 研发度量

第七周

cqyanbo

Linux系统编程-进程间通信(消息队列)

DS小龙哥

消息队列 2月月更

报名开启 | 2月25日,索信达监管合规产品线上发布会

索信达控股

关于极狐GitLab SaaS,你应该知道这些!

极狐GitLab

DevSecOps SaaS平台

  • 需要帮助,请添加网站小助手,进入 InfoQ 技术交流群
冯宏华:做分布式存储系统不是一件容易的事情_大数据_包研_InfoQ精选文章