写点什么

百度技术沙龙第 25 期:中科院查礼谈大数据研究进展

  • 2012-04-15
  • 本文字数:1167 字

    阅读完需:约 4 分钟

在 4 月 7 日举行的第 25 期百度技术沙龙(海量数据处理解析)活动中,特别邀请到中科院计算所副研究员、大规模数据计算专家查礼( @solochar )作为嘉宾与参会者分享大数据领域的研究成果。查礼主要谈到了在 RCFile、MapReduce 方向的研究情况,并谈到了对大数据研究趋势的看法。

查礼首先做了自我介绍:

我现在在中国科学院计算技术研究所,从事大规模数据计算方面的研究工作,也是 Hadoop in China 大会的发起人和组织者。在去年的 Hadoop in China 大会中,我们也曾邀请 Hadoop 之父——Doug Cutting 到场演讲。

最早的研究源自于 RCFile:

最早的研究是基于与 Apache Hive 的合作,叫 RCFile。RCFile 是把原来的 SequenceFile 的纯行存储结构,改成行列混合结构。列存储的优势在于它的压缩率、加载速度上。而且目前 RCFile 已经在 FaceBook 等生产系统上得到了应用。这项研究工作的意义在于,从存储结构角度来解决存储空间不足、加载速度和查询速度不理想等问题。

此外,查礼还谈到了 MapReduce 解耦方向的进展:

大家都知道在 MapReduce 模型中,Map 和 Reduce 之间相互依赖,这样导致在资源利用上会出现非常严重的浪费。另外,对于用户作业的执行时间来讲,也很难预测。如果能从 Map 和 Reduce 两阶段将其解耦,资源和预测这两个问题就迎刃而解了。目前我们也在某个比较著名的 IT 公司实际环境上做了测试,可提高大概 30%~50% 左右的性能,效果还是很明显的。

查礼认为,大数据领域研究的发展主要可分三个阶段:大、快、准,

第一个阶段是大,现在已经出现了像 Hadoop 这样的软件,来处理数据。

第二个阶段是快,在遇到大量数据计算时,如何缩短计算时间,而且是从数量级上提高,这是这个阶段的重点,目前我们也正处于这个阶段。

第三个阶段我个人认为应该是准,比如不同用户在搜索引擎中进行搜索,搜索引擎会根据每个人不同的喜好返回不同的结果,目前好像有的搜索引擎公司正在从事这方面的研究工作。

最后,查礼谈到了大数据研究的两个发展趋势:

从研究角度来说,大数据的研究经历了一个变化的过程,主要是计算模式由数据向计算靠拢,转变为计算向数据靠拢。也就是说数据在哪里,我们就尽量把计算放在哪里,正因为有这样的一个计算模式的变化,所以产生了很多新的技术。

第二个是向专业化方向发展,越来越多的 NoSQL 数据库被广泛应用,每种又有其适合的特定场景,不像以前,MySQL 或是 Oracle 这样的关系数据库包打天下,未来,肯定是向专业化方向去发展。如果条件具备,如果应用足够庞大,完全有可能从上到下,甚至包括硬件在内都可以自己来做,为的是什么?为的是能够节约成本、提高性能,等等,这是两个大的趋势。

延伸阅读

百度技术沙龙第25 期回顾:海量数据处理技术解析(含资料下载)

演讲视频: Hypertable Goes Realtime at Baidu ,百度,杨栋

演讲视频: 58 同城在分布式存储方面的架构实践,58 同城,徐振华

2012-04-15 22:502925
用户头像

发布了 156 篇内容, 共 56.5 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

ONES 年终报告 | 功能升级123次,服务超100万客户

万事ONES

研发管理工具 年终报告

完美!这份世界顶级架构师编写的550页Spring5高级编程

Java架构之路

Java 程序员 架构 面试 编程语言

GitHub上1.3W Stars国内第一的项目实战PDF

Java架构之路

Java 程序员 架构 面试 编程语言

ReactNative | 通过文件下载/打开需求,聊聊使用三方库

梁龙先森

大前端 技术方案 React Native

IPFS系统APP软件开发

系统开发

由两个问题引发的对GaussDB(DWS)负载均衡的思考

华为云开发者联盟

数据库 数据 负载

手把手带你入门加密算法的Python实现

华为云开发者联盟

Python 算法 加密

2020H1中国AI云服务市场规模增长远超预期;C++20 标准正式发布

京东科技开发者

云计算 AI IoT

架构革新路漫漫,京东智联云自研服务器设计细节探秘

京东科技开发者

服务器 数据中心 IDC

Head First设计模式

田维常

接口测试-使用mock生产随机数据

测试人生路

接口测试

用138个案例讲明白了Spring全家桶+Docker+MQ

996小迁

Docker 架构 面试 RabbitMQ Spring全家桶

小黄人提前回归?实力与萌力双出动

DT极客

测开之函数进阶· 第5篇《偏函数》

清菡软件测试

测试开发

【得物技术】交易轨迹系统

得物技术

数据 交易 得物 得物技术 自定义

七大步骤,详解预置算法构建模型的全过程

华为云开发者联盟

架构 算法 数据

【华为云专家原创】 服务注册与发现如何满足服务治理?

华为云开发者联盟

分布式 服务 注册

专业基础篇

紫枫

看完这篇,保证让你真正明白:分布式系统的CAP理论、CAP如何三选二

四猿外

架构 分布式系统 CAP CAP原理 CAP理论

打通经济命脉,区块链助力实体商超变革

CECBC

区块链

架构设计大作业 2

仲夏

Bitmap 续篇-基于 Bitmap 瞅瞅不一样的 Percentile

GrowingIO技术专栏

BitMap

盘点 2020 | 数据里有你、我、他,关键还是自己

李孟聊AI

大数据 数据中台 感悟 盘点2020

重庆打造区块链产业高地

CECBC

区块链

低代码旋风将席卷整个IT业界,带来应用开发的新革命和新里程!

J2PaaS低代码平台

五步带你探究爬虫爬取视频弹幕背后的真相,附爬虫实现源码

小Q

学习 编程 架构 面试 python 爬虫

年前成功拿下35K+16薪美团Java架构师Offer!考点、面试题分享送给明年金三银四的你

Java架构追梦

Java 架构 面试 美团 offer

美团面试:为什么就能直接调用userMapper接口的方法?

田维常

美团

架构设计大作业1

仲夏

2020盘点之手机失窃事件复盘分析

石君

信息安全 资金安全 手机失窃

从阿里P5到P8=入门到内核?看看这份对标80W+年薪的Java进阶路线图

Java架构之路

Java 程序员 架构 面试 编程语言

百度技术沙龙第25期:中科院查礼谈大数据研究进展_百度_贾国清_InfoQ精选文章