AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

百度技术沙龙第 25 期:中科院查礼谈大数据研究进展

  • 2012-04-15
  • 本文字数:1167 字

    阅读完需:约 4 分钟

在 4 月 7 日举行的第 25 期百度技术沙龙(海量数据处理解析)活动中,特别邀请到中科院计算所副研究员、大规模数据计算专家查礼( @solochar )作为嘉宾与参会者分享大数据领域的研究成果。查礼主要谈到了在 RCFile、MapReduce 方向的研究情况,并谈到了对大数据研究趋势的看法。

查礼首先做了自我介绍:

我现在在中国科学院计算技术研究所,从事大规模数据计算方面的研究工作,也是 Hadoop in China 大会的发起人和组织者。在去年的 Hadoop in China 大会中,我们也曾邀请 Hadoop 之父——Doug Cutting 到场演讲。

最早的研究源自于 RCFile:

最早的研究是基于与 Apache Hive 的合作,叫 RCFile。RCFile 是把原来的 SequenceFile 的纯行存储结构,改成行列混合结构。列存储的优势在于它的压缩率、加载速度上。而且目前 RCFile 已经在 FaceBook 等生产系统上得到了应用。这项研究工作的意义在于,从存储结构角度来解决存储空间不足、加载速度和查询速度不理想等问题。

此外,查礼还谈到了 MapReduce 解耦方向的进展:

大家都知道在 MapReduce 模型中,Map 和 Reduce 之间相互依赖,这样导致在资源利用上会出现非常严重的浪费。另外,对于用户作业的执行时间来讲,也很难预测。如果能从 Map 和 Reduce 两阶段将其解耦,资源和预测这两个问题就迎刃而解了。目前我们也在某个比较著名的 IT 公司实际环境上做了测试,可提高大概 30%~50% 左右的性能,效果还是很明显的。

查礼认为,大数据领域研究的发展主要可分三个阶段:大、快、准,

第一个阶段是大,现在已经出现了像 Hadoop 这样的软件,来处理数据。

第二个阶段是快,在遇到大量数据计算时,如何缩短计算时间,而且是从数量级上提高,这是这个阶段的重点,目前我们也正处于这个阶段。

第三个阶段我个人认为应该是准,比如不同用户在搜索引擎中进行搜索,搜索引擎会根据每个人不同的喜好返回不同的结果,目前好像有的搜索引擎公司正在从事这方面的研究工作。

最后,查礼谈到了大数据研究的两个发展趋势:

从研究角度来说,大数据的研究经历了一个变化的过程,主要是计算模式由数据向计算靠拢,转变为计算向数据靠拢。也就是说数据在哪里,我们就尽量把计算放在哪里,正因为有这样的一个计算模式的变化,所以产生了很多新的技术。

第二个是向专业化方向发展,越来越多的 NoSQL 数据库被广泛应用,每种又有其适合的特定场景,不像以前,MySQL 或是 Oracle 这样的关系数据库包打天下,未来,肯定是向专业化方向去发展。如果条件具备,如果应用足够庞大,完全有可能从上到下,甚至包括硬件在内都可以自己来做,为的是什么?为的是能够节约成本、提高性能,等等,这是两个大的趋势。

延伸阅读

百度技术沙龙第25 期回顾:海量数据处理技术解析(含资料下载)

演讲视频: Hypertable Goes Realtime at Baidu ,百度,杨栋

演讲视频: 58 同城在分布式存储方面的架构实践,58 同城,徐振华

2012-04-15 22:502870
用户头像

发布了 156 篇内容, 共 55.6 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

测试金字塔,你在哪一层?

华为云开发者联盟

软件测试 测试 软件质量 单元测试 华为云DevCloud

贯穿全产业链做数字孪生产品,给你更好的选择

一只数据鲸鱼

数据可视化 工业4.0 制造业 数字孪生

腾讯云分布式数据库TDSQL再获认可,荣获“最佳保险数字化转型综合解决方案奖”

腾讯云数据库

数据库 tdsql

原来搭建淘客项目如此简单,app、web、小程序轻松搞定

Silently9527

Java uniapp 淘宝客开源

架构实战营模块七-王者荣耀商城异地多活架构设计

hello

架构训练营

别人就算了,开发人员都不知道低代码的起源就糟糕了

低代码小观

开发者 低代码 开发工具 无代码 低代码起源

在 Discourse 中如何使用输入对话框

HoneyMoose

Java 8 及其后续版本的新遍历 forEach

HoneyMoose

腾讯云为金融换“心“,TDSQL的发展历程和特性

腾讯云数据库

数据库 tdsql

腾讯安全李滨:腾讯云数据安全与隐私保护探索与实践

腾讯安全云鼎实验室

隐私保护 数据安全

【Flutter 专题】53 图解 BackdropFilter 高斯模糊

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 9月日更

多环境

程序员鱼皮

Java c++ Python 大前端 后端

Mobileye:开出车库,上路驰骋

科技新消息

如何使用 GeoTrellis 和 React 构建地理处理应用程序

gisbook

GitHub spark Web GIS React

华为云发布【云巢】智慧康养物联网加速器,加入立享多项扶持

华为云开发者联盟

物联网 华为云 应用开发 云巢 智慧康养

在智能运维中如何进行指标异常检测与分类?

云智慧AIOps社区

算法 场景应用落地 异常检测 智能运维 指标

吊打一切现有开源OCR项目:效果再升7%,速度提升220%

百度开发者中心

最佳实践 方法论 开源技术

腾讯云数据库TDSQL,新基建大潮下的弄潮儿

腾讯云数据库

数据库 tdsql

IntelliJ IDEA 快速插入 for 循环

HoneyMoose

Django 框架的神奇之处,几行代码就能自动入库,微型博客第 3 篇

梦想橡皮擦

9月日更

TLS协议分析 (八) 实现与开源项目

OpenIM

Vue进阶(幺零幺):npm install -g 和 npm install --save-dev 的关系

No Silver Bullet

Vue 9月日更

【LeetCode】路径总和Java题解

Albert

算法 LeetCode 9月日更

腾讯云数据库TDSQL发展的整体布局和应对策略

腾讯云数据库

数据库 tdsql

基于 Apache APISIX,爱奇艺 API 网关的更新与落地实践

API7.ai 技术团队

Apache APISIX Meetup 爱奇艺 企业案例

架构实战营模块七作业

maybe

手撸二叉树之二叉树的所有路径

HelloWorld杰少

9月日更

顶会CIKM'21论文解读:基于图神经网络的人类行为轨迹恢复模型

华为云开发者联盟

图神经网络 华为云数据库 轨迹分析 CIKM PeriodicMove

OkHttp源码解读HTTP

Changing Lin

9月日更

如何修改 Discourse 的域名

HoneyMoose

使用 Jackson – 将字符串转换为 JsonNode 对象

HoneyMoose

百度技术沙龙第25期:中科院查礼谈大数据研究进展_百度_贾国清_InfoQ精选文章