写点什么

百度技术沙龙第 25 期:中科院查礼谈大数据研究进展

  • 2012-04-15
  • 本文字数:1167 字

    阅读完需:约 4 分钟

在 4 月 7 日举行的第 25 期百度技术沙龙(海量数据处理解析)活动中,特别邀请到中科院计算所副研究员、大规模数据计算专家查礼( @solochar )作为嘉宾与参会者分享大数据领域的研究成果。查礼主要谈到了在 RCFile、MapReduce 方向的研究情况,并谈到了对大数据研究趋势的看法。

查礼首先做了自我介绍:

我现在在中国科学院计算技术研究所,从事大规模数据计算方面的研究工作,也是 Hadoop in China 大会的发起人和组织者。在去年的 Hadoop in China 大会中,我们也曾邀请 Hadoop 之父——Doug Cutting 到场演讲。

最早的研究源自于 RCFile:

最早的研究是基于与 Apache Hive 的合作,叫 RCFile。RCFile 是把原来的 SequenceFile 的纯行存储结构,改成行列混合结构。列存储的优势在于它的压缩率、加载速度上。而且目前 RCFile 已经在 FaceBook 等生产系统上得到了应用。这项研究工作的意义在于,从存储结构角度来解决存储空间不足、加载速度和查询速度不理想等问题。

此外,查礼还谈到了 MapReduce 解耦方向的进展:

大家都知道在 MapReduce 模型中,Map 和 Reduce 之间相互依赖,这样导致在资源利用上会出现非常严重的浪费。另外,对于用户作业的执行时间来讲,也很难预测。如果能从 Map 和 Reduce 两阶段将其解耦,资源和预测这两个问题就迎刃而解了。目前我们也在某个比较著名的 IT 公司实际环境上做了测试,可提高大概 30%~50% 左右的性能,效果还是很明显的。

查礼认为,大数据领域研究的发展主要可分三个阶段:大、快、准,

第一个阶段是大,现在已经出现了像 Hadoop 这样的软件,来处理数据。

第二个阶段是快,在遇到大量数据计算时,如何缩短计算时间,而且是从数量级上提高,这是这个阶段的重点,目前我们也正处于这个阶段。

第三个阶段我个人认为应该是准,比如不同用户在搜索引擎中进行搜索,搜索引擎会根据每个人不同的喜好返回不同的结果,目前好像有的搜索引擎公司正在从事这方面的研究工作。

最后,查礼谈到了大数据研究的两个发展趋势:

从研究角度来说,大数据的研究经历了一个变化的过程,主要是计算模式由数据向计算靠拢,转变为计算向数据靠拢。也就是说数据在哪里,我们就尽量把计算放在哪里,正因为有这样的一个计算模式的变化,所以产生了很多新的技术。

第二个是向专业化方向发展,越来越多的 NoSQL 数据库被广泛应用,每种又有其适合的特定场景,不像以前,MySQL 或是 Oracle 这样的关系数据库包打天下,未来,肯定是向专业化方向去发展。如果条件具备,如果应用足够庞大,完全有可能从上到下,甚至包括硬件在内都可以自己来做,为的是什么?为的是能够节约成本、提高性能,等等,这是两个大的趋势。

延伸阅读

百度技术沙龙第25 期回顾:海量数据处理技术解析(含资料下载)

演讲视频: Hypertable Goes Realtime at Baidu ,百度,杨栋

演讲视频: 58 同城在分布式存储方面的架构实践,58 同城,徐振华

2012-04-15 22:503014
用户头像

发布了 156 篇内容, 共 57.9 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

《算力互联互通行动计划》发布,天翼云铺就算力畅行高速路!

天翼云开发者社区

天翼云 算力标准

【每天学点‘音视频’】前向纠错 和 漏包重传

小曾同学.com

实时音视频 NACK fec ACK 丢包重传

FonePaw iOS Transfer for Mac v6.5.0 iOS数据传输工具

晨光熹微

DropDMG for Mac v3.6.9快速制作DMG文件的工具

晨光熹微

详解HarmonyOS NEXT系统中ArkTS和仓颉的混合开发

幽蓝计划

2026第十四届中国电子信息博览会

AIOTE智博会

电子展 深圳电子展 电子信息展 电博会

“考公图都不会?”大模型真正的难题是:看图太难!

新消费日报

商品中心—商品可采可补可售的技术文档

不在线第一只蜗牛

Java

2025年低代码平台最新权威排行:原来是这几家厂商在领跑行业

优秀

低代码 低代码开发 低代码开发平台 低代码平台

MCP Server 之旅第 6 站:FC MCP Server 研发实战

阿里巴巴云原生

MCP

Cisdem PDF Compressor for Mac v5.2.0 PDF文件压缩工具

晨光熹微

天润融通AI训练师推动AI员工从“可用”到“好用”

天润融通

商品中心—商品生命周期和状态的技术文档

电子尖叫食人鱼

Java

GM ePub Reader Pro for Mac v2.8.6 ePub 阅读器 AI 电子书阅读神器

晨光熹微

告别切屏|阿里云DMS MCP+通义灵码,30分钟搞定电商秒杀开发

阿里巴巴云原生

AI英语学习APP的应用场景

北京木奇移动技术有限公司

软件外包公司 AI英语学习 AI英语口语

Desktop Stickers for Mac v2.88 桌面便签

晨光熹微

新闻速递丨Altair连续两年被 Gartner 魔力象限评为数据科学与机器学习平台领导者

Altair RapidMiner

机器学习 AI 数据分析 生成式AI RapidMiner

SRv6 验证实验

天翼云开发者社区

网络 SRv6

Geekbench AI 命令行工具安装教程

柠檬与橘子

数字先锋 | 异地“同上一堂课”,天翼云助力巴蜀云校线上教学提质增效!

天翼云开发者社区

天翼云 数字教育平台

深度解析:爬虫技术获取淘宝商品详情并封装为API的全流程应用

Noah

告别切屏|阿里云DMS MCP+通义灵码,30分钟搞定电商秒杀开发

阿里云云效

element ui table render-header自定义表头信息使用

柠檬与橘子

File Cabinet Pro for mac v8.5.6 实用的菜单栏文件快捷管理工具

晨光熹微

赛博威合同管理再进化:费用追踪无死角,核算精准零偏差,审批智能再提速!

赛博威科技

Deckset for Mac v2.0.39 创意优秀的幻灯片制作工具

晨光熹微

T-rex压测工具使用

天翼云开发者社区

网络

Feeder for Mac v4.7.3创建和发布的RSS

晨光熹微

Feeder 4 mac Feeder下载 Feeder 4 for mac

分布式里套单机?YMatrix HTAP “神技”搞定 10w+ TPS

YMatrix 超融合数据库

HTAP HTAP 场景实践 YMatrix HTAP数据库 非平衡部署

Ripple的 XRP分类账正推出代币化商业票据以进一步推动 RWA 发展

PowerVerse

百度技术沙龙第25期:中科院查礼谈大数据研究进展_百度_贾国清_InfoQ精选文章