抖音技术能力大揭密!钜惠大礼、深度体验,尽在火山引擎增长沙龙,就等你来! 立即报名>> 了解详情
写点什么

Hadoop 的快速发展带动了对数据迁移工具的需求

2014 年 11 月 19 日

Hadoop 是由 Apache 基金会所开发的分布式处理平台。其最核心的设计就是: HDFS 分布式文件系统和分布式计算框架 Map/Reduce。HDFS 具有高容错性、高吞吐量的特点,为海量数据提供存储;Map/Reduce 则为大数据数据计算提供支持。目前,Hadoop 以其低成本、高扩展性、靠可靠性以及靠容错性等优点,成为新一代的大数据处理平台。很多公司也开始提供基于 Hadoop 的商业软件、支持、服务以及培训。据估计,每年 Hadoop 的销售额会增长近 60%,到 2020 年会达到 500 亿左右。随着越来越多的公司开始使用 Hadoop 产品,大量的数据迁移工作由此产生。

理论上讲,Hadoop 平台数据的迁移(包括迁入和迁出)是相关软件以及用户就可以完成的工作。例如,Apache 的 Sqoop 就是一个用来将 Hadoop 和关系型数据库中的数据相互转移的工具。它可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres 等)中的数据导入到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导入到关系型数据库中。然而,大数据时代是的数据迁移需要耗费大量的人力。于是,Hadoop 相关的数据迁移工具和服务的需求相应增加。

为了能够方便数据迁移,无论是原有的数据迁移或者数据备份工具相关的公司,还是 Hadoop 厂商都开始提供相应的产品和服务。例如,Attunity 公司推出的数据复制产品——Attunity Replicate。该产品针对 EMC Greenplum 多款产品进行了性能优化。除了 Hadoop,它所支持的数据复制 / 迁移平台还包括 Oracle、DB2、SQL Server、Greenplum 以及 Teradata 等。此外,Diyotta DataMover 也同样支持 Hadoop 平台中多种格式的数据迁入和迁出。大型机数据集成厂商 Syncsort 已经与 Hadoop 厂商 Cloudera 宣布合作,准备将大型机数据与 Hadoop 集群更紧密地联系起来,从而进行大数据分析。据 Syncsort 总裁 Josh Rogers 预测,将大型机负载逐渐迁移到 Hadoop 集群将是未来 Hadoop 在企业中的一个主要应用场景。

可以看出,基本上所有的数据迁移工具和服务都能够支持多数平台间的数据迁移。那么,方便性和整体服务就成为了提高产品竞争力的重要方面。像 Hortonworks 这样的 Hadoop 厂商充分利用自身的优势,已经开始推出自己的迁移支持和服务。这样,Hadoop 厂商就可以在数据迁移工具和服务方面占据自己的市场,避免让 Sqoop 这样的产品成为 Hadoop 平台数据迁移中必须的第三方工具。

在 Hadoop 相关的数据迁移工具和服务激烈的竞争中,寻求更好的设计理念,并能够把产品设计的目光放得更加长远就十分关键。在现在的设计中,能够为未来可能的变化预留接口。例如,提供对未来的 Hadoop 数据安全框架 Apache Argus 的支持就是十分重要的一方面。总的来讲,最好的 Hadoop 数据迁移方面的长期投资还在于理解目前已经存在的工具,然后结合其中的优点创造出更能满足用户需求产品。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014 年 11 月 19 日 08:262183
用户头像

发布了 268 篇内容, 共 104.0 次阅读, 收获喜欢 19 次。

关注

评论

发布
暂无评论
发现更多内容

智慧光伏能源-园区光伏发电能源管控可视化

一只数据鲸鱼

数据可视化 智慧园区 智慧能源 能源管理 光伏发电

GitHub上收录400余篇任正非的讲话稿

不脱发的程序猿

GitHub 程序人生 开源项目 任正非讲话

聊一聊我最近使用的uniCloud是个什么玩意

麦洛

uniapp unicloud

《面试官:谈谈你对索引的认知》之B-树

架构精进之路

MySQL 索引结构 6 月日更

学习总结 已完成的中国大学MOOC课程

万里无云万里天

学习总结 6月日更 中国大学MOOC

工业制造业在数字化时代的三大发展方向

CECBC区块链专委会

百度爱番番与Servicemesh不得不说的故事

百度Geek说

BoCloud博云微服务平台3.0正式发布:让微服务转型路径更清晰

BoCloud博云

微服务 微服务架构

ModelArts的雪中送炭,让我拿下CCF BDCI华为Severless工作负载预测亚军

华为云开发者社区

modelarts 工作负载 大赛 severless lstm架构

Dubbo 服务治理

青年IT男

dubbo

人生算法:涌现,在自己身上发挥群体智慧

石云升

读书笔记 6月日更

苏州源控电子科技怎么样?名副其实的行业新星

Geek_8a195c

智慧工厂VR拆解零件——3D虚实现实可视化系统

一只数据鲸鱼

数据可视化 工业互联网 vr 智慧工厂 零件拆解

六一限定,致每一个追光者

白洞计划

在 Python 中解析和修改 XML,你会么?

华为云开发者社区

Python xml 字符串 Python XML 解析器

Serverless over Storage

焱融科技

云计算 云原生 高性能 文件存储 容器存储

用敏捷扑克做需求评审的3大优势,你get了吗?

LigaAI

高效工作 团队管理 产品思考

实现接口幂等性的四种方案!

我是阿沐

编程之路 幂等性 大厂面试

数字人民币有望为全球贸易结算开辟新视窗

CECBC区块链专委会

NUCLEO-L432KC实现GPIO控制(STM32L432KC)

不脱发的程序猿

嵌入式 stm32 单片机 NUCLEO-L432KC STM32L432KC

☕️【Java技术之旅】深入学习JIT编译器实现机制(原理篇)

李浩宇/Alex

Java 编译器 JIT 6月日更 6 月日更

react源码解析2.react的设计理念

全栈潇晨

React React Hooks react源码

dex优化对Arouter查找路径的影响

vivo互联网技术

android mongodb

一文带你认识队列数据结构

华为云开发者社区

Java 数据结构 数组 队列

净筹6亿美元:微盟正在加速拉开差距

ToB行业头条

SaaS 微盟

“图发展”与“保安全”:大数据今后怎么玩?

CECBC区块链专委会

安迈云首席战略官于晓晖:去中心化云计算构建Web3.0世界

DT极客

【LeetCode】包含min函数的栈Java题解

HQ数字卡

算法 LeetCode 6月日更

因为一个字符校对问题,我的大厂面试挂了

华为云开发者社区

MySQL 字符 字符校对 语句 MySQL5.7

从VMWare安装到Nginx配置

wildpig

nginx vmware Centos 7

计算机视觉常用图像数据集标记平台

不脱发的程序猿

人工智能 计算机视觉 图像处理 图像数据集标记平台

Study Go: From Zero to Hero

Study Go: From Zero to Hero

Hadoop的快速发展带动了对数据迁移工具的需求-InfoQ