紧跟大数据前沿，尝鲜MapReduce 2.0版本—增加了诸多新特性、功能进行了完善与升级、作业效率与易用性大大提升，下面就由小编给大家详细介绍下MapReduce2.0的新特性。

一. MRS 2.0 vs 1.X ——Hadoop篇

冷数据占存储空间更小
对于冷数据的存储，我们一直希望能够减少其所占存储空间。纠删码作为给HDFS拓展的新特性，是一种与副本相比更节省存储空间的数据持久化方法。比如Reed-Solomon(10,4)标准编码技术只需要1.4倍的空间开销，而标准的HDFS副本技术则需要3倍的空间开销。
新机制实现Yarn的高扩展
新引入Yarn federation机制：将一个超大的集群分解成多个子集群的方式来实现Yarn的高扩展性，每个子集群有自己的ResourceManager和NodeManager，Yarn federation将这些子集群拼接在一起使他们成为一个大集群。在Yarn federation环境中，Application看到的是一个超大的集群，并且能够在整个集群的任何节点执行Task。
支持自定义资源模型
从MRS2.0开始，Yarn支持自定义资源模型（support user-defined countable resource types），不仅仅支持CPU和内存，比如集群管理员可以自定义诸如GPU，软件许可证等等资源，Yarn任务可以根据这些资源的可用性进行调度。

除此之外，华为云MRS服务2.0全面兼容Hadoop 3版本，提供了DataNode节点内多磁盘均衡工具，来处理添加或替换磁盘时可能导致的DataNode内部多块磁盘存储的数据不均衡的问题。Hadoop 3同时支持opportunistic containers，主要目的是提升集群资源的利用率，提高任务吞吐量。

二. MRS 2.0 vs 1.X ——Hive篇

新执行引擎，性能吊打MR
Tez是一个现代的支持有向无环图的分布式计算框架，性能吊打MR。提供的UI界面功能强大，又让人耳目一新。

HiveWebUI使运维更加简单
HiveServer如今提供的web界面，可以方便查看正在运行的SQL有哪些，执行了多长时间等，可以说是运维同学的一大福音。
提供了HPLSQL
从此Hive有了存储过程。从传统数据仓库，ORACLE等关系数据库迁移过来更方便啦。一个简单的例子：

CREATE FUNCTION hello(text STRING)
RETURNS STRING
BEGIN
RETURN 'Hello, ’ || text || ‘!’;
END;
FOR item IN (
SELECT s1,s2 FROM test limit 10
)
LOOP
PRINT item.s1 || ‘|’ || item.s2 || ‘|’ || hello(item.s1);
END LOOP;

新版本的Hive还充分利用现代CPU提供的SIMD，AVX2等指令集，来提高CPU利用效率。例外，CBO这种基于代价的查询优化，对于多表join性能优化效果显著。使用新版本后，根据不同场景，Hive的性能提升了不止50%呢。

三. MRS 2.0 vs 1.X ——Spark篇

真正毫秒级低延迟处理
无论是最早的Spark Streaming，还是Spark 2.0中推出的Structured Streaming，均采用定时触发，生成微批的方式实现流式处理，微批处理的方式存在最小延迟的极限（100毫秒左右）。Structured Streaming新加入的Continuous Processing模式，可以实现毫秒级的低延迟处理（实测3-5毫秒左右）。
支持流和流的join操作
Structured Streaming用来替代原先的Spark Streaming。此前，Structured Streaming仅支持流和静态数据集之间的join操作，Spark 2.3提供了期待已久的流和流的join操作，支持内连接和外连接，可用在大量的实时场景中。例如比较常见的点击日志流的join操作。
PySpark性能优化
基于Apache Arrow和Pandas库，实现了pandas_udf。利用pandas对数据进行矢量化的优化，并通过Arrow降低Python与Spark的通信开销。使用pandas_udf替代pyspark中原来的udf对数据进行处理，可以减少60%-90%的处理时长（受具体操作影响）。
MLLib优化提升
在Spark 2.3中带来了许多MLLib方面的提升，例如，支持Structured Streaming中使用MLLib的模型和pipeline；支持创建图像数据的DataFrame；使用Python编写自定义机器学习算法的API简化等。

四. MRS 2.0 vs 1.X ——HBase篇

HBase on OBS: 数据与MRS集群解耦
MRS 2.0上的HBase 2.x支持对接对象存储服务（OBS），可以将最终的数据存储到OBS，适用于需要大量数据进行归档存储的场景，数据与MRS集群解耦，灵活切换。
新的多租户方案
RegionServer Group作为新的多租户方案，可以将多个RegionServer进行分组，组成不同的RGS。不同的表可以分布在不同的RGS中，不同RGS中的表不会互相受到影响，以这种从RegionSever中物理隔离的方式，从而实现多租户的方案。
优化region状态转换
AssignmentManager V2基于Procedure V2实现，能够更快速的分配Region，维护的region状态机存储不再依赖于ZooKeeper，移除了region在zookeeper中的状态信息，只在HMaster的内存和Meta表中维护region状态，极大的解决了region状态转换过程中引起的问题。
优化HFile实现方式
MemStore中的数据达到一定大小以后，先Flush到内存中的一个不可改写的Segment，内存中的多个Segments可以预先合并，达到一定的大小以后，才Flush成HDFS中的HFile文件，这样做能够有效降低Compaction所带来的写IO放大问题。

此外，HBASE 2.x更改了数据的读写方式，会直接在二级缓存中进行读写，采用堆外内存Offheap替代之前的堆内内存，减少对Heap内存的使用，有效减少GC压力。HBase2.x 开始默认使用NettyRpcServer替代HBase原生的RPC server，大大提升了HBaseRPC的吞吐能力，降低了延迟。

MRS2.0新增了这么多特性，进一步实现了完整统一的计算系统，为大家提供7*24小时不间断服务的系统级平台。同时具有强大的包容的生态圈，并支持计算存储分离的功能，大家从各个平台迁移过来都非常方便。开源中的所有新特性，都可以来MRS 2.0上抢先一步体验到。

MRS 2.0 2019年1月31日前登录华为云，在这之前可先行体验MRS大数据场景，包含车联网、气象、水务、游戏等热门行业场景。可视、可触、已落地的大数据，来试试就知道了！

MRS体验馆入口

本文转载自华为云产品与解决方案公众号。

原文链接：https://mp.weixin.qq.com/s/JNTDAigB5p94bDeiUNGE0A

创作场景

性能突破：MRS2.0 即将上线，组件全线升级