OLAP进阶：Excel可直接分析的大数据语义层

如何在异构化、割裂化严重的大数据平台上解决数据孤岛的挑战，并支持丰富的 OLAP 分析能力和进阶分析功能，如可计算度量、多对多关系？背后的实现原理和技术难点是什么，以至于用户可以简单地通过 Excel 感受到极其平民化的多维分析体验？本次分享的主要内容包括：

大数据时代下的分析挑战
传统 OLAP 的局限
Kyligence 的解决方案
当中的一些挑战
效果展示

大数据时代下的分析挑战

1. 数据分析需求灵活多变

第一个挑战是目前用户分析的需求非常灵活多变。右边这张图是截取自 Gartner 的分析报告。这里描述了数据分析的四个阶段，第一阶段是描述性分析，主要描述发生了什么，一般是固定报表的形式。第二阶段是诊断性分析，来探究数据指标为什么高了还是低了，是哪部分高了，哪部分低了，这时候就需要使用到多维分析以及明细查询。第三个阶段是预测性分析，根据历史数据来预测接下来的走势。第四部分是规范性分析，为了促使指标最优，我们可以做些什么。

我们在实际的客户分析场景中发现，用户不再满足于看固定报表，他还需要分析这些数据，这些指标背后的成因。因此多维分析，灵活查询，明细查询这些需求就在爆发式的增长。同时他们在分析的过程中，希望能够高性能的进行交互式分析，而不是像以前可能执行一条 hive 语句后倒一杯咖啡，然后坐着等结果，这背后对数据分析平台的要求是很高的。

2. 数据孤岛带来割裂的分析体验

第二个挑战是数据孤岛带来割裂的分析体验。很多企业内部信息系统多各自为政，各系统之间缺乏整合，不同部门使用的数据存储不一样，数据规范也不一样。

各部门拥有各自信息系统的主导权，且局限于部门级别的信息决策，缺乏公司层面的统一的信息决策。

传统 OLAP 的局限

1. 传统 OLAP 的劣势

传统 OLAP 一定程度上能够解决刚才讲的部分问题，但是他们存在着一些局限性。

这些局限性有几个点：一个是数据量及维度数量的限制，传统 OLAP 一般使用的是 MOLAP 模式，在小数据量上，性能优势明显，但是在面对大型数据集时，可能会面临维度爆炸的问题。第二点是扩展的局限性，传统 OLAP 的拓展起来十分麻烦，有些 OLAP 数据库只能 scale up，这种情况就只能增加节点的内存和计算核心数量，但这个成本是极为昂贵的。另外一些 MPP 架构的 OLAP 数据库虽然能够 scale out，但是能够增加的节点数也比较有限，不像 hadoop 或者云上能够拓展到成千上万个节点。另外还有一些缺陷比如费用昂贵、高基维处理能力差，高并发下性能堪忧等等。

2. 理想的 OLAP 平台

讲了这么多传统 OLAP 的缺陷，那我们理想中的 OLAP 平台是什么样子呢？

首先是完善的 OLAP 能力，上钻下卷、高级分析功能，如可计算度量，多对多，时间智能等等。
同时支持 ANSI SQL 和 MDX ，能够与广泛的 BI 工具进行良好对接，尤其是 Excel，目前仍是广大分析师的重要选择。在此之上，如果能在海量数据上进行交互式分析，能够满足上千用户的高并发查询，以及面对数据激增的情况，能够很好的进行横向扩展。

那么如何做到这些呢？