高亮谈大数据存储、分析、产品化

在最近举行的百度世界 2014 大会大数据论坛上，百度大数据部研发副总监高亮分享了百度在大数据存储、处理和产品化方面的最新成果。

在今年 4 月份百度发布了开放大数据引擎战略，高亮指出，虽然大数据概念炒的非常火，但是大数据内部运作的逻辑和传统行业是比较类似的。

如果传统行业做实业的话，首先要有地基，你要有厂房，要有原材料，然后做加工，接下来设计成独立的产品，给客户带来独特的体验。开放云就是大数据的地基和厂房，原材料就是在线上和线下产生的海量数据。现在百度目前每天数据规模，2013 年是 25PB，这个数字在快速的变化，我们现在处理的能力已经提高一倍，数据上目前是 50PB，增长了一倍，这个就是我们目前大数据库要处理的数据的原材料。

大数据处理能力分为几个层次，首先是数据存储，然后是智能分析，然后是做出产品。在几年之前，百度的数据存储在每个产品线都有自己的方式。后来用了两年的时间构建了现在的数据存储方式，首先解决了数据的传输，现在百度很多产品线要实时产生大量海量的数据，这些数据都需要被实时的储存一个地方。但是这些产品线的数据格式都是异构的。大数据部门做了非常多的标准化的工作，在基础上形成了第一个海量数据储存的产品，叫通用的数据仓库。总结起来，一是构建了实时的海量数据的传输平台，任何一个产品线产生的数据都能够实时的传送到这个数据仓库里面。二是做了实时的数据标准化的工作，无论你的数据是什么样的格式，到数据仓库里面都以同样的格式来储存。

有了这个物流，有了这个标准化，我们能够在这个基础上对数据进行更多的分析和加工。

高亮指出，整个数据的流程是全自动化的，从数据的生成、数据的传输、数据的标准化，到最后数据的归类、数据的分析，都是全自动化的。

这个产品（Query Engine）是一套标准的海量数据储存方案，无论你的数据是什么样的，经过处理会把它做成数据标准化，当数据实时生成，有非常好的数据传输框架，保证你的数据上传到百度的开放云，在上面进行建模，进行各种各样可视化分析和决策的过程。我们已经成功了上传分析一家合作企业将近 10T 的关于新能源方面的一些数据。

在数据被结构化存储以后，接下来是在这个基础上进行各种各样的智能化分析。就像传统行业有自己的产品设计中心一样，会对产品进行各种各样的分析、排列组合，做各种各样的实验。在这个实验的基础上能够产生出比较好的产品，能够满足用户的需求。大数据部门也有这样的需求，也需要有大数据产品的设计中心，在这个设计中心需要做很多实验，做出适用于百度，适用于客户的数据产品。

我们大数据新产品的设计中心，可以进行很多实时的智能分析，做很多的实验，对产品进行很多排列组合，看哪一种产品能够最适合行业，满足百度的需求。

对于大数据产品，高亮列举了几个上线的实例，包括百度司南、预测、推荐等。其中百度司南门专门针对发展到一定阶段、有了一定的品牌影响力的企业，能够让企业对自身的品牌有更客观的了解，主要体现在三个方面：

品牌分析，了解你的品牌在同行业中的地位如何，周边的人如何看待你的品牌，口碑如何，这种分析几乎是实时的。
用户关注点，比较忠实的用户除了关注你的品牌，他还关心什么别的，他还对什么样的东西感兴趣。
渠道分析，用户通过什么渠道了解到你的品牌，这样以后做营销行为，就知道如何很快的影响到你的受众，什么样的渠道是最有效的。

那么百度司南有什么实际应用呢？高亮从代言人、舆情分析两个方面做了展示。

很多品牌到了后期推广的时候，都有找代言人的需求。什么样的代言人在你最想影响的受众是最有号召力的？之前可能是一些拍脑袋的决策，但是通过司南，通过海量的数据，通过海量的用户行为分析，可以帮助你做一个决策的科学。实际上我们已经通过大数据的分析，可以产生出超过一千家的企业，它们最合适的代言人到底是哪一位。

另外一个是舆情分析，实际是跟品牌的口碑最像。企业里有一系列的产品，每一个产品可能有轻微的差异化，就像我化妆品一样，每一款产品在用户中的口碑到底怎么样，用户喜欢这些产品什么样的功能，不喜欢这些产品什么样的功能。在之前，很多公司通过调研公司到各个城市，通过实时的访谈获得一些统计数据。整个过程要耗费一个月左右。通过舆情分析，几乎可以实时告诉你这个答案，到底有多少用户是喜欢这个功能，有多少用户不喜欢这个功能。一个月和实时的差距，就是百度大数据能给传统行业带来的竞争力。

最后，高亮表示，目前的产品只是揭开了冰山一角，在大数据这个方面，产品设计的想象力其实是很多很多的，后面会陆续推出一系列的大数据产品。

创作场景

高亮谈大数据存储、分析、产品化