《Storm技术内幕与大数据实践》作者陈敏敏谈大数据技术在电商领域的应用

在 10 月 15~17 日的 QCon 上海 2015 上，1 号店资深架构师、《Storm 技术内幕与大数据实践》一书作者陈敏敏将分享《1 号店通用精准化平台架构以及大数据营销实践》。在大会开始之前，InfoQ 就Storm、Spark 等技术在电商领域的应用等话题采访了他。以下为采访内容。

InfoQ：首先请向 InfoQ 的读者做一下自我介绍吧。

陈敏敏：我目前在 1 号店担任精准化部门的架构团队负责人。在此之前曾服务于微软和三星电子等公司，长期从事大数据、搜索和推荐平台相关工作，目前主要关注 NoSQL、实时计算框架、推荐、大数据营销等相关技术。

InfoQ：您在演讲中将分享 Storm、Spark 等技术在电商部分领域中的实践。可以介绍一下为何会选择这类技术吗？

陈敏敏：我刚开始在 1 号店开发了 Hadoop 版用户画像系统，数据是一天更新一次，后来随着业务的发展，需要知道用户晚上到家了，推荐结果中需要加入用户白天在公司看的产品；下班路上，知道用户下午看了什么，画像系统一天更新一次慢慢需要变成一天更新两次，渐渐到 2014 年上半年需要一天三次。

要更新三次的时候，遇到了很大的瓶颈，整个画像的数据流比较长，又要和全量的数据关联，跑完一次都要 4 到 5 个小时，势必一天一半多的时间都在跑数据，而且各种 job 跑的时候，那部分时间的最新行为没法引入到画像系统中，迫使我们不得不考虑其他解决方案。

当时对比了几个实时计算框架，Storm 已经流行一段时间，业内也慢慢有一些实践案例，其它当时成熟度还不够。如果业内应用场景不多，到时上线的时候，坑会比较多，后来决定用 Storm 开发实时画像。那个时候大家经验都不是很足，集群经常发生各种莫名其妙的问题，一个应用干扰了另一个应用、进程动不动内存溢出重启等等，大约到年中的时候才差不多开发完，后来实时集群又慢慢衍生出实时意图、实时广告投放、实时显示每个品类下各个群体的用户数等项目。

至于用 Spark，做推荐的时候，开始用了 Hadoop mahout 版的基于内存的 FPG 和分布式的 PFP 挖掘频繁项集，遇到了一定的瓶颈，数据 ETL 的各个过程通过 HIVE 也比较慢，后来决定引入 Spark，在调优上也慢慢积累了一些经验，后来基于 Spark 开发了促销排期等项目，这些技术的引入都是在各个时期遇到不同的瓶颈，自然而然的结果。

InfoQ：电商相关的业务有何特殊性，可以介绍一下这些技术的具体应用情况吗？

陈敏敏：国内各个电商运营的玩法越来越多，数据越来越复杂，促销活动也越来越多，大大小小的促销几乎每一两周都有，竞争一直比较火热。运营人员往往要拉历史数据，花不少时间人工去对比一张张 Excel 表格，决定每一个阶段选哪些品牌或主题做促销。

我们那个时候想通过大数据的方法辅助他们运营；其次，影响推荐系统的权重，算法其实可能只占 10%，数据清洗的投入、业务理解各自占据着 20% 以上的权重，推荐技术从单纯的提升 GMV 也慢慢转向提升跨品类销售、提高用户粘性等，这些因素，也迫使电商做更加灵活、更加精细化的投放和营销，以更加精准的命中用户群的需求，给广告投放、推荐栏位、大数据营销等带来价值。

InfoQ：可以分享一下 Spark 的研究和使用经验吗？

陈敏敏： Spark 的东西比较多，我们这边分头研究的，比如，有人专门看图计算、有人专门看内核等，然后定期互相分享，在实践中我们也只是用了一些常规的算法和数据处理，其它深度学习和 LDA 等大数据的算法，在数据量上来后，目前还不是很好在 Spark 上应用，它们的 Model 往往都非常大，如果用 GPU 集群，GPU 对内存中的 Model 的修改可以一致，速度稍微快点；如果用分布式的内存，Model 分散在分布式内存中，随着 Model 慢慢增大，对 Model 做修改，内存之间需要做大量 Shuffle 操作，速度会非常慢，而对于超大规模集群，GPU 也不行，超大规模的情况目前还是基于分布式的内存，谷歌大脑就是基于分布式内存的。

InfoQ：可否介绍一下相关的技术栈？

陈敏敏：大数据技术的范畴还是比较大的，下面有索引、消息系统、NoSQL 和 NewSQL 等分布式存储媒介。

目前一个大数据平台往往需要多种存储系统，每一个存储都有它的利弊，不同的业务场景往往需要不同的系统，我们用户维度的数据同时存在了 Hive、HBase 和 Solr 中，以满足不同的业务场景；往上，分布式计算目前比较流行有流式计算、迭代计算、MR 等，Spark 的 MR 和 Hadoop 的 MR 也是有不少差别的，Hadoop 中 Map-Merge-Shuffle-Merge-Combine-Sort-Reduce 几个过程比较固定，事先排序好再做归并提高性能，而 Spark 因为是以内存作缓冲区，并且是 Hash-Based，可以边 Shuffle 边 Aggregate 数据，不用很在乎那部分性能，可以根据场景需要再做排序，更加灵活；前面这两块很多技术原理又是相通的，比如：Storm 和 Kafka 都要涉及消息的可靠性和顺序性，不少系统都需要推举 Master 的 Paxos 算法等分布式技术。

再往上就是具体搜索、广告、推荐、图像\语音识别等产品了，这些技术有交集，但是差别也是不小，常用算法和关注点等都不一样，搜索的常用算法有 PageRank、NLP 等，广告的逻辑回归等，推荐的协同过滤、关联规则等，有些关注 ROI、有些关注 GMV、交叉销售提升等，基础是机器学习、数据挖掘、自然语言处理等算法。

最后是 BI、大数据营销等产品，目前基于大数据的可视化以及相关 OLAP 的工具发展还不够成熟，上次 Cloudera 的人介绍了一个看起来不错的可视化产品，要收费不开源，交互式查询的 Impala、Kylin、Pestro、Spark SQL 这一块发展比较快，但是数据量上来，查询分析速度还是没有传统的 BI 工具用的舒服，需要预先通过编写 UDF 等计算好，而不是通过工具操作就可以预先生成一些纬度数据，降低分析人员的门槛。当然 Hive 本身也在优化，除了把存储文件转成 ORC File、引入 Tez 引擎，本身的 MR 引擎也在优化，相信未来 Hortonworks 能把常规的查询等优化到 1 秒。

InfoQ：Twitter 又开发了 Heron，这方面对您有什么启发吗，可否分享一下您的认识？

陈敏敏： Heron 还没开源，看论文里的描述应该算 Storm 的 2.0, 我觉得至少比 Hadoop 1.0 和 2.0 之间的差异要小的，等它开源了，试用一段时间，再看看吧。个人觉得可能会和阿里的 JStorm 那样成为 Storm 的另外一个分支，会处于一个长期竞争关系，最终哪一个更好，看团队、公司投入等，现在还不好说。

一般新东西出来后，等业内使用过一些不同场景，更新了几个版本，再使用比较好，用的最早的那批坑也比较多，业务上线的那段时间会比较痛苦。

InfoQ：可以谈谈您编写《Storm 技术内幕与大数据实践》一书的缘起吗？给我们分享一下写书的感受吧。

陈敏敏：当时做 Storm 项目，资料比较少，看到市面上的两本 Storm 的书，要么大部分内容来自英文官方文档，要么就是差不多的例子写了很多页。

回想起项亮的《推荐系统实践》、吴军的《数学之美》等书，都是比较精致，看起来比较舒服，在圈子里口碑也不错，遂想也搞一本不浪费大家时间的书。现在看京东上 96% 好评，只有两个中评，基本完成了当初的目标，不过里面实践部分不足，当时主要担心公司项目万一涉密，引起不必要的麻烦，后来最后找我们的 CTO 写序的时候发现没那么严格，现在正好把缺失的一些实践部分，在 QCon 上分享下。

对于写书，我觉得有一个宗旨，不能为了写书而写书，否则浪费读者时间；而应该尽可能给读者带来一些有用的东西，不用贴很多代码，或者把大家都能看到的东西都东拼西凑作为内容，如果一个人精力有限，可以找合伙人一起，做技术的大家都很忙，看一个书如果像看电影一样，有些看完了，才知道浪费时间了，显然不大好。对于写书比较痛苦的是初稿后的五个月的修改阶段，从前到后得看好多遍，审美疲劳，但是对读者要负责，尽量减少低级错误。

InfoQ：你们架构团队主要做什么？对架构师都有什么样的要求？可否介绍一下你们目前的数据量？

陈敏敏：每个公司对架构师的定义不一样，我们部门主要有推荐系统、精准化触达、大数据营销、PIS(智能比价系统) 等产品，对于架构团队首先要保障大数据集群的优化、源码级 Bug 的解决、以及技术方案选型，目前 HBase、Hadoop、Storm、Spark、Solr 等都会使用到；其次，大数据的常见算法要知道，否则算法工程师倾向设计严谨的模型，系统不一定能承受得了，了解算法在有些实时场景是否需要简化？用 Storm 还是 Spark？离线和实时怎么融合？最后，SOA、设计模式、微服务等等应用架构也要了解，没有好的模块化，推荐算法可能每个人从数据到栏位单独写一套代码，维护成本越来越高，架构如果设计出好的框架那是比较好的；最后，架构这边承担了新技术预研，大数据技术日新月异，需要能跟得上外界的发展，了解各种新技术的业务价值和成熟度，负责给部门引入新技术，目前部门还缺架构师，如果你感兴趣其中的任何一块，可以联系我们。

目前我们用户维度有 1 亿多注册用户数据，每个用户有 91 个属性，并且还在迅速增加中，我们挖掘出来的小区、公司、学校等数据也在不断补充进去；商品维度有 1 千多万 SKU，上百个属性，通过用户评论、标题中挖掘出的标签也在不断的补充进去；另外，我们的订单平日峰值一分钟 1000 多单，大促时候一分钟 8000 单左右，目前准备和沃尔玛门店的共享和交换数据，后面线上线下融合的新场景、新玩法也越来越多了。

InfoQ：感谢您接受采访，期待您的演讲。

创作场景

《Storm 技术内幕与大数据实践》作者陈敏敏谈大数据技术在电商领域的应用