【AICon】 如何构建高效的 RAG 系统?RAG 技术在实际应用中遇到的挑战及应对策略?>>> 了解详情
写点什么

快看漫画大数据平台的模型思维与用户增长实践

  • 2019-04-04
  • 本文字数:3890 字

    阅读完需:约 13 分钟

快看漫画大数据平台的模型思维与用户增长实践

本文根据快看漫画屈世超老师在 DataFunTalk 数据主题技术沙龙活动“大数据从底层处理到数据驱动业务”中分享的《大数据平台的模型思维与用户增长实践》编辑整理而成,在未改变原意的基础上稍做修改。



今天分享的内容分为三个部分,首先介绍下快看漫画发展状况,第二个就是我们在大数据平台和大数据业务发展的过程中总结的模型思维以及平台搭建的一些经验,最后是基于我们的数据平台用数据驱动去增长用户、业务的一些实践经验。



上图是快看漫画 APP 的一些界面,基本是精品漫画加二次元社区、社交的一个平台,同时我们也生产漫画内容。快看成立于 14 年底,经过几年的发展,已经有了超过 1.3 亿的用户量,月活动量近 4000 万、日活动量 1000 万,在中国漫画 APP 中排名第一。日数据量接近百亿条,对数据平台要求比较高。



如果从事过市场推销相关业务,都明白移动 APP 发展前几年都赶上了人口红利的曝光,推广起来比较容易,用户量也是实现了比较快速的发展。但是到 17 年开始,移动网民的数量增长量很小,在推广过程中,抢的都是存量用户。随着 APP 开发推广竞争力越来越大,市场的投放、购买越来越难,成本越来越高。就目前所有 APP 开发者普遍存在的趋势就是用最小成本购买优质用户,留存一定要做高,同时通过一定的用户运营实现活跃用户的价值输出,即超级用户思维。这一切都离不开数据支撑业务增长的需求和发展。



第二部分讲一下模型思维和快看数据平台搭建,模型思维的概念很抽象,但是是无处不在的。比如我们见过的新事物会潜意识进行抽象,然后特征提取、存储到我们的意识中,再发现类似的事物就会很自然联想到这个模型,通过模型来猜测这个相近的事物有什么特点、如何去使用它、如何去产生联系。举个例子如我们第一次见到平衡车,我们就会想到电动车、摩托车,要驾驭它需要很好的平衡性。我们认识新事物会自动联想我们记忆中就有的模型,这就是模型思维。在技术开发过程中模型思维也是无处不在的,比如我们在有了需求以后,需要从需求抽象出一个模型,映射的模型从我们的经验记忆中联想,那些架构模型是能够解决当前的需求,再从这个大的模型不断去拆分、细化、划分模型,每个模块又是更细粒度的模型,再拆分直到我们熟悉的技术。模型思维就是我们要从需求出发,抽象出需求模型,然后映射出架构模型,然后拆分更细粒度模型,直到我们熟悉的技术。这其中就需要我们对多项技术的积累,多项工具、框架组合使用的经验,才能透彻理解模型思维。



上图是我们大数据平台应用的总结,首先是一个需求模型的汇总,然后是架构模型的一个汇总。在架构模型中会产生更加细粒度的模型,细粒度的模型继续拆分直到不能拆分的原子模型。先从需求出发(架构设计的依据和来源),一般大数据的应用都离不开这三块,第一个就是数据存储和数据探索模型,第二部分是数据分析与预测模型,第三部分是商业智能与决策模型。比如数据存储我们需要对数据进行备份(冷备份、热备份),对数据进行查询和规律分析;数据分析和预测模型包含实时分析、批量分析,数据探查包含特征提取或个性化推荐;商业智能与决策模型在金融领域比较多,比如风控领域,对贷款人信用学习决策是否能贷款、收回贷款等。需求相关的模型基本都离不开这三部分,由需求模型映射到相应的架构模型需要经验性,依赖于需求过程中提取如何去使用这些数据、展示形式、数据源接入的方式或者根据数据源的格式或一些特点如何进行数据的清洗和处理;数据分析中用什么样方式进行洞察和分析,比如使用什么样的算法去学习个性化推荐或找到一些规律。



在做大数据时总会接触到一些模型,如数据接入模型,做数据采集(web 数据、设备数据、业务数据,可能有不同形式的接入方式),接入之后做数据存储,结构化与非结构化、分布式存储,云存储或存储到传统的存储模型中。然后是数据处理模型,实时、离线,还有清洗模型,不同格式、形式的数据用何种方式、工具进行处理。最后是数据使用模型,做完处理后如何进行分析、可视化,如何查询,还有用户触达,做一些智能决策,以及自动触发模型。



所有的架构都是由需求衍生而来,由需求产生模型,这些模型是由小的原子模型通过一定的组合、封装,逐层构建更高层次的模型,最后将技术架构实现。学习技术和架构是一样的关系,有了这种思维后,在学习技术时更有目标,在整个架构它的定位和功能是什么,与同功能的优劣对比更清楚。这种思维能够快速将需求抽象成模型,业务方和开发方就确立共同目标,有助于开发制定关键架构决策,什么样的业务大致能知道用什么结构去解决。架构落地是由底层到高层逐层实现的,从原子模型落地,通过层层组装实现整体架构的落地。还有一个优点是有了整体架构后,能够平滑的实现架构升级、修复、替换,因为每次改动是基于原子模型或几个原子模型的组合。




前面介绍了模型思维,接下介绍快看如何发展数据平台。创业公司最开始关注的并不是用户的行为,更多的时项目是否适用于我想象的用户群体,这个群体在 APP 使用时长、活跃度、留存量。我们开始使用的是低成本接入和和使用第三方基础数据统计平台,就能满足需求,前期成本低,通过多个第三方能够保证数据准确性便于做数据相关性验证以及很多宏观指标确定 APP 的业界定位。快看发展第一年主要依据第三方数据平台做相关分析以及自己的统计任务基本能够满足需求。在成长期需求呈爆发式增长,业务线不断分散。随着业务量发展和数据增多,需求不断细化不会只看宏观基础指标,指标会细化到每一个业务,每个业务也会查看功能性指标。开始尝试做原子模型的替换,调研发现一个“二八定律”,就是如果要对用户行为进行分析,接入的第三方数据分析平台,利用 20%的成本接入和维护能够满足各个业务线 80%的需求。随着业务量以及业务需求增加,许多数据分析是定制化的,第三方数据平台就无法解决,就自建大数据平台。搭建原则是利用最低成本解决需求,优先使用第三方平台能解决的方案,不能解决利用大数据平台做定制性的数据洞察,比如个性化推荐,做精准的作品分发。后续数据洞察的需求越来越多,业务指标越来越定制化,数据统计的粒度会越来越细。



上图是平台架构,分为四层。虽然有很多模块还不是很细,但是随着业务的发展,也是适合当前人力成本取舍的一个方案。这是快看创业阶段的经验,如果有在创业公司工作的,有需要可以参考下。



接下来讲一下我们利用数据驱动来实现用户增长的经验,业界关于类似的探索还比较少,因此做一个总结分享一下。快看数据部门对数据的定位是基于我们的平台,对公司所有业务线提供数据需求,做好数据驱动,每个业务线做好业务增长。这个业务很宽泛也很难,以为很多创业公司是从零开始发展起来,很多时候并不太注重数据,数据平台是由需求驱动发展的,但是我们想数据平台去驱动业务线的发展,我们花费一年半时间做数据内部思维推广,由于成员年轻化,很多都不是很理解数据,还不断强化他们如何使用数据、好处是什么。然后就是聚焦在运和业务增长方面。



先讲一下数据思维内部推广,培训介绍现有数据平台、第三方数据分析平台、BI 后台以及数据字典维度等,介绍有哪些数据;然后介绍各个业务能够使用那些数据;最后就是如何将数据用起来,让 CEO、CTO 实施让员工更多的去使用数据,强化管理层对数据的重视,要求一些数据指标的统计,从上到下分配到每一个团队,产品经理和用户增长团队辅助确立业务核心指标,着重如何确立综合指标来评价你当前的工作和业务发展;数据研发团队提供数据支持,将数据抽象化、平台化、自动化。但是也要进行一定的取舍,因为会有一些不切实际的需求,或者提出的需求分析没有用等等。



用户增长团队后期工作是介于每一个开发线与业务之间的工作,如制定指标,针对指标做一些细化,细化为可落地,对当前业务有增长的可执行指标。引导他们去使用并做一些优化,如付费运营,每一次活动完成后分析是否达到效果,以及下次运营需要哪些工作。会监控每一个页面位置作品曝光率以及用户在每一个分发页面的参与度,比如社区运营、游戏运营也有类似工作。产品经理和用户增长团队联系密切,共同去做好数据分析。




接下来讲一下我们在这方面的例子,快看作为漫画平台核心功能就是满足用户对于内容的阅读需求,核心点就是把控作品内容变化趋势,同时根据用户的需求、喜好开发一些新内容,这些是内容模块的指标。让内容开发者基于对用户的理解,利用数据去支撑他们的猜测,探索内容开发方向。具体方式就是会分析每一个作品的周留存、日留存和月留存,以及用户阅读次数,看一下用户对作品持续关注度。然后通过用户搜索关键词把控新作品开发方向,这样能够把控作品质量,同时每个用户活跃度的变化能够反映作品对用户的吸引力。



上图是用户运营的思维,拉新越来越难,因此要对现有用户留存,利用的是海盗模型去定义用户的生命周期,从激活到留存还有沉默到流失,以及内容传播与收入等都有实践。指导思想就是对每个用户实时跟踪,实时搜集用户行为,标记用户生命周期,根据生命周期标签做相关推荐,如新用户进行冷启动学习进行推荐,沉默会做拉活尝试,流失会做用户召回活动。留存也会做优化,但更多是基于用户画像进行个性化作品分发以及个性化 push。



运营这一块很重要,每年花费在市场推广成本很高,如何评价和吸引高质量的用户难点很多,主要有对接的渠道很多,接入方式多种多样,借助第三方平台实现高质量推荐不现实。因此定制化 BI 后台,尝试对用户拉新精准归因,然后做精准统计。平台应用中,发现利用自己的平台能节省 20%的运营成本。在做用户拉活和广告素材方面会做个性化投放,通过用户个性化标签生成对应的广告素材做精准拉活和召回投放。


本文来自屈世超在 DataFun 社区的演讲,由 DataFun 编辑整理。


2019-04-04 08:003437

评论

发布
暂无评论
发现更多内容

源码深度解析 Handler 机制及应用

vivo互联网技术

android 客户端开发

App自动化《元素定位方式、元素操作、混合应用、分层设计、代码方式执行Pytest 命令》

清菡软件测试

App

低成本快速上链 智臻链开放联盟网络正式对外开放

京东科技开发者

区块链 京东

《写给大忙人看的JAVA核心技术》.pdf

田维常

电子书

话题讨论 | 程序员摸鱼的时候都喜欢干些什么

soolaugust

话题讨论

话题讨论 | 作为开发你是如何阅读源码的?

程序员小航

话题讨论

探秘密码学:深入了解对称加密与密钥协商技术

京东科技开发者

网络安全 密码学

第十一周 安全稳定作业

蓝黑

极客大学架构师训练营

突破容量极限:TiDB 的海量数据“无感扩容”秘籍

京东科技开发者

分布式数据库 #TiDB

话题讨论 | 深入浅出Linux内存管理,图解物理内存和虚拟内存

程序员柠檬

话题讨论

第七周总结

小兵

数据资产管理平台规划概要

马踏飞机747

大数据 数据治理 数据资产

花火交易所APP软件系统开发(现成)

系统开发

公安情报研判管控分析平台建设解决方案

t13823115967

智慧公安情报研判系统开发 智慧公安 情报研判管控分析平台

第十一周 安全稳定总结

蓝黑

极客大学架构师训练营

基于区块链技术落地应用开发-食品溯源

13828808769

KMP —— 字符串分析算法

三钻

算法 大前端 KMP

话题讨论 | 2020年你有什么推荐的书

soolaugust

话题讨论

什么是工作流?工作流有什么作用?怎样配置工作流程?

Marilyn

敏捷开发 工作流

我是程序员,我用这种方式铭记历史

kokohuang

Hexo GitHub Pages python 爬虫 中国历史 铭记历史

线程上下文切换,这些是你需要掌握的

田维常

系统上下文

云计算领域-杨明越加入InfoQ协作平台

杨明越

Seata是什么?一文了解其实现原理

vivo互联网技术

分布式 分布式事务 分布式架构

架构师训练营第 1 期第 11 周总结

du tiezheng

极客大学架构师训练营

阿里云Lindorm与Intel、OSIsoft共建IT & OT超融合工业数据云

许力

数据库 大数据 IoT 工业互联网 工业物联网

教你用Python自制拼图小游戏,轻松搞定熊孩子

华为云开发者联盟

Python 游戏 拼图

阿里巴巴内部秘密培养的“Java架构师养成计划”图谱曝光,全是干货!

Java架构追梦

Java 学习 架构 面试 阿里巴巴人才培养计划

话题讨论 | go、php 、java、python、cpp谁才能成为后端的主流

sinsy

Java c++ php 话题讨论 Go 语言

手撸一个在线css三角形生成器

徐小夕

CSS css3 大前端 CSS小技巧

架构师训练营第 1 期第 11 周作业

du tiezheng

极客大学架构师训练营

智慧公安情报指挥合成作战管控平台开发

t13823115967

智慧公安情报研判系统开发 智慧公安 合成作战管控平台

快看漫画大数据平台的模型思维与用户增长实践_大数据_DataFunTalk_InfoQ精选文章