写点什么

145 亿次播放,6 千余万用户,凯叔讲故事 APP 数据埋点治理及分析实践

  • 2022-09-01
    北京
  • 本文字数:2109 字

    阅读完需:约 7 分钟

145 亿次播放,6 千余万用户,凯叔讲故事 APP 数据埋点治理及分析实践

2014 年,前央视主持人凯叔创办北京凯声文化传媒有限责任公司,并于 2016 年推出凯叔讲故事 APP。截至目前,凯叔讲故事 APP 总用户数量已经超过 6000 万,总播放超 145 亿次,用户平均日收听时长可达 70 分钟。内容形式及用户数的不断增多导致内部形成了一张错综复杂的数据网络,亟待被厘清。


本文,从数据驱动全链路技术难点解析入手到“凯叔讲故事”的具体解决方案分享,希望为广大企业和开发者提供有效的建设路径参考。

数据驱动全链路技术难点解析


过去十多年,我们可以看到全球很多互联网公司通过数据驱动决策在各个领域里取得非常好的效果,也经历过从没有数据、没有指标,到后来的全面数据采集,大量的决策都基于数据驱动的理念进行,并在整个行业流行数据驱动型决策 (DDDM) 文化。甚至,很多企业都设有“首席数据官”这一职位,普华永道思略特(2011 年)对全球市值最大的 2500 家上市企业调查显示,已任命首席数据官的比例为 21%。


但是,数据驱动增长这件事情存在很大的技术挑战。首席数据官既要面对在传统信息化建设中留下的“信息孤岛”、“信息烟囱”等阻碍数据发挥价值的“绊脚石”,又要面对“垃圾进垃圾出”的低质量数据,还要驱动文化变革使大家接受以数据来驱动业务的数据文化思维。更具体地来说,数据驱动体系涉及数据采集、指标体系、数据分析、业务增长归因及精准运营多个环节,每个环节又都存在众多要解决的问题。


在数据采集层面,埋点设计至关重要,埋点数据的质量直接影响后续的数据应用质量和数据回溯。但在实际的工作中,我们经常面临埋点重要信息缺失、埋点少、埋点口径不统一或者埋点浪费等问题,要保障埋点数据的质量,埋点验证也很关键,要做好埋点验证面临着很多技术挑战,比如易用性、准确性、实时性、稳定性、扩展性。


在指标体系搭建层面,指标定义环节可能存在指标管理不统一、指标口径不一致、指标流程不规范等问题;指标生产环节,企业可能面临着重复建设,数据汇算成本较高等问题;指标消费环节可能存在数据出口不统一、重复输出、输出口径不一致等问题。这些都造成指标管理混乱,数据价值未得到充分发挥。


在数据采集和指标体系搭建完成之后,我们需要合适的分析模型、归因模型发现指标背后的增长可能,找到可能带动增长的方法,并固化为行之有效的业务范式,最终实现精准运营。


在这个过程中,有很多开源和商用方案可以选择,但效果不一。仅在埋点治理层面,凯叔讲故事 APP 就经历过自研和采用第三方数据产品两大阶段,在技术路线选择上有一定发言权。

凯叔讲故事 APP 四个月完成埋点生命周期全流程自动化

业务现状


凯叔讲故事 APP 从诞生到成熟已经走过 6 个年头,随着用户量量级不断上涨,从前线市场反馈过来的新需求日渐增多,对数据的把握与洞察也有了更高要求,而更多的用户和数据量级带来的也是更大的压力。


仅在埋点治理层面,凯叔讲故事 APP 就经历过自研和采用第三方数据产品两大阶段。其中,数据上报不准确、点位管理混乱、验点难,属于老大难问题。北京凯声文化传媒有限责任公司研发 VP 万路表示:“尤其是验点的问题,由于没有合适的验检工具,开发人员不得不通过抓包的形式来进行,如果验证点位不够准确,甚至需要一个字段一个字段地比对,耗时耗力却不能保证 100% 的准确率,这使得开发人员一度对验点产生了抗拒的情绪。”

决定重构,引入 DataFinder 解决问题


2022 年 4 月,凯叔讲故事对 APP 进行了一番重构,不仅重写了底层代码,还首次引入了火山引擎的用户增长分析平台 DataFinder。万路表示:“因为之前我们也有用过其他厂商的产品,说实话,在投入相当人力、时间的前提下,距离我们的预期还是存在一定差距。”


4 月份至今,DataFinder 为开发团队能效带来了巨大提升,不仅有效解决了此前凯叔讲故事 APP 埋点结构缺乏整体规划、数据模型冗余、效率低、数据质量不高、数仓团队压力大等问题,还实现了埋点需求管理、埋点方案设计、埋点评审、埋点生命周期管理等全流程的线上化与自动化。在异动指标方面,火山引擎提供十余种分析模型,帮助开发团队快速定位问题,提升排查效率。


以验点为例,DataFinder 实时埋点验证和用户细查的功能,将这项任务的耗时从过去的至少三天缩减到仅需 2 到 3 个小时,而且随时随地可以查询,得到了开发团队的一致好评。


后续,DataFinder 提供的产品能力和服务,也让凯叔讲故事的技术团队有了一些惊喜。通过对 DataFinder 产品的实际运用,以及现阶段初显的业务效果,凯叔讲故事技术团队对火山引擎云上数据产品有了更多兴趣,期待能够在未来与火山引擎有更多场景的合作。


对 DataFinder 在内的火山引擎全系列云上数据产品来说,加强与凯叔讲故事 APP 等企业的持续合作,是继历经字节跳动内部多业务多场景打磨后,自身数据能力面向外界产品化输出时的关键一步。


最后,DataFinder 的产品官网提供了完善的使用文档,可以帮助企业和开发者快速开启“增长分析”之旅。如果你对数据驱动的全链路技术还处在观望阶段,或者有计划进行内部改造还未有具体步骤,再或者你恰好就是扛起这面大旗的首席数据官,都可以在 9 月 2 日观看火山引擎数据智能科技峰会。届时,火山引擎云上全系列数据产品会集中亮相,并迎来部分产品的重磅发布与能力升级,总有一个可以解决你的问题。



2022-09-01 09:503881
用户头像
赵钰莹 极客邦科技 总编辑

发布了 933 篇内容, 共 716.9 次阅读, 收获喜欢 2714 次。

关注

评论

发布
暂无评论
发现更多内容

客观看待“去测试化”的论调

老张

软件测试 自动化测试 QA 质量保障

通过 TDengine 提升物联网平台性能的秘诀,联犀深度解析

TDengine

数据库 tdengine 时序数据库

阿里云大模型矩阵:千问&Qwen解锁多元智能

测试人

软件测试

【YashanDB知识库】kettle同步大表提示java内存溢出

YashanDB

数据库 yashandb

携手向未来,共绘新蓝图,零售创新峰会2024在桂林圆满落幕

极客天地

ARMS 用户体验监控正式发布原生鸿蒙应用 SDK

阿里巴巴云原生

阿里云 云原生

AI听力陪练APP的技术框架

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI听力练习

陶建辉荣登 2024 福布斯中国新时代颠覆力创始人榜单,见证创新力量的崛起

TDengine

数据库 tdengine 时序数据库

700PB数据的数仓依然“快稳省”!ByteHouse这本白皮书揭秘关键(内附下载链接)

字节跳动数据平台

OLAP 云数据仓库 云数仓

融合创新,智领未来 | 2024华为云开源开发者论坛云原生精彩回顾

华为云原生团队

云计算 容器 云原生

Databend 为什么使用 Rust 开发?

Databend

rust语言

工业 4.0 赋能 | TapData 诚邀制造行业技术伙伴,共享行业数字化、智能化市场新机遇

tapdata

智能制造 实时数据集成 动态排程 质量追溯

北京理工大学鲲鹏昇腾科教创新孵化中心成立  打造教育、科技、人才融合发展新标杆

极客天地

2025 年低代码平台还存活哪些,低代码平台哪家强?

JEECG低代码

低代码 零代码 JeecgBoot 低代码平台比较 jeecg

读懂NotebookLM,或许能治愈AI应用缺失症

脑极体

AI

苦熬3个月,阿里Java岗五面,成功上岸获offer!Java面试题库分享

程序员高级码农

Java 程序员 面试 Java 面试 Java 面试题

两招玩转阿里云系统事件监控

阿里巴巴云原生

阿里云 云原生

全新CleanMyMac专业测评:Mac电脑专业的系统清理和优化工具

阿拉灯神丁

CleanMyMac X Mac软件 如何清理苹果电脑 苹果系统清理 mac系统维护

深度解析:利用API技术高效采集淘宝商品信息(涵盖价格、详情图、主图、SKU属性等)

代码忍者

API 接口 pinduoduo API

制造业4.0:AI与机器人如何重塑生产线

天津汇柏科技有限公司

机器人 制造业 AI 人工智能

解码“闺蜜机”的商业密码

脑极体

AI

【YashanDB知识库】查看表空间是否加密

YashanDB

数据库 yashandb

自动化测试AI智能体:掌握AI,人人都是自动化测试工程师

测试人

软件测试

145 亿次播放,6 千余万用户,凯叔讲故事 APP 数据埋点治理及分析实践 _AI&大模型_赵钰莹_InfoQ精选文章