写点什么

快手大时长应用可观测挑战及应对实践 | QCon 北京

  • 2025-04-03
    北京
  • 本文字数:1632 字

    阅读完需:约 5 分钟

大小:872.59K时长:04:57
快手大时长应用可观测挑战及应对实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


快手客户端架构师王辉已确认出席并发表题为《快手大时长应用可观测挑战及应对实践》的主题分享。在大时长应用的可观测性中,超长且复杂的链路是一个重要的体现。长链路归因是流量领域的常见挑战之一,小到订单路径大到流量拆分,从算法的内容策略归因到资源成本分摊,都高度依赖于长链路埋点基建。长链路归因强依赖埋点透传机制,那么在客户端如何界定透传的业务架构与平台架构的边界?新的埋点标准如何在保持统一性的同时提高效率?面对众多存量场景导致的高替换成本,以及增量业务迭代的不收敛,如何实现存量与增量的全面覆盖?这些问题都是解决长链路归因埋点问题时需要权衡的典型问题。在本次分享中,王辉将基于在快手牵头长链路埋点标准建设、数据治理及架构建设的经验,与大家深入探讨这些问题。


2021 年至今,王辉在快手负责快手系埋点架构及研发数据基建。在埋点体系建设、长链路归因、变更归因方面有较深入的探索。2015 年至 2020 年,在去哪儿网负责门票玩乐技术团队期间,带领团队在移动端动态化、统一埋点、One Data 体系、推荐体系、智能营销系统方面有一定突破。他在本次会议的详细演讲内容如下:


演讲提纲

1. 超长路径带来的关键问题

  • 大时长意味着超长路径

  • 关键问题 1:长路径归因问题(面向分析师)

  • 关键问题 2:算法内容归因问题(面向算法)

  • 关键问题 3:故障定位问题(面向研发)

2. 可观测体系构建

  • 横向组织阵型建设:用委员会机制凝聚共识,科学推进

  • 规范化建设及治理:有效的问题分类、分级,保障基建高效彻底落地

  • 平台化建设:通过自动化、自助化实现极值的埋点、应用效率

3. 长路径归因解法实践

  • URT 染色:用自动化透传机制解决长路径订单归因问题

  • STID 策略 ID:用多通道透传机制,解决内容分发、算法归因问题

  • 相关性变更归因:在 80% 故障场景下,用相关性归因替代 Trace 归因

4. 总结与展望

  • 推进效果及反思

  • 未来展望,更全面的落地,更高的效率


您认为,这样的技术在实践过程中有哪些痛点?

  • 破旧立新 vs. 在问题中演进。由于数据消费的复杂性,我们采用的是快速演进的方式,演进中逐步替代老基建。

  • 新标准如何在可控成本下进行增量覆盖及存量替代。我们采取的是基于现有架构对不同业务形态提出不同的收敛架构,从而实现存量平滑覆盖及增量需求卡口。

  • 高精度 vs. 成本可控。动辄万亿条级别的数据,我们选择的是基于应用场景等级进行不同级别采样的方案。


演讲亮点

  • 统一的长链路埋点架构,让业务团队不再关注透传需求,透传机制及质量保障由 SDK 负责,从而实现效率和质量的双重保障。

  • 新型归因平台,覆盖线上 80%的故障,提供了分钟级归因定位能力,为移动端故障止损提供了基础支撑。


听众收益

通过收听本次演讲,您将至少在以下方面了解到我们最新的探索进展及收获:

  • 在埋点领域,搭建自动化长链路机制,并且兼顾分析师、算法、研发多种决策的归因诉求等方面的建设经验。

  • 在排障领域,移动端如何用变更归因架构替代 Trace 机制,从而获得更好的精度及时效性的建设经验。


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-03 12:008850

评论

发布
暂无评论
发现更多内容

消息队列:RocketMQ事务实现

正向成长

RocketMQ事务

模块八作业

VE

架构实战营

带你学会区分Scheduled Thread Pool Executor 与Timer

华为云开发者联盟

线程 线程池 Timer 任务调度 JDK 1.5

Prometheus PushGateway 0.9 和 1.0 的区别

耳东@Erdong

Prometheus PushGateway 9月日更

分布迁移下的深度学习时间序列异常检测方法探究

云智慧AIOps社区

深度学习 异常检测 技术学习 智能运维 分布迁移

大力出奇迹,揭秘昇腾CANN的AI超能力

华为云开发者联盟

AI 算法 算力 CANN

21. AI会让人类大量失业吗

Databri_AI

人工智能

作业8

柱林

我们应该如何过好自己这一生?

Phoenix

心理学

模块八作业

king

索信达控股:新一代金融知识图谱解决方案的落地应用和研究

索信达控股

金融科技 金融 知识图谱

python 学习笔记:day2——基本数据类型

秦时明月

Python编程

架构实战营模块八作业

maybe

揭秘腾讯TDSQL全时态数据库系统

腾讯云数据库

数据库 tdsql

Flink 在 58 同城的应用与实践

Apache Flink

大数据 flink

设计消息队列存储信息数据的MySQL表格

木云先森

架构训练营

TDSQL全时态数据库的价值和意义

腾讯云数据库

数据库 tdsql

啥都复用不了,还谈什么中台!

菜根老谭

中台 复用 技术管理 平台架构

亚马逊QLDB与腾讯TDSQL生产背景与模型

腾讯云数据库

数据库 tdsql

ECMAScript 2021(ES12)新特性简介

程序那些事

JavaScript ecmascript 程序那些事 ES12

[架构实战营]模块八作业

xyu

#架构实战营

架构实战营1期模块八作业——中间件设计

tt

架构实战营

消息队列数据存储设计案例-模块八

小牧ah

架构实战营

Confluence OGNL 注入漏洞的严重安全问题

HoneyMoose

SpringMVC源码分析-HandlerAdapter(3)-RequestMappingHandlerAdapter请求处理

Brave

源码 springmvc 9月日更

架构训练营 模块七

小卷儿

Vue进阶(幺贰陆):表格复用 TypeError: _self.$scopedSlots.default is not a function解决方法

No Silver Bullet

Vue 9月日更

Apache Hudi 在 B 站构建实时数据湖的实践

Apache Flink

大数据 flink

如何写出安全又可靠的PHP脚本

咔咔

php

快手大时长应用可观测挑战及应对实践 | QCon北京_大数据_QCon全球软件开发大会_InfoQ精选文章