写点什么

快手大时长应用可观测挑战及应对实践 | QCon 北京

  • 2025-04-03
    北京
  • 本文字数:1632 字

    阅读完需:约 5 分钟

大小:872.59K时长:04:57
快手大时长应用可观测挑战及应对实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


快手客户端架构师王辉已确认出席并发表题为《快手大时长应用可观测挑战及应对实践》的主题分享。在大时长应用的可观测性中,超长且复杂的链路是一个重要的体现。长链路归因是流量领域的常见挑战之一,小到订单路径大到流量拆分,从算法的内容策略归因到资源成本分摊,都高度依赖于长链路埋点基建。长链路归因强依赖埋点透传机制,那么在客户端如何界定透传的业务架构与平台架构的边界?新的埋点标准如何在保持统一性的同时提高效率?面对众多存量场景导致的高替换成本,以及增量业务迭代的不收敛,如何实现存量与增量的全面覆盖?这些问题都是解决长链路归因埋点问题时需要权衡的典型问题。在本次分享中,王辉将基于在快手牵头长链路埋点标准建设、数据治理及架构建设的经验,与大家深入探讨这些问题。


2021 年至今,王辉在快手负责快手系埋点架构及研发数据基建。在埋点体系建设、长链路归因、变更归因方面有较深入的探索。2015 年至 2020 年,在去哪儿网负责门票玩乐技术团队期间,带领团队在移动端动态化、统一埋点、One Data 体系、推荐体系、智能营销系统方面有一定突破。他在本次会议的详细演讲内容如下:


演讲提纲

1. 超长路径带来的关键问题

  • 大时长意味着超长路径

  • 关键问题 1:长路径归因问题(面向分析师)

  • 关键问题 2:算法内容归因问题(面向算法)

  • 关键问题 3:故障定位问题(面向研发)

2. 可观测体系构建

  • 横向组织阵型建设:用委员会机制凝聚共识,科学推进

  • 规范化建设及治理:有效的问题分类、分级,保障基建高效彻底落地

  • 平台化建设:通过自动化、自助化实现极值的埋点、应用效率

3. 长路径归因解法实践

  • URT 染色:用自动化透传机制解决长路径订单归因问题

  • STID 策略 ID:用多通道透传机制,解决内容分发、算法归因问题

  • 相关性变更归因:在 80% 故障场景下,用相关性归因替代 Trace 归因

4. 总结与展望

  • 推进效果及反思

  • 未来展望,更全面的落地,更高的效率


您认为,这样的技术在实践过程中有哪些痛点?

  • 破旧立新 vs. 在问题中演进。由于数据消费的复杂性,我们采用的是快速演进的方式,演进中逐步替代老基建。

  • 新标准如何在可控成本下进行增量覆盖及存量替代。我们采取的是基于现有架构对不同业务形态提出不同的收敛架构,从而实现存量平滑覆盖及增量需求卡口。

  • 高精度 vs. 成本可控。动辄万亿条级别的数据,我们选择的是基于应用场景等级进行不同级别采样的方案。


演讲亮点

  • 统一的长链路埋点架构,让业务团队不再关注透传需求,透传机制及质量保障由 SDK 负责,从而实现效率和质量的双重保障。

  • 新型归因平台,覆盖线上 80%的故障,提供了分钟级归因定位能力,为移动端故障止损提供了基础支撑。


听众收益

通过收听本次演讲,您将至少在以下方面了解到我们最新的探索进展及收获:

  • 在埋点领域,搭建自动化长链路机制,并且兼顾分析师、算法、研发多种决策的归因诉求等方面的建设经验。

  • 在排障领域,移动端如何用变更归因架构替代 Trace 机制,从而获得更好的精度及时效性的建设经验。


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-03 12:008690

评论

发布
暂无评论

一文详解kube-apiserver认证鉴权能力

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟

密切关注2024年及以后的加密货币业务趋势

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

集成学习方法——随机森林

小齐写代码

库克透露苹果已有接班人计划,或从这四人中诞生;谷歌创始人亲自给 Gemini 写代码丨 RTE 开发者日报 Vol.114

声网

云图说|有了这2招必杀技,你的主机“身陷重围”都不怕!

华为云开发者联盟

云计算 华为云 主机安全 华为云开发者联盟 华为云HSS

2023-12-27:用go语言,店铺数量n,编号1~n, 人的数量m,编号1~m, 每个人有自己投票的店铺p,和改投1号店的报价x。 返回想让1号店铺成为人气最高的店,至少花多少钱? 1 <= p,

福大大架构师每日一题

福大大架构师每日一题

软件测试/测试开发丨接口自动化测试-TCP与UDP的区别

测试人

软件测试 测试开发

专家观点∣数字化场景应用助力铁合金企业增产提效

用友BIP

冶金 提质增效

基于深度学习的工业缺陷检测详解——从0到1

月球背面

人工智能 缺陷检测 工业视觉 #技术人的2023总结

GitOps实践指南:GitOps能为我们带来什么?

阿里云大数据AI技术

如何判断Linux服务器是否被入侵了,该怎么对服务器进行安全加固

德迅云安全杨德俊

Linux 服务器安全 入侵检测

即时通讯技术文集(第29期):IM开发技术合集(Part2) [共18篇]

JackJiang

网络编程 即时通讯 IM

软件测试/测试开发丨接口学习笔记-session、cookie、token的区别

测试人

软件测试 测试开发

快手大时长应用可观测挑战及应对实践 | QCon北京_大数据_QCon全球软件开发大会_InfoQ精选文章