写点什么

从卡顿到稳定:腾讯游戏海量支撑与容灾实践|QCon 上海

  • 2025-10-21
    北京
  • 本文字数:1930 字

    阅读完需:约 6 分钟

大小:1.02M时长:05:57
从卡顿到稳定:腾讯游戏海量支撑与容灾实践|QCon 上海

QCon 上海站开幕倒计时!如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


腾讯 IEG 技术运营部高级工程师张廷进已确认出席并发表题为从卡顿到稳定:腾讯游戏海量支撑与容灾实践的主题分享。游戏行业高可用面临毫秒级延迟敏感、复杂逻辑低承载及节日流量突增等挑战。本次分享聚焦腾讯游戏在超大 PCU 业务下的全链路保障实践,介绍从设计评审、分层混沌演习到 SRE 领域模型辅助故障定位的完整框架。重点剖析分层混沌工程体系与 AI 驱动的故障定位模型,结合典型业务案例,总结可复用的压测策略与落地经验,为高实时、高并发系统提供工程化参考。


张廷进,腾讯 IEG 技术运营部高级工程师,2010 年加入腾讯,主导构建腾讯自研游戏 SRE 体系,负责《和平精英》等数十款头部游戏的技术运营,参与亿级 DAU 业务的高可用架构设计和支撑。作为腾讯游戏 TDR(Technical Design Review)评审委员会核心专家,主导业务上线前的架构容灾风险评估与优化,累计评审项目超 30+,通过混沌工程和全链路压测的实践落地,推动腾讯游戏可用性持续提升。他在本次会议的详细演讲内容如下:


演讲提纲

1. 背景 & 问题:游戏行业高可用的独特挑战

  • 高实时性:毫秒级延迟敏感,生产环境压测难实施;服务器性能裕量小,CPU > 60% 即出现卡顿投诉

  • 低承载能力:复杂逻辑导致单机承载远低于互联网平均水平;大版本更新可能需要一次性扩容数十万核心

  • 瞬时流量冲击:周年庆、春节等活动 1 分钟内连接数可暴增 N 倍;新玩法上线导致同等在线下,资源需求激增

2. 解决思路:从设计到运维的全链路保障框架

  • 容灾能力建设

    开发设计阶段:TDR 评审,提前规避单点与性能瓶颈

    测试阶段:删档测试期的分层混沌演习,暴露弱点

    上线阶段:SRE 领域模型辅助故障快速定位

  • 容量规划与验证策略

    全链路压测:模拟从登录到战斗的 90% 核心路径

    局部生产压测:动态注入流量验证单模块承载

3. 技术体系设计与典型案例实践

  • 分层混沌工程体系设计

    接入层:DNS 解析异常、网络抖动、机房不可用

    逻辑层:单点模块故障、过载保护、负载均衡策略验证、数据保护机制验证

    存储层:DB Proxy 异常、主从切换、IP 变更对业务的影响

  • SRE 领域模型训练与应用

    数据来源:历史故障、混沌演习日志、运维知识库

    技术路径:

    预训练:大规模运维经验语料

    精调:领域知识 + 领域技能双向微调

    强化学习:混沌场景驱动外网异常应对能力提升

    效果:故障定位时间显著缩短,减少人为排查成本

  • 典型实践案例

    超大 PCU 业务上线保障

    典型游戏业务服务器架构设计

    关键模块的高可用风险及优化思路

    腾讯游戏混沌工程实践

4. 经验总结:从踩坑到最佳实践

  • 不同业务体量的压测策略选择

  • 混沌工程落地的常见陷阱与改进路径

实践痛点

  • 如何通过 SRE 左移在业务开发前期,建立架构评审的关键要求和标准,推动落地执行,提升架构设计的健壮性?

  • 外网运行中为数千万用户提供服务的生产环境,注入压测流量在大部分场景下通常不具备可行性,如何通过局部压测的方式评估业务完整承载能力?

  • 日常稳定增长的业务场景和海量突发场景,在支撑模式和关注点上有什么区别?

演讲亮点

  • 游戏行业高可用架构设计的关键方法

  • 游戏行业容灾能力验证的方法和混沌工程的应用

  • 游戏行业压测的方法及重点关注的指标

  • 游戏行业海量支撑实践及关键节点的重保流程

听众收益

  • 了解游戏行业的高可用架构设计的经验,常见薄弱环节及解决方法,可用于业务自身开发时提升健壮性的参考

  • 了解混沌工程在游戏行业的落地经验

  • 了解 SRE 专属大模型在混沌、压测、故障定位等领域的落地经验

  • 理解游戏业务海量容量规划的经验

  • 了解业务架构设计中的,可用于业务自身开发时提升健壮性的参考


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,更多详情可联系票务经理 18514549229 咨询。


2025-10-21 12:004502

评论

发布
暂无评论

CorelDRAW 2024:引领设计新纪元,探索无限创意可能

Rose

高清蓝光播放器Tipard Blu-ray Player for Mac:极致视听,尽在掌握

Rose

视频无损放大修复工具Topaz Video AI v6.0.2激活码 for Mac安装教程

Rose

阿里巴巴1688 API接口深度解析:高效获取商品详情与关键词搜索商品策略

代码忍者

1688API接口

三大智能体平台对比分析:FastGPT、Dify、Coze 哪个更适合你?

测吧(北京)科技有限公司

测试

正式开源,Doris Operator 支持高效 Kubernetes 容器化部署方案

SelectDB

数据库 数据分析 部署 Kubernetes Serverless 容器化部署

社交软件红包技术解密(五):微信红包系统是如何实现高可用性的

JackJiang

网络编程 即时通讯 IM

Aurora DSP GateMate for mac(创新降噪插件) v1.0.0激活版

Rose

2025全球计算大会启幕:全球计算联盟“新型计算引领数智社会新航向”

新消费日报

AI智能体在自动化测试中的应用

测吧(北京)科技有限公司

测试

探索基于大语言模型的多智能体系统:AIP智能体平台引领新纪元

大东(AIP智能体运营专员)

人工智能

AIP智能体平台:开启AI技术的新篇章

大东(AIP智能体运营专员)

人工智能

三大智能体平台对比分析:FastGPT、Dify、Coze 哪个更适合你?

测试人

软件测试

BOE(京东方)顺利完成新一届管理团队聘任 创新人才战略启幕发展新篇

爱极客侠

CST软件如何计算天线系数Antenna Factor-达索官方授权

思茂信息

cst cst操作 CST软件

DNS故障是怎么回事?DNS故障怎么解决?

防火墙后吃泡面

高效简洁的Markdown编辑器 MarkEdit for mac激活版

Rose

Microsoft OneNote 2024 for Mac 汉化破解版 附永久许可证

Rose

TG Pro (终极 Mac 风扇控制和温度监控) v2.94

Rose

PullTube for Mac 在线视频下载器 1.8.5.53 激活版

Rose

音频后期混音套件 Waves Ultimate 15 v14.01.2025 新功能介绍

Rose

VMware Fusion Pro 13:虚拟化新境界,Mac上的全能助手

Rose

BetterDisplay Pro for Mac:极致视觉体验,尽在掌控

Rose

从卡顿到稳定:腾讯游戏海量支撑与容灾实践|QCon 上海_软件工程_QCon全球软件开发大会_InfoQ精选文章