写点什么

从卡顿到稳定:腾讯游戏海量支撑与容灾实践|QCon 上海

  • 2025-10-21
    北京
  • 本文字数:1930 字

    阅读完需:约 6 分钟

大小:1.02M时长:05:57
从卡顿到稳定:腾讯游戏海量支撑与容灾实践|QCon 上海

QCon 上海站开幕倒计时!如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


腾讯 IEG 技术运营部高级工程师张廷进已确认出席并发表题为从卡顿到稳定:腾讯游戏海量支撑与容灾实践的主题分享。游戏行业高可用面临毫秒级延迟敏感、复杂逻辑低承载及节日流量突增等挑战。本次分享聚焦腾讯游戏在超大 PCU 业务下的全链路保障实践,介绍从设计评审、分层混沌演习到 SRE 领域模型辅助故障定位的完整框架。重点剖析分层混沌工程体系与 AI 驱动的故障定位模型,结合典型业务案例,总结可复用的压测策略与落地经验,为高实时、高并发系统提供工程化参考。


张廷进,腾讯 IEG 技术运营部高级工程师,2010 年加入腾讯,主导构建腾讯自研游戏 SRE 体系,负责《和平精英》等数十款头部游戏的技术运营,参与亿级 DAU 业务的高可用架构设计和支撑。作为腾讯游戏 TDR(Technical Design Review)评审委员会核心专家,主导业务上线前的架构容灾风险评估与优化,累计评审项目超 30+,通过混沌工程和全链路压测的实践落地,推动腾讯游戏可用性持续提升。他在本次会议的详细演讲内容如下:


演讲提纲

1. 背景 & 问题:游戏行业高可用的独特挑战

  • 高实时性:毫秒级延迟敏感,生产环境压测难实施;服务器性能裕量小,CPU > 60% 即出现卡顿投诉

  • 低承载能力:复杂逻辑导致单机承载远低于互联网平均水平;大版本更新可能需要一次性扩容数十万核心

  • 瞬时流量冲击:周年庆、春节等活动 1 分钟内连接数可暴增 N 倍;新玩法上线导致同等在线下,资源需求激增

2. 解决思路:从设计到运维的全链路保障框架

  • 容灾能力建设

    开发设计阶段:TDR 评审,提前规避单点与性能瓶颈

    测试阶段:删档测试期的分层混沌演习,暴露弱点

    上线阶段:SRE 领域模型辅助故障快速定位

  • 容量规划与验证策略

    全链路压测:模拟从登录到战斗的 90% 核心路径

    局部生产压测:动态注入流量验证单模块承载

3. 技术体系设计与典型案例实践

  • 分层混沌工程体系设计

    接入层:DNS 解析异常、网络抖动、机房不可用

    逻辑层:单点模块故障、过载保护、负载均衡策略验证、数据保护机制验证

    存储层:DB Proxy 异常、主从切换、IP 变更对业务的影响

  • SRE 领域模型训练与应用

    数据来源:历史故障、混沌演习日志、运维知识库

    技术路径:

    预训练:大规模运维经验语料

    精调:领域知识 + 领域技能双向微调

    强化学习:混沌场景驱动外网异常应对能力提升

    效果:故障定位时间显著缩短,减少人为排查成本

  • 典型实践案例

    超大 PCU 业务上线保障

    典型游戏业务服务器架构设计

    关键模块的高可用风险及优化思路

    腾讯游戏混沌工程实践

4. 经验总结:从踩坑到最佳实践

  • 不同业务体量的压测策略选择

  • 混沌工程落地的常见陷阱与改进路径

实践痛点

  • 如何通过 SRE 左移在业务开发前期,建立架构评审的关键要求和标准,推动落地执行,提升架构设计的健壮性?

  • 外网运行中为数千万用户提供服务的生产环境,注入压测流量在大部分场景下通常不具备可行性,如何通过局部压测的方式评估业务完整承载能力?

  • 日常稳定增长的业务场景和海量突发场景,在支撑模式和关注点上有什么区别?

演讲亮点

  • 游戏行业高可用架构设计的关键方法

  • 游戏行业容灾能力验证的方法和混沌工程的应用

  • 游戏行业压测的方法及重点关注的指标

  • 游戏行业海量支撑实践及关键节点的重保流程

听众收益

  • 了解游戏行业的高可用架构设计的经验,常见薄弱环节及解决方法,可用于业务自身开发时提升健壮性的参考

  • 了解混沌工程在游戏行业的落地经验

  • 了解 SRE 专属大模型在混沌、压测、故障定位等领域的落地经验

  • 理解游戏业务海量容量规划的经验

  • 了解业务架构设计中的,可用于业务自身开发时提升健壮性的参考


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,更多详情可联系票务经理 18514549229 咨询。


2025-10-21 12:005053

评论

发布
暂无评论

软硬件双向驱动 英特尔加速AI on PC落地

E科讯

用友Fast by BIP领先实践全景图公布!

用友BIP

Fast by BIP 2023全球商业创新大会

2023开源和信息消费大赛新闻发布会在京召开

开放原子开源基金会

大数据平台三大优势详解-行云管家

行云管家

数据库 大数据 数据安全 大数据平台

​iOS上架审核宝典:如何避免被拒一次提交成功

ios

2023年广州国际大健康产品及健康食品展会

秋硕展览

2023健博会 保健用品展 护理用品

万界星空科技|免费开源MES系统|自动排产管理

万界星空科技

开源 MES系统

众智引领未来:2023中国高校计算机大赛——大数据挑战赛冠军揭晓

云智慧AIOps社区

人工智能 算法 日志分析 计算机 模型

Presto 设计与实现(十二):SQL 逻辑计划

冰心的小屋

数据湖 presto 设计与实现 SQL Plan

生成式AI:重新定义生产力与创造力

百度开发者中心

人工智能 ChatGPT 生成式AI 文心一言

大数据平台与数据仓库的五大区别

行云管家

大数据 数据仓库 数据安全 大数据平台

生成式AI:助力网络安全,挑战与机遇并存

百度开发者中心

人工智能 网络安全、 生成式AI 文心一言

Graph + LLM|图数据库技术如何助力行业大语言模型应用落地

悦数图数据库

数据库 图数据库

如何使用io_uring构建快速响应的I/O密集型应用?

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

TDD、BDD、ATDD都是什么、有什么区别?(上)

禅道项目管理

业务需要咨询?开发遇到bug想反馈?开发者在线提单功能上线!

荣耀开发者服务平台

开发者 在线客服 工单 技术支持

Clang编译数据库信息扩展

maijun

Clang 编译数据库

Graph + LLM 实践指南|如何使用自然语言进行知识图谱构建和查询

悦数图数据库

数据库 图数据库

打造千亿文件量级的大规模分布式文件系统

Baidu AICLOUD

文件系统 分布式文件存储 元数据

程序员常逛的17 个杀手级网站

专注前端开发

前端 大前端 网站

GaussDB技术解读:应用无损透明(ALT)

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

生成式AI助力文学艺术创作

百度开发者中心

人工智能 艺术 文心一言

生成式AI领先,实现客服机器人真智能

百度开发者中心

人工智能 机器人 生成式AI 文心一言

校源行丨开放原子开源基金会赴吉林大学走访交流

开放原子开源基金会

何积丰:数智经济拥抱AI大模型

用友BIP

2023全球商业创新大会

生成式AI:业务流程的变革与机遇

百度开发者中心

人工智能 生成式AI 文心一言

没有永远的王者…Zig替代C,将成定局!

互联网工科生

C语言 C++ Zig语言

从卡顿到稳定:腾讯游戏海量支撑与容灾实践|QCon 上海_软件工程_QCon全球软件开发大会_InfoQ精选文章