时隔16年Jeff Barr重返10.23-25 QCon上海站,带你看透AI如何重塑软件开发! 了解详情
写点什么

从卡顿到稳定:腾讯游戏海量支撑与容灾实践|QCon 上海

  • 2025-10-21
    北京
  • 本文字数:1930 字

    阅读完需:约 6 分钟

大小:1.02M时长:05:57
从卡顿到稳定:腾讯游戏海量支撑与容灾实践|QCon 上海

QCon 上海站开幕倒计时!如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


腾讯 IEG 技术运营部高级工程师张廷进已确认出席并发表题为从卡顿到稳定:腾讯游戏海量支撑与容灾实践的主题分享。游戏行业高可用面临毫秒级延迟敏感、复杂逻辑低承载及节日流量突增等挑战。本次分享聚焦腾讯游戏在超大 PCU 业务下的全链路保障实践,介绍从设计评审、分层混沌演习到 SRE 领域模型辅助故障定位的完整框架。重点剖析分层混沌工程体系与 AI 驱动的故障定位模型,结合典型业务案例,总结可复用的压测策略与落地经验,为高实时、高并发系统提供工程化参考。


张廷进,腾讯 IEG 技术运营部高级工程师,2010 年加入腾讯,主导构建腾讯自研游戏 SRE 体系,负责《和平精英》等数十款头部游戏的技术运营,参与亿级 DAU 业务的高可用架构设计和支撑。作为腾讯游戏 TDR(Technical Design Review)评审委员会核心专家,主导业务上线前的架构容灾风险评估与优化,累计评审项目超 30+,通过混沌工程和全链路压测的实践落地,推动腾讯游戏可用性持续提升。他在本次会议的详细演讲内容如下:


演讲提纲

1. 背景 & 问题:游戏行业高可用的独特挑战

  • 高实时性:毫秒级延迟敏感,生产环境压测难实施;服务器性能裕量小,CPU > 60% 即出现卡顿投诉

  • 低承载能力:复杂逻辑导致单机承载远低于互联网平均水平;大版本更新可能需要一次性扩容数十万核心

  • 瞬时流量冲击:周年庆、春节等活动 1 分钟内连接数可暴增 N 倍;新玩法上线导致同等在线下,资源需求激增

2. 解决思路:从设计到运维的全链路保障框架

  • 容灾能力建设

    开发设计阶段:TDR 评审,提前规避单点与性能瓶颈

    测试阶段:删档测试期的分层混沌演习,暴露弱点

    上线阶段:SRE 领域模型辅助故障快速定位

  • 容量规划与验证策略

    全链路压测:模拟从登录到战斗的 90% 核心路径

    局部生产压测:动态注入流量验证单模块承载

3. 技术体系设计与典型案例实践

  • 分层混沌工程体系设计

    接入层:DNS 解析异常、网络抖动、机房不可用

    逻辑层:单点模块故障、过载保护、负载均衡策略验证、数据保护机制验证

    存储层:DB Proxy 异常、主从切换、IP 变更对业务的影响

  • SRE 领域模型训练与应用

    数据来源:历史故障、混沌演习日志、运维知识库

    技术路径:

    预训练:大规模运维经验语料

    精调:领域知识 + 领域技能双向微调

    强化学习:混沌场景驱动外网异常应对能力提升

    效果:故障定位时间显著缩短,减少人为排查成本

  • 典型实践案例

    超大 PCU 业务上线保障

    典型游戏业务服务器架构设计

    关键模块的高可用风险及优化思路

    腾讯游戏混沌工程实践

4. 经验总结:从踩坑到最佳实践

  • 不同业务体量的压测策略选择

  • 混沌工程落地的常见陷阱与改进路径

实践痛点

  • 如何通过 SRE 左移在业务开发前期,建立架构评审的关键要求和标准,推动落地执行,提升架构设计的健壮性?

  • 外网运行中为数千万用户提供服务的生产环境,注入压测流量在大部分场景下通常不具备可行性,如何通过局部压测的方式评估业务完整承载能力?

  • 日常稳定增长的业务场景和海量突发场景,在支撑模式和关注点上有什么区别?

演讲亮点

  • 游戏行业高可用架构设计的关键方法

  • 游戏行业容灾能力验证的方法和混沌工程的应用

  • 游戏行业压测的方法及重点关注的指标

  • 游戏行业海量支撑实践及关键节点的重保流程

听众收益

  • 了解游戏行业的高可用架构设计的经验,常见薄弱环节及解决方法,可用于业务自身开发时提升健壮性的参考

  • 了解混沌工程在游戏行业的落地经验

  • 了解 SRE 专属大模型在混沌、压测、故障定位等领域的落地经验

  • 理解游戏业务海量容量规划的经验

  • 了解业务架构设计中的,可用于业务自身开发时提升健壮性的参考


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,更多详情可联系票务经理 18514549229 咨询。


2025-10-21 12:001

评论

发布
暂无评论

解析名企测试流程:从项目立项到产品上线的完整指南

测吧(北京)科技有限公司

测试

测试管理实战:优化测试流程,提升项目质量与效率

测吧(北京)科技有限公司

测试

零信任安全模型:构建未来数字世界的安全基石

GousterCloud

零信任

我们是如何测试人工智能的(六)推荐系统拆解

测吧(北京)科技有限公司

测试

我们是如何测试人工智能的(七)包含大模型的企业级智能客服系统拆解与测试方法 – 知识引擎

测吧(北京)科技有限公司

测试

ERC314协议代币开发及合约开发详解

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

精通测试规划:打造完备的测试计划与总结报告

测吧(北京)科技有限公司

测试

企业架构设计原则之品质均衡性(一)

凌晞

企业架构 架构设计 架构设计原则

云原生数据库下一站:像 MySQL 一样流行,让更多人受益于新技术的发展

百度Geek说

云计算 云原生数据库

我们是如何测试人工智能的(三)数据构造与性能测试篇

测吧(北京)科技有限公司

测试

我们是如何测试人工智能的(七)包含大模型的企业级智能客服系统拆解与测试方法 – 知识引擎

测试人

人工智能 软件测试 自动化测试 测试开发

Apache IoTDB 入选国家级规划教材《数据库系统概论(第6版)》!

Apache IoTDB

Mistral Large模型现已在Amazon Bedrock上正式可用

财见

我们是如何测试人工智能的(八)包含大模型的企业级智能客服系统拆解与测试方法 – 大模型 RAG

测吧(北京)科技有限公司

测试

Rust 解码 Protobuf 数据比 Go 慢五倍?记一次性能调优之旅

Greptime 格睿科技

Go rust 性能 序列化 企业号 4 月 PK 榜

高效管理测试资源:工具化管理测试用例与Bug漏洞

测吧(北京)科技有限公司

测试

揭秘Linux进程通讯:解决死锁难题的方法论

测吧(北京)科技有限公司

测试

精通Linux性能优化:掌握CPU、内存、网络和IO性能调优的技巧与工具

测吧(北京)科技有限公司

测试

AI投研分析,模块化赛道可能会出现新的头部公链

股市老人

AI投研分析,模块化赛道可能会出现新的头部公链

股市老人

我们是如何测试人工智能的(二)数据挖掘篇

测吧(北京)科技有限公司

测试

深度探索名企项目开发:揭秘经典开发流程与测试策略

测吧(北京)科技有限公司

测试

我们是如何测试人工智能的(四)补充:模型全生命周期流程与测试图

测吧(北京)科技有限公司

测试

我们是如何测试人工智能的(五)案例介绍:ASR 效果测试介绍

测吧(北京)科技有限公司

测试

今日分享丨单点登录原理及OAuth20授权码协议

inBuilder低代码平台

低代码 单点登录

探秘Linux进程与线程:多进程与多线程的奥秘及实战场景

测吧(北京)科技有限公司

测试

淘宝商品评论API:连接消费者与商家的桥梁,提升购物体验新途径

技术冰糖葫芦

API 文档

C++ Break、Continue 和 数组操作详解

小万哥

程序人生 编程语言 软件工程 C/C++ 后端开发

Digital Realty 将人工智能驱动的能效平台扩展至亚太地区

财见

ChatGPT全方位解析:如何培养 AI 智能对话技能?

测吧(北京)科技有限公司

测试

性能测试中的唯一标识问题研究

FunTester

从卡顿到稳定:腾讯游戏海量支撑与容灾实践|QCon 上海_软件工程_QCon全球软件开发大会_InfoQ精选文章