2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

腾讯游戏服务亿级用户,300 款在线产品的运维建设 —— 实战篇

  • 2015-08-07
  • 本文字数:2025 字

    阅读完需:约 7 分钟

引言

随着 IAAS、PAAS 的不断演化,传统运维的工作不断被“云”所代替,在“云”时代的运维,服务才是未来、核心竞争力,本篇以实战经验为主,介绍覆盖全部游戏类型,业务数量达 300 款以上的腾讯游戏运维服务如何落地,并向智能运维服务方向迈进。

服务建设的关键转变:站在业务的角度看运维

运维团队从自身出发看问题,往往容易陷入到我需要什么工具,需要学习怎样的开源技术解决我目前的问题,这个在运维初期进行标准化,自动化建设的时候,非常关键。但是到了运维服务阶段,我们需要关注我们所负责的业务(产品)关心的是什么,以业务驱动技术的优化和探索。

接下来以游戏运维工作中最常见的游戏合服、游戏登录、版本发布三个业务场景来分享游戏运维服务建设从那里开始。

游戏合服:随着游戏世界中玩家的自然流失,游戏热度将会逐渐减低,严重的会影响游戏内的玩法和用户体验,通过合服,寻找两个或多个热度较低但是非常匹配的服进行合并,使玩家可以在一个相对比较健康的游戏环境中得到较好的体验增加玩家之间的交互,同时从技术的角度也可降低业务侧的服务器成本。

游戏登录:游戏登录较普通的 WEB 登录差别较大,需要经过客户端升级、文件校验、帐号认证、选区和正式进入游戏等多个步骤。整个登录过程涉及到包括 CDN、版本服务(客户端版本控制)、帐号后台、目录服务(大区管理)、游戏后台 server、游戏客户端和网络环境在内的多个模块,任何一个环节出现异常都可能会导致登录失败。

版本发布:版本是游戏的主线,传统游戏运维,重点关注发布、BUG、故障处理的阶段,往往运维较大的精力也会放在发布期间的效率和质量优化。而从游戏业务本身出发,需要以版本为主线,从版本转测开始,关注版本发布前的版本质量以及版本准备过程中对发布时长的优化,在版本发布环节,注重发布质量,发布策略,发布效果,用户影响时长等多方面完成版本的发布动作,在发布完成后,需持续实时跟踪版本稳定性,从在线的恢复速度反馈运维发布能力。

服务建设痛点挖掘:数据驱动、闭环服务

整个运维服务建设中,一直遵循通过数据驱动,采集各个业务环节的数据,通过数据反馈业务场景问题,并且通过闭环服务使得服务形成自循环优化,借此不断提升游戏运维核心竞争力。结合游戏业务实际场景,如何做到。

游戏合服:

  • 首先需从多业务指标维度中进行筛选合服因子,比如开服时间、封印等级、战力指数等等,如加上服务器,因子指数翻倍,并且需要综合考虑玩家的地域、网络因素;
  • 具备历史追踪,经验复用,规避失败合服决策;
  • 跟踪实施步骤耗时,并且多个合服需求同时处理,通过自动化降低人工操作,规避风险。

游戏合服服务框架:

游戏登录:

  • 登录体验的衡量,由于涉及模块繁多,玩家的客户端环境也复杂多变,每时每刻都会有登录失败的玩家存在,如何不被这些个案迷惑,整体地衡量登录体验是否正常就成为一个非常重要的问题。我们在采集每一个步骤的登录状态及耗时的基础上,成功率和耗时两个指标来评估玩家的登录体验,同时结合登录异常的分布情况(如某段时间在某个纬度中集中出现某类登录异常)得出综合的登录体验健康度分数,当集中的登录异常出现时能够及时发现,而不是被平均的登录成功率指标所掩盖。

  • 登录体验异常的原因定位,服务器故障或网络波动的引起的故障,系统可以直接进行判断,但更多的时候是单用户(没有直接的共性联系)的异常,这时就需要通过多纬度的对比(比如玩家所在省份、运营商、大区甚至跨业务的对比)来进行问题原因的定位。 游戏登录服务框架:

版本发布:

  • 版本质量衡量体系建设,采用维度异常分数衡量法,与现有大部分云平台或电脑管家类健康度衡量方式,即实时采集各维度发生异常为质量影响体现,版本衡量维度分布以及关联(数据为实时采集):
    • 优化分服务体现:
    • 在线恢复时长:

服务建设技术实践:持续集成、复用轮子

服务效果通过数据衡量,接下来更多考虑如何能够利用底层的标准化以及各类自动化工具,为顶层的服务提供支持,特别是利用好 IAAS、PAAS 提供的各类支撑能力。

  • 业务运维团队将业务逻辑导入服务引擎通过此驱动整个服务运作,其中自动化调用蓝鲸标准化场景工具进行实施;
  • 海量数据的处理,数据量级达到数十亿的规模,通过采集数据的标准化,并借助 Strom、Solr(蓝鲸实时计算平台)等实时分析、检索平台,实现秒级的数据采集、分析、入库和检索,分钟级运算;
  • 根据服务效果驱动技术的演进,采纳各类开源技术(下载加速、P2P、负载均衡、反域名劫持、CDN 加速等等)并组合应用;

游戏合服业务案例截图:

游戏登录业务案例截图:

版本发布业务案例截图:

以上仅为腾讯游戏运维服务三个场景下的实践分享,在此抛砖引玉,希望能够跟业界进行更多的讨论和实践,特别是进一步组合更多服务策略迈向“智能”运维服务。


感谢赵锐龙对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-08-07 08:102792

评论

发布
暂无评论
发现更多内容

结构仿真流体仿真热仿真分析咨询报价 点击友商科技

极客天地

云管平台供应商大汇总看这里!

行云管家

云计算 云服务 云管平台 云管理

数据驱动营销:淘宝商品详情API助力电商运营精准制胜

代码忍者

API 接口 pinduoduo API

Downie 4 :流行的 Mac 视频下载工具

Rose

重工业数字化转型创新实践:某国家特大型钢铁企业如何快速落地基于实时数仓的数据分析平台

tapdata

钢铁行业数字化转型 实时数仓解决方案 hive数据如何同步到doris oracle数据同步方案 mysql数据复制

AlDente Pro for Mac:保护电池健康的小工具

Rose

西部数据亮相安博会,展出多款领先存储产品

极客天地

Microsoft Remote Desktop:在不同设备之间轻松地共享文件和资源

Rose

OpenAI被爆12月发布其Orion AI模型!波兰“OFF”电台解雇所有记者,启用AI“主持人”|AI日报

可信AI进展

做梦都想拥有的陪伴对象,AI居然免费帮我实现了...文中附送体验地址!

可信AI进展

Charles for Mac 强大的网络代理工具

Rose

2024 必备工具:JProfiler,解锁 Java 应用性能密码

Rose

Go 错误处理指北:Defer、Panic、Recover 三剑客

江湖十年

面试 Go web 后端】

AI驱动的低代码未来:加速应用开发的智能解决方案

天津汇柏科技有限公司

低代码平台 AI 人工智能

IntelliJ IDEA 2024:编程新境界,高效开发新引擎

Rose

AnyGo for Mac 在iPhone / iPad上轻松模拟GPS位置

Rose

华大北斗芯片级产品矩阵亮相第三届北斗规模应用国际峰会

江湖老铁

Autodesk AutoCAD 2024 Mac中文破解版 cad2024下载安装

Rose

腾讯TVQA斩获ECCV 2024压缩视频质量评估比赛冠军

极客天地

数据开发革新篇:逻辑数据编织平台重塑开发流程

Aloudata

数据仓库 数据分析 数据开发 数据虚拟化 数据编织

捷行2024Train-the-Trainer微课程系列-用户故事地图实操工作坊

ShineScrum

人工智能 | 智谱 AI 大模型

测试人

人工智能 软件测试

中国AI开发者应用生态调研报告

易观分析

Lazada淘宝详情API的价值与应用解析

科普小能手

API 接口 API 测试 lazada商品数据接口 lazada API接口 lazada API

腾讯游戏服务亿级用户,300 款在线产品的运维建设 —— 实战篇_服务革新_KemHong_InfoQ精选文章