美团、快手、去哪儿网是如何构建测试环境的?点击查看实践案例>> 了解详情
写点什么

腾讯游戏运维技术发展:走向 AIOps ,运维与业务运营加速融合

  • 2021 年 1 月 18 日
  • 本文字数:2713 字

    阅读完需:约 9 分钟

腾讯游戏运维技术发展:走向 AIOps ,运维与业务运营加速融合

伴随着移动互联网浪潮的发展崛起,国产手游巧妙的避开了长期被日、韩、欧美等国家占领的 PC 游戏市场,快速打造了基于移动智能设备的全新手游体验,在全球市场上取得突破性进展,并且形成了自己的影响力。


然而在这一过程中,随着越来越多的国内游戏产品开始走向全球,参与引领行业发展,其对于后台技术的发展也提出了越来越高的要求。其中,运维技术作为任意款游戏产品运行发展的强有力支撑单元,正面临着全新的挑战。

 

作为国内游戏行业市场占有率最高的企业,腾讯游戏业务长期占据国内市场总份额 50%以上,稳居行业第一,腾讯游戏运维业务的发展更是可以进一步看作是整个行业发展的缩影。

 

在由 InfoQ 主办的 2020 QCon (上海)全球软件开发大会期间,InfoQ 记者特别采访了腾讯游戏运维总监涂彦先生,就腾讯游戏运维技术发展演进过程是怎样的、新时期的 AIOps 运维技术实践具有哪些经验等方面话题进行了交流。

 

以下为 Q/A 内容整理(有删减),供行业人士参考。

从手工操作到智能运维

InfoQ:从事游戏运维近 15 年,过程中哪些运维技术、理念的出现让你印象深刻?腾讯游戏在运维方面是如何参与这些变化的?

 

涂彦:单纯从国内游戏运维领域技术发展演进的角度来看,在经历了早期的纯手工化运维,再到后来的基于 Command 窗口命令行、Linux 脚本批量化管理等发展阶段后,如今游戏行业运维技术的发展已经从脚本过渡到一个工具化、产品化的阶段,并正呈现出向智能化过渡的趋势。

 

以腾讯为例,从 2012 年开始,腾讯游戏内部便把运维脚本语言统一升级为 Python,实现了整个游戏的日常运维工作全面标准化与自动化升级。现在我们只需要使用蓝鲸这一个平台工具,就可以实现腾讯游戏旗下几百个业务的自动化运维管理。

 

与此同时,伴随着运维工作的自动化持续建设,腾讯游戏内部的服务器数量多达数十万台,游戏业务对于数据服务的使用也越来越多。

 

在服务器数量达到了一定规模的量级之后,每台服务器的生命周期、硬件故障、以及服务器内部结构等数据信息都存在差异,如何对这些数据进行科学合理的管理以及资源分配成为了新的挑战。与此同时,不同游戏玩家在体验方面对于高效实时性能等方面的要求,同样对腾讯游戏的运维工作提出了新的挑战。

 

智能化运维(AIOps)工作的开展,成为了腾讯游戏运维真实业务开展过程中不得不去思考的一个问题。与之相对应的,我们在人员甄选方面,也出现了更多运维开发、数据开发这样的新能力,强调新进入的人员在懂运维技术的同时,还要懂开发技术或智能化技术。

 

InfoQ:你是怎么理解 AIOps 的?能否通过一个例子形象直观的展开介绍?

 

涂彦:以目前最火爆的生存类游戏为例,当大量的玩家进入游戏场景的时候,其实对于游戏策划人员来说,他们需要去了解这张地图设计的是否合理?是否存在值得改进的地方,于是就需要通过很多的数据去分析。


在传统工作模式中,对于这些数据分析,是离线以及单维度的,策划团队很难立体去看玩家在游戏中的实际表现。而如果可以立体、实时、多维去看这些,将给策划及运营团队带来更好的感知,从而可以更加高效率的优化好玩家的游戏体验。


目前我们通过 AIOps 的方式,就已经能够实现通过热力地图,真实的记录下单位时间内地图上的击中分布、比率等情况,第一时间知道哪一个区域的玩家失败率最高,并通过分析得出改进建议。


我们就多次的帮助游戏策划人员发现设计上需要优化的一些问题,比如某一大型游戏在一次版本更新之后,一处地图的角落里,玩家跳上箱子之后被击中的次数有严重的聚集,与设计案有一定的出入,后来发现是这个地方的关卡设计其实是需要做出调整的。

运维与业务运营、策划正走向融合 

InfoQ:在你们看来,游戏运维是跟运营、策划等合在一起的?

 

涂彦:对的,在我们看来,传统的 AIOps 主要是用于解决软硬件相关、发现故障等问题的,但是对于我们而言,我们会更倾向于怎么样去帮业务解决实际问题,它其实还是有一个很大的提升的。通过上面的例子可以看到,其实我们的运维业务已经跟业务相关的游戏设计、策划等关联起来了,这已经区别于传统的运维模式了。

 

在以往的运维过程中,我们在帮助业务去解决问题的时候发现,包括一些断线重连,游戏卡顿等问题,其实它已经不再是简单的通过一维或二维数据就可以快速得到答案的,现在游戏产品的后台运维其实需要收集更加多维、海量的数据。

 

在这样的情况下,智能运维要做的事情其实相当于是我们把运营规划的事,从需求到最终的落地,并且把运维、开发以及运营这些事情都合在一起来做了。


InfoQ:运营与智能运维的结合,这个概念只有腾讯一家在提吗?还是其他的同行也认同这个趋势?

 

涂彦:这几年我们在行业里的交流其实也有不少,整体上还是觉得行业里做得更多的是偏向于硬件和网络相关的。比如说做硬件故障维护、磁盘替换、网络告警。但是也有越来越多的企业开始做业务预警相关的工作,相当于说这里面有一部分智能运维的工作是去做预测的,这一块其实目前像百度、阿里等运维团队也都有在做。 

运维部门不是利润中心, 而是成本中心

InfoQ:作为这一次 QCon 大会《弹性工程与运维》专题的出品人,你参与组织这一专题的目的是什么?

 

涂彦:目前看来,整个云计算的发展,对运维行业也带来了很大的转型挑战。在高并发的场景下,如何做好弹性调度以提升业务的资源利用率,这是我们专题重点关注的方向,希望能给大家解决复杂的业务问题提供有效地帮助和启发。

 

游戏业务对于后端服务器的要求非常高,特别是网络游戏,有大量的计算都是通过后端完成的,所以,在每一款游戏的背后,都有大量的服务器资源基于 GPU、CPU 去进行运算。伴随着云计算背景下云游戏等概念的出现,用户对于云端游戏的呼声越来越大,这无形之间对新的游戏运维提出了很高的挑战。

 

对于云时代产生的云游戏而言,由于需要达到的效果是将大量的内容存储、图像渲染等放置到云端,终端只起到一个交互的作用,这导致的结果是,云游戏在用户的终端设备性能很低的情况下也能产生一个很好的效果,但是对于后端的服务器的要求却变得更高了。这相当于是将终端设备性能提升的问题转移到了后端服务器里面,于是与之相对应的是,后端的开发、运维人员将要面临的问题也就更多,成本压力也越来越大。

 

运维部门作为企业的成本部门,在保障业务运行的情况下,更多的还是需要去考虑如何更好的与业务结合,产生更多的增值服务。以及思考如何通过基于云的弹性伸缩方式实现运维成本的优化?这是我们这次专题里重点讨论的一个话题。

会议推荐

2021 年 4 月 22-24 日QCon全球软件开发大会(北京站)再次恢复为 3 天时间,会议规模在 2000 人左右,无论是嘉宾专业性还是话题关注度都会更强、更高。 12 个技术专题,73 位演讲嘉宾,大会内容持续上新中,欢迎 IT 行业内伙伴保持关注并积极参与。直达官网查看大会详情。

2021 年 1 月 18 日 07:306375

评论

发布
暂无评论
发现更多内容

COMP矿池矿机系统开发案例分析

系统开发咨询1357O98O718

COMP矿池矿机系统开发介绍

如何降低微服务测试成本?我的经验之谈

阿里巴巴中间件

BMEX交易所系统软件开发|BMEX交易所APP开发

系统开发

喜讯 | 拍乐云荣登2020「年度最具投资价值创新企业TOP20」榜单

拍乐云Pano

音视频 拍乐云

《微信小程序开发入门与实践》.pdf

田维常

Forsage系统开发(模式分析)

系统开发咨询1357O98O718

Forsage系统开发案例介绍

LeetCode题解:433. 最小基因变化,BFS,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

公安大数据分析系统开发,情报研判系统搭建

t13823115967

智慧公安

TRONex波场智能合约系统开发详解丨TRONex波场链系统开发(源码)

系统开发咨询1357O98O718

系统开发 TRONex波场智能合约 APP开发

年终盘点 | 七年零故障支撑双11的消息中间件 RocketMQ,怎么做到的?

阿里巴巴中间件

消息中间件 双十一

第12周作业

饭桶

OKO疯矿链系统开发案例(源码)

系统开发咨询1357O98O718

OKO疯矿链系统开发

北京天源迪科与重庆邮电大学移通学院成功签约

DT极客

三金本体挖矿模式系统开发丨三金本体平台源码设计

系统开发咨询1357O98O718

三金本体挖矿模式源码

vivo 全球商城:从 0 到 1 代销业务的融合之路

vivo互联网技术

架构 分布式 商城项目 商城

产品推荐 | 还在自研?快来解锁拍乐云互动白板

拍乐云Pano

音视频 在线教育 RTC 互动白板

深入浅出理解视频编解码技术

拍乐云Pano

音视频 RTC 拍乐云 视频编解码 视频算法

看到Mybatis源码就感到烦躁,怎么办?

田维常

mybatis

云小课 | 需求任务还未分解,该咋整!项目管理Scrum项目工作分解的心酸谁能知?

华为云开发者联盟

项目管理 敏捷 devcloud

使用Angular8和百度地图api开发《旅游清单》

徐小夕

Java angular.js 大前端 angular

第12周总结

饭桶

有道逻辑英语-时态新发现笔记

Leo

学习 大前端 笔记 时态

【涂鸦物联网足迹】物联网常见通信协议

IoT云工坊

物联网 HTTP 通信协议 mqtt coap

ETH场外交易系统开发流程丨ETH场外交易开发源码案例

系统开发咨询1357O98O718

ETH场外交易系统开发

投行工作的本质 | 读《投行职业进阶指南:从新手到合伙人》

邓瑞恒Ryan

读书笔记 投资 金融 投行 职业第二曲线

构建一张音视频全球大网究竟需要多少个节点?Pano Backbone技术探秘

拍乐云Pano

音视频 RTC 拍乐云

区块链应用落地,物流供应链平台搭建

t13823115967

区块链应用

Gemini双子新约交易所系统软件APP开发

系统开发

5分钟完成业务实时监控系统搭建,是一种什么样的体验?

阿里巴巴中间件

体验 监控

腾讯游戏运维技术发展:走向 AIOps ,运维与业务运营加速融合_DevOps_周文猛_InfoQ精选文章