写点什么

揭秘腾讯数据中心十八年建设及运营实践

  • 2017-06-20
  • 本文字数:4410 字

    阅读完需:约 14 分钟

2000 年,腾讯第一个 IDC 在深圳东门建立,2012 年 9 月,第一个微模块数据中心在宝安落地。这中间,腾讯又相继建立了异地 IDC、海外 IDC、还包括自建数据中心和超大规模数据中心的上线和交付。十八年,腾讯在数据中心建设和运营上积累了一系列的实践经验,也在自主设计、自主建设领域已经取得了丰硕的成果。

腾讯四代数据中心的发展

  • 腾讯第一代数据中心在 2006 年前后起步,采用的是传统的电信解决方案,数据中心 PUE(能效比)在 1.6 左右;
  • 第二代数据中心以天津数据中心为代表,全面转向超大规模数据中心的建设,该代数据中心为 UPS 架构,采用了当时国际上最为先进的自然冷却等节能技术,PUE 降至 1.4;
  • 从 2012 年开始,腾讯开始自主研发以“微模块”为核心技术的第三代数据中心技术 TMDC;
  • 2015 年底,第四代腾讯数据中心 T-Block 技术正式推出,目前该代技术还仅处于试验阶段——进行不同环境下(如:南方湿热环境,西部凉爽环境)的小批量部署,验证间接蒸发冷却技术在不同环境下的节能效果,它带来的直接好处就是让数据中心标准化、模块化,效率更高,PUE 更低,快速地满足市场的需求。

据了解,去年 4 月,腾讯在贵阳建设了 T-Block 的试点项目(其内部称之为“T-Block 西部实验室”),通过此来验证 T-Block 的建设方式和其技术性能。西部实验室由八个模块组成,验证不同模块拼装实现的方式。未来 T-Block 技术将会规模化的在上海、深圳等地的数据中心投入实际运营。

在 TMDC 技术上,腾讯攻克了在建设成本、高压直流供电对 IT 设备的风险、与行业规范兼容、租电分离计费模式等一系列的难点,采用了通道封闭、高压直流、列间空调、简化的配电结构、气流组织优化等一系列节能环保关键技术。TMDC 的技术架构中,每个微模块都包含自身的配电、空调、消防和监测系统等,可以认为一个微模块就是一个微型的数据中心。同时,微模块也是一个完整的产品,像服务器一样,微模块的所有组件都在工厂预制和测试完成,到数据中心现场拼装完成即可投入使用,部署时间最短仅需要两个星期。

另外,相对于第二代数据中心,TMDC 还实现了去 UPS。作为一种体型庞大、操作复杂的供电设备,UPS 在数据中心内使用存有恶性事故隐患,通过“去 UPS”,TMDC 解决方案有效提升了数据中心运营整体的安全性。在 TMDC 解决方案中,服务器供电变成了市电直供加直流系统备份。

腾讯第三代数据中心 TMDC 技术组成

到了第四代 T-Block 数据中心的运行,腾讯主要基于两点技术实现更好的能效和性能:1、制冷系统采取间接蒸发冷却,配电系统继续沿用腾讯目前比较成熟的市电 +HVDC;2、通过标准模块化的供配电,短距离的热量传输路径。

去年年底,有媒体曝光过 T-block 数据中心的外观,其外表虽然看着是集装箱,但内部已进行大量的改装。它由若干个集装箱体拼接而成,包括了办公箱、供电模块箱、两个 IT 模块箱、制冷模块箱 A 和制冷模块箱 B 等。据了解,T-block 核心思路在于通过产品化手段解决数据中心建设问题。而这种思路也更贴近数据中心本质的功能属性:快速响应业务需求,提供一个稳定可靠的 IT 设备运行环境。

随着技术的不断成熟,腾讯数据中心的 PUE 值也在一次次的突破“极限”。腾讯第三代数据中心(TMDC)已经在腾讯自有业务和腾讯云业务上得到大规模应用,目前承载的服务器量超过 20 万台,实测平均 PUE 值 1.35 左右。2016 年 4 月,工信部电信研究院对腾讯 T-block 进行了 24 小时不间断带载测试,测得日电度 PUE 值为 1.0955,是工信部数据中心标准化测试中最佳的测试结果。

青浦数据中心三联供技术解析

除技术上的演进外,近年腾讯 IDC 平台部在数据中心新能源领域也进行了最新的尝试。上周四,记者随行来到腾讯位于上海的青浦合建数据中心进行参观,也见证了腾讯在数据中心上的多项技术尝试与创新。整个青浦数据中心园区的规划包括:四栋数据中心楼、一栋配套业务楼、一座 35KV 变电站,一座三联供能源站,总共可容纳 10 万台服务器。位于一号数据中心楼的微模块数据机房,内有电力室、冷机房等重点基础设施。体现了模块化数据中心新的运营理念,和自动化监控管理模式。

这里再重点说说三联供能源站相关技术:

目前国内三联供的应用场景大致可分三类:第一类对三联供的要求较低,体量较小,典型的代表是一些办公园区;第二类场景规模体量较大,对三联供的持续性要求较高,典型代表是大型的工业园区;第三类除了体量大和持续性要求,还加入了对稳定性和突加载的要求,典型的代表就是数据中心。所以腾讯认为三联供是数据中心的实践,它代表成熟技术在新领域的应用。

在数据中心应用三联供技术,原因主要由二:电是数据中心最为主要的能源需求,在对电以及通过电产生冷供服务器采用上,三联供可通过燃气启动发电机,同时采用溴化锂机组将供电产生的余热回收制成冷供数据中心使用;其次是相比煤资源,三联供使用的清洁能源可以减少碳排放,实现绿色的数据中心。相对于传统数据中心标准的两路式电和后备电,青浦数据中心引入三联供制冷和供电能力,可以形成三者备份、补充的架构。

腾讯青浦数据中心主要承担了腾讯的游戏、微信等 To C 业务以及大量的 To B 业务。为保证数据中心整体的稳定运行能力,三联供在落地实践过程中也经历了大大小小的考验。例如,电供冷和三联供制冷对接,导致整个系统非常复杂,为了和市电错峰运行以达到更高的效果,整个供电中心的制冷需要进行两次切换,一次切换是在早上六点,另一次是在晚上十点,每一次切换对于数据中心的运行都是严重的考验。

面对一系列的考验,腾讯建立了一个体系和完善流程,从而确保三联供和数据中心产生 1+1>2 的效果。比如腾讯数据中心的高温设备巡检,使用热成像仪对高温设备监控来减少隐患,这样的改进可以有效的发现三联供在运行中的隐患。通过 7 大类共 52 个应急预案以及对相关人员运维水平和熟练度的各类演练,青浦数据中心可以有效降低三联供技术故障对业务带来的影响。青浦三联供运行至今,大大小小一共进行了 50 余次的演练,平均每周要进行两次演练,电制冷和溴化冷也进行了 200 余次。

此外,在新能源探索和使用上,青浦数据中心还布局了将近 3000┫的“光伏发电”系统。在参观时,腾讯数据中心高级工程师李典林也表示,未来腾讯或许会将数据中心和三联供技术进行结合:让三联供能源站内部对白天两者产生的电量进行调配,用光伏发电所产生的能源供给水泵等设备的消耗,从而不对整个“电池子”的总容量形成大量消耗。包括如果在未来加上储能电池,并将夜间低谷期的能源存储在电池中,即可作为“光伏发电”系统之外的另一大供电渠道。

据腾讯的相关统计,“三联供”投产后截至目前,平均每年节省标煤 3500t;CO2 排放量减少 2.33 万 t,减排约 48%;节能率超过 18%。“光伏发电”设计年均发电量也将超过 20 万 kwh。

正如腾讯数据中心高级数据中心经理许均在 6 月 15 日“第三届腾讯数据中心 & 云分享日暨 DCD 腾讯合作伙伴峰会”上所说的那样:“腾讯青浦数据中心,是用三联供技术并投入商业运用的国内第一个中心,在技术上和商业模式上都有很多的创新和突破,未来我们还有很多工作要做,很多功课要做,我们还在路上。”

腾讯数据中心自动化运维的实践

腾讯数据中心经过十八年的发展,积累了丰富的规划、设计和运营的经验,形成了清晰的技术发展线路。据了解,腾讯数据中心一直服务于腾讯自身业务,直到五年前才对外开放,并以云服务的方式将这种能力开放给全行业。

在对技术探索的过程中,数据中心需要管理对象的数量、规模及复杂度也在呈现指数级增长,这对自动化运维管理也提出了更高的要求,传统人工干预、保姆式管理监控与故障处理的方式已无法满足业务需要。自动化人工故障修复机制、日志和监控信息集中管理与控制、大数据的机器学习机制都是数据中心常用的几种现代运维新技术手段。

在腾讯数据中心的自动化运维实践中,其自主开发了“Nebula”自动化平台,对 IT 系统、制冷系统进行全覆盖。目前,“Nebula”系统架构由四部分组成:数据中心服务管理门户、资源管理门户、运营管理门户以及管控门户,因此其精细化运营之路也主要从这四个维度来开展。

当有报警时,报警会自动被送到事件处理模块中,引导相关人员完成故障分析和任务分工,完成故障设备隔离和恢复。其中频发问题会被系统送入问题管理模块,跟进解决,经验会被存储到运营知识库。例如在 2015 年天津 8·12 爆炸事件发生后,离爆炸中心不到 1.5 公里的腾讯天津滨海数据中心受损严重,在全部人员于两天内撤离的同时,“Nebula”系统则持续进行着远程无人值守,从而帮助腾讯将受影响的业务转移到深圳的数据中心,通过了实战的考验。

在“DCD 腾讯合作伙伴峰会”上,腾讯数据中心平台研发总监高江也为大家分享了腾讯数据中心在安防及视频数据过滤、基础设施运营及监控报警方面的一些实践。

数据中心的视频安防系统,主要会用于事后的问题分析和追踪。在庞大的视频数据中,腾讯会通过机器学习和识别等技术将风扇转动等无用的画面数据进行过滤,对其中近三成的真正有意义的数据重点关注。在整个视频监控系统中,可以通过人像识别技术和智能化分析技术来判定视频中出现人物及行为的合法性。

数据中心的基础设施都是相互关联、互相影响的主体,一个设备发生故障很有可能会导致下游一系列设备连带形成异常。因此,腾讯将基础设施的模型建立起来,清楚地描述他们的关系,当其中某个设备产生问题则可以进行固定定位,从而把无用的报警信息或由主动操作产生的异常和报警信息屏蔽掉。这样,基础设施报警精准则大大提升。

通过对数据中心运维海量数据的分析,利用大数据建模,自动化地、智能化地挖掘出更多高价值的、运维人员认知范围外的故障模式与系统优化模式,可以进一步提升系统运维的效率;通过大数据机器学习,对大规模运维场景下的性能与故障规律分析、趋势预测及故障根因识别定位,可以提升机器自动化运维的能力,可以大大减少数据中心的人力投入。以 InfoQ 记者参观的青浦数据中心为例,园区内需要巡视、维护、调控人员极少,除了在某些监控室及厂房,基本上是属于无人看守状态。

在专访中,腾讯数据中心负责人钟远河也表示:“自动化是数据中心的必由之路,而实现自动化的第一步就是要采集数据,制定统一标准,并根据业务需求进行不同的工作角色分工。”

共建数据中心和谐生态

腾讯目前在全球布局了 20 个大区、31 个可用区的集成数据中心,拥有超过 700 个 CDN 节点。“在支撑腾讯云发展的过程中,我们发现云对数据中心的需求也在分化,比较典型的有,公有云、混合云(黑石、托管)、金融云、高防云。”钟远河提出。

在此背景下,腾讯数据中心根据业务特性,提供垂直细分领域的解决方案,在保障安全性的同时,助力数字经济的多样化发展。如黑石和混合云的数据中心专区,重点从客户 IT 设备与基础设施适配性需求考虑;而金融云的机房,要求高安全、高可用性、在技术架构上更偏保守;而腾讯的高防云和高防数据中心,定位于军用级、高防护、高可用,为中国企业的核心数据和信息打造一个坚固安全的保险柜。

2017-06-20 08:585107
用户头像
Cherry倩芸 InfoQ高级策划编辑

发布了 51 篇内容, 共 21.4 次阅读, 收获喜欢 34 次。

关注

评论

发布
暂无评论
发现更多内容
揭秘腾讯数据中心十八年建设及运营实践_DevOps & 平台工程_Cherry倩芸_InfoQ精选文章