写点什么

揭秘腾讯数据中心十八年建设及运营实践

  • 2017-06-20
  • 本文字数:4410 字

    阅读完需:约 14 分钟

2000 年,腾讯第一个 IDC 在深圳东门建立,2012 年 9 月,第一个微模块数据中心在宝安落地。这中间,腾讯又相继建立了异地 IDC、海外 IDC、还包括自建数据中心和超大规模数据中心的上线和交付。十八年,腾讯在数据中心建设和运营上积累了一系列的实践经验,也在自主设计、自主建设领域已经取得了丰硕的成果。

腾讯四代数据中心的发展

  • 腾讯第一代数据中心在 2006 年前后起步,采用的是传统的电信解决方案,数据中心 PUE(能效比)在 1.6 左右;
  • 第二代数据中心以天津数据中心为代表,全面转向超大规模数据中心的建设,该代数据中心为 UPS 架构,采用了当时国际上最为先进的自然冷却等节能技术,PUE 降至 1.4;
  • 从 2012 年开始,腾讯开始自主研发以“微模块”为核心技术的第三代数据中心技术 TMDC;
  • 2015 年底,第四代腾讯数据中心 T-Block 技术正式推出,目前该代技术还仅处于试验阶段——进行不同环境下(如:南方湿热环境,西部凉爽环境)的小批量部署,验证间接蒸发冷却技术在不同环境下的节能效果,它带来的直接好处就是让数据中心标准化、模块化,效率更高,PUE 更低,快速地满足市场的需求。

据了解,去年 4 月,腾讯在贵阳建设了 T-Block 的试点项目(其内部称之为“T-Block 西部实验室”),通过此来验证 T-Block 的建设方式和其技术性能。西部实验室由八个模块组成,验证不同模块拼装实现的方式。未来 T-Block 技术将会规模化的在上海、深圳等地的数据中心投入实际运营。

在 TMDC 技术上,腾讯攻克了在建设成本、高压直流供电对 IT 设备的风险、与行业规范兼容、租电分离计费模式等一系列的难点,采用了通道封闭、高压直流、列间空调、简化的配电结构、气流组织优化等一系列节能环保关键技术。TMDC 的技术架构中,每个微模块都包含自身的配电、空调、消防和监测系统等,可以认为一个微模块就是一个微型的数据中心。同时,微模块也是一个完整的产品,像服务器一样,微模块的所有组件都在工厂预制和测试完成,到数据中心现场拼装完成即可投入使用,部署时间最短仅需要两个星期。

另外,相对于第二代数据中心,TMDC 还实现了去 UPS。作为一种体型庞大、操作复杂的供电设备,UPS 在数据中心内使用存有恶性事故隐患,通过“去 UPS”,TMDC 解决方案有效提升了数据中心运营整体的安全性。在 TMDC 解决方案中,服务器供电变成了市电直供加直流系统备份。

腾讯第三代数据中心 TMDC 技术组成

到了第四代 T-Block 数据中心的运行,腾讯主要基于两点技术实现更好的能效和性能:1、制冷系统采取间接蒸发冷却,配电系统继续沿用腾讯目前比较成熟的市电 +HVDC;2、通过标准模块化的供配电,短距离的热量传输路径。

去年年底,有媒体曝光过 T-block 数据中心的外观,其外表虽然看着是集装箱,但内部已进行大量的改装。它由若干个集装箱体拼接而成,包括了办公箱、供电模块箱、两个 IT 模块箱、制冷模块箱 A 和制冷模块箱 B 等。据了解,T-block 核心思路在于通过产品化手段解决数据中心建设问题。而这种思路也更贴近数据中心本质的功能属性:快速响应业务需求,提供一个稳定可靠的 IT 设备运行环境。

随着技术的不断成熟,腾讯数据中心的 PUE 值也在一次次的突破“极限”。腾讯第三代数据中心(TMDC)已经在腾讯自有业务和腾讯云业务上得到大规模应用,目前承载的服务器量超过 20 万台,实测平均 PUE 值 1.35 左右。2016 年 4 月,工信部电信研究院对腾讯 T-block 进行了 24 小时不间断带载测试,测得日电度 PUE 值为 1.0955,是工信部数据中心标准化测试中最佳的测试结果。

青浦数据中心三联供技术解析

除技术上的演进外,近年腾讯 IDC 平台部在数据中心新能源领域也进行了最新的尝试。上周四,记者随行来到腾讯位于上海的青浦合建数据中心进行参观,也见证了腾讯在数据中心上的多项技术尝试与创新。整个青浦数据中心园区的规划包括:四栋数据中心楼、一栋配套业务楼、一座 35KV 变电站,一座三联供能源站,总共可容纳 10 万台服务器。位于一号数据中心楼的微模块数据机房,内有电力室、冷机房等重点基础设施。体现了模块化数据中心新的运营理念,和自动化监控管理模式。

这里再重点说说三联供能源站相关技术:

目前国内三联供的应用场景大致可分三类:第一类对三联供的要求较低,体量较小,典型的代表是一些办公园区;第二类场景规模体量较大,对三联供的持续性要求较高,典型代表是大型的工业园区;第三类除了体量大和持续性要求,还加入了对稳定性和突加载的要求,典型的代表就是数据中心。所以腾讯认为三联供是数据中心的实践,它代表成熟技术在新领域的应用。

在数据中心应用三联供技术,原因主要由二:电是数据中心最为主要的能源需求,在对电以及通过电产生冷供服务器采用上,三联供可通过燃气启动发电机,同时采用溴化锂机组将供电产生的余热回收制成冷供数据中心使用;其次是相比煤资源,三联供使用的清洁能源可以减少碳排放,实现绿色的数据中心。相对于传统数据中心标准的两路式电和后备电,青浦数据中心引入三联供制冷和供电能力,可以形成三者备份、补充的架构。

腾讯青浦数据中心主要承担了腾讯的游戏、微信等 To C 业务以及大量的 To B 业务。为保证数据中心整体的稳定运行能力,三联供在落地实践过程中也经历了大大小小的考验。例如,电供冷和三联供制冷对接,导致整个系统非常复杂,为了和市电错峰运行以达到更高的效果,整个供电中心的制冷需要进行两次切换,一次切换是在早上六点,另一次是在晚上十点,每一次切换对于数据中心的运行都是严重的考验。

面对一系列的考验,腾讯建立了一个体系和完善流程,从而确保三联供和数据中心产生 1+1>2 的效果。比如腾讯数据中心的高温设备巡检,使用热成像仪对高温设备监控来减少隐患,这样的改进可以有效的发现三联供在运行中的隐患。通过 7 大类共 52 个应急预案以及对相关人员运维水平和熟练度的各类演练,青浦数据中心可以有效降低三联供技术故障对业务带来的影响。青浦三联供运行至今,大大小小一共进行了 50 余次的演练,平均每周要进行两次演练,电制冷和溴化冷也进行了 200 余次。

此外,在新能源探索和使用上,青浦数据中心还布局了将近 3000┫的“光伏发电”系统。在参观时,腾讯数据中心高级工程师李典林也表示,未来腾讯或许会将数据中心和三联供技术进行结合:让三联供能源站内部对白天两者产生的电量进行调配,用光伏发电所产生的能源供给水泵等设备的消耗,从而不对整个“电池子”的总容量形成大量消耗。包括如果在未来加上储能电池,并将夜间低谷期的能源存储在电池中,即可作为“光伏发电”系统之外的另一大供电渠道。

据腾讯的相关统计,“三联供”投产后截至目前,平均每年节省标煤 3500t;CO2 排放量减少 2.33 万 t,减排约 48%;节能率超过 18%。“光伏发电”设计年均发电量也将超过 20 万 kwh。

正如腾讯数据中心高级数据中心经理许均在 6 月 15 日“第三届腾讯数据中心 & 云分享日暨 DCD 腾讯合作伙伴峰会”上所说的那样:“腾讯青浦数据中心,是用三联供技术并投入商业运用的国内第一个中心,在技术上和商业模式上都有很多的创新和突破,未来我们还有很多工作要做,很多功课要做,我们还在路上。”

腾讯数据中心自动化运维的实践

腾讯数据中心经过十八年的发展,积累了丰富的规划、设计和运营的经验,形成了清晰的技术发展线路。据了解,腾讯数据中心一直服务于腾讯自身业务,直到五年前才对外开放,并以云服务的方式将这种能力开放给全行业。

在对技术探索的过程中,数据中心需要管理对象的数量、规模及复杂度也在呈现指数级增长,这对自动化运维管理也提出了更高的要求,传统人工干预、保姆式管理监控与故障处理的方式已无法满足业务需要。自动化人工故障修复机制、日志和监控信息集中管理与控制、大数据的机器学习机制都是数据中心常用的几种现代运维新技术手段。

在腾讯数据中心的自动化运维实践中,其自主开发了“Nebula”自动化平台,对 IT 系统、制冷系统进行全覆盖。目前,“Nebula”系统架构由四部分组成:数据中心服务管理门户、资源管理门户、运营管理门户以及管控门户,因此其精细化运营之路也主要从这四个维度来开展。

当有报警时,报警会自动被送到事件处理模块中,引导相关人员完成故障分析和任务分工,完成故障设备隔离和恢复。其中频发问题会被系统送入问题管理模块,跟进解决,经验会被存储到运营知识库。例如在 2015 年天津 8·12 爆炸事件发生后,离爆炸中心不到 1.5 公里的腾讯天津滨海数据中心受损严重,在全部人员于两天内撤离的同时,“Nebula”系统则持续进行着远程无人值守,从而帮助腾讯将受影响的业务转移到深圳的数据中心,通过了实战的考验。

在“DCD 腾讯合作伙伴峰会”上,腾讯数据中心平台研发总监高江也为大家分享了腾讯数据中心在安防及视频数据过滤、基础设施运营及监控报警方面的一些实践。

数据中心的视频安防系统,主要会用于事后的问题分析和追踪。在庞大的视频数据中,腾讯会通过机器学习和识别等技术将风扇转动等无用的画面数据进行过滤,对其中近三成的真正有意义的数据重点关注。在整个视频监控系统中,可以通过人像识别技术和智能化分析技术来判定视频中出现人物及行为的合法性。

数据中心的基础设施都是相互关联、互相影响的主体,一个设备发生故障很有可能会导致下游一系列设备连带形成异常。因此,腾讯将基础设施的模型建立起来,清楚地描述他们的关系,当其中某个设备产生问题则可以进行固定定位,从而把无用的报警信息或由主动操作产生的异常和报警信息屏蔽掉。这样,基础设施报警精准则大大提升。

通过对数据中心运维海量数据的分析,利用大数据建模,自动化地、智能化地挖掘出更多高价值的、运维人员认知范围外的故障模式与系统优化模式,可以进一步提升系统运维的效率;通过大数据机器学习,对大规模运维场景下的性能与故障规律分析、趋势预测及故障根因识别定位,可以提升机器自动化运维的能力,可以大大减少数据中心的人力投入。以 InfoQ 记者参观的青浦数据中心为例,园区内需要巡视、维护、调控人员极少,除了在某些监控室及厂房,基本上是属于无人看守状态。

在专访中,腾讯数据中心负责人钟远河也表示:“自动化是数据中心的必由之路,而实现自动化的第一步就是要采集数据,制定统一标准,并根据业务需求进行不同的工作角色分工。”

共建数据中心和谐生态

腾讯目前在全球布局了 20 个大区、31 个可用区的集成数据中心,拥有超过 700 个 CDN 节点。“在支撑腾讯云发展的过程中,我们发现云对数据中心的需求也在分化,比较典型的有,公有云、混合云(黑石、托管)、金融云、高防云。”钟远河提出。

在此背景下,腾讯数据中心根据业务特性,提供垂直细分领域的解决方案,在保障安全性的同时,助力数字经济的多样化发展。如黑石和混合云的数据中心专区,重点从客户 IT 设备与基础设施适配性需求考虑;而金融云的机房,要求高安全、高可用性、在技术架构上更偏保守;而腾讯的高防云和高防数据中心,定位于军用级、高防护、高可用,为中国企业的核心数据和信息打造一个坚固安全的保险柜。

2017-06-20 08:584566
用户头像
Cherry倩芸 InfoQ高级策划编辑

发布了 51 篇内容, 共 20.1 次阅读, 收获喜欢 34 次。

关注

评论

发布
暂无评论
发现更多内容

最佳代码扫描工具,实现自动化代码扫描服务

阿里云云效

云计算 阿里云 开发 代码扫描 代码安全

教你识别一些sequence的相关问题

华为云开发者联盟

序列 GaussDB(DWS) sequence GTM bind关系

大数据培训Hive 提高查询效率的方法

@零度

hive 大数据开发

企业和团队如何创建高效实用的知识管理体系

小炮

知识管理 企业

适合 Kubernetes 初学者的一些实战练习(一)

Jerry Wang

云原生 #Kubernetes# Kubernetes 集群 Serverless Kubernetes 3月月更

适合 Kubernetes 初学者的一些实战练习(二)

Jerry Wang

Kubernetes 云原生 Kubernetes 集群 Serverless Kubernetes 3月月更

重视软件开发的黑匣子

菜根老谭

bug 系统安全 程序日志

阿里代码依赖漏洞检测服务,高效杜绝代码安全隐患

阿里云云效

云计算 阿里云 云原生 代码安全 依赖漏洞检测

TDengine 在蔚来能源系统的落地实践

TDengine

数据库 tdengine

洞见科技参编的中国信通院《联邦学习场景应用研究报告》正式发布

洞见科技

联邦学习 隐私计算 中国信通院 洞见科技

web前端培训使用 Vue3来实现文章目录功能

@零度

Vue 前端开发

Apache ShardingSphere 首篇论文被 ICDE 收录,全球数据库发展迎来新局面

SphereEx

数据库 ShardingSphere SphereEx apache 社区

直播回顾|TGIP-CN 036:Apache Pulsar 最新技术进展与动态

Apache Pulsar

开源 云原生 中间件 Apache Pulsar Apache Pulsar 社区

什么是分支模式 ? 各(类)分支正确的使用方式

阿里云云效

云计算 阿里云 云原生 Feature 分支模式

电商系统微服务拆分

Geek_8d5fe5

「架构实战营」

AliSSR 语音超分算法:让在线会议语音更明亮更自然

阿里云视频云

阿里云 音视频 智能降噪 音频3A 音频算法

【前端架构必备】手摸手带你搭建一个属于自己的脚手架

战场小包

前端 脚手架 3月月更

go 1.18 bufio 包中的 Writer.AvailableBuffer

黑客不够黑

go 1.18 Writer.AvailableBuffer

RocketMQ 开源爱好者请注意邀您共探行业应用与生产实践

阿里巴巴云原生

ABAP 简易弹出输出/输入框

Jasen Ye

Input abap decide CONFIRM

表数据都删了一半,可我的表文件咋还是那么大

华为云开发者联盟

MySQL 文件 innodb 数据页

一文了解MySQL的Buffer Pool

华为云开发者联盟

MySQL 缓存 缓冲池 Buffer Pool 脏页

《LeetCode刷题报告》题解内容Ⅰ

謓泽

3月月更

时间轮原理及其在框架中的应用

vivo互联网技术

服务器 时间轮

面试突击34:如何使用线程池执行定时任务?

王磊

java面试

java培训JVM面试题分享

@零度

JVM JAVA开发

DDoS攻击与防范策略

喀拉峻

网络安全 信息安全 DDoS

ModStartCMS模块化建站系统 v3.6.0 内容标签增强,电脑手机适配

ModStart开源

【高并发】解密导致并发问题的第二个幕后黑手——原子性问题

冰河

并发编程 多线程 协程 异步编程 精通高并发系列

实时渲染大赛结果将于3月31日晚8点B站直播公布,敬请期待!

3DCAT实时渲染

实时渲染 3D动画

哈尔滨市消防救援支队:用宜搭打造消防智慧大脑,守护冰城平安

一只大光圈

低代码 数字化 消防 钉钉宜搭

揭秘腾讯数据中心十八年建设及运营实践_DevOps & 平台工程_Cherry倩芸_InfoQ精选文章