【QCon】精华内容上线92%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

探访华为云全球最大云数据中心,背后藏着这些“黑科技”

  • 2021-09-10
  • 本文字数:2320 字

    阅读完需:约 8 分钟

探访华为云全球最大云数据中心,背后藏着这些“黑科技”

新基建背景下,数据中心作为支撑新基建发展的重要 IT 基础设施,愈发受到重视。除三大运营商外,BAT 等互联网巨头近年也开始大力投入数据中心的建设和布局。近日,InfoQ 记者来到华为云贵安数据中心实地探访,进一步了解 AI 和大数据等技术在支撑超大型数据中心日常运转所发挥的作用。


坐落在贵安新区数谷大道 1 号的“童话小镇”,也是华为云全球最大云数据中心

 

2016 年,华为与贵州省政府签署战略合作协议,数据中心正式投建。目前华为云贵安数据中心一期已经投入使用,共建设有 9 栋机房,预计未来三到五年还会有更多机房建成。

 

据华为云营销部长董理斌介绍,贵安数据中心规划为华为全球最大的云数据中心,全部建成后可容纳 100 万台服务器。它也是华为云业务的重要承载节点,主要承载华为云、消费者云和华为内部流程 IT 等业务。“如果以贵州为中心,用一千公里画一个半径,贵安华为云数据中心的服务范围能够辐射到重庆、广西、广东、云南、四川等周边省份和地区。”

 

除了建设数据中心以外,华为云贵安数据中心还将承担华为全球 IT 维护工程师基地、员工培训实习基地的职能。预计将有约 600-800 位 IT 维护工程师对数据中心提供支持与服务,每年还将有大量人员到园区进行全景化实战培训、实习等。

 

当前,华为云在中国布局了五大数据中心,除了贵安和乌兰察布外,还有京津冀、长三角、粤港澳片区三大核心数据中心。在国内数据中心规划中,华为云主要基于时延来进行数据中心的冷、温、热布局,其中冷服务主要建在低成本地方,温服务贴近沿海的低成本地方,热服务则布局在贴近客户需求的地方。在海外,华为也在欧洲、中东、非洲、亚太、拉美等区域建立了本地数据中心。

 

在董理斌看来,当前数据中心及相关联产业目前仍处在飞速发展阶段。仅在贵州,华为云就已为超过 800 家贵州企业数字化转型提供服务,全省 62 家省直部门 1438 个数据资源都已上云。而据中国信息通信研究院数据,截至 2020 年底,我国在用数据中心机架总规模超过 400 万架,近 5 年年均增速超过 30%。

 

但数据中心产业快速发展的同时,也带来了能耗大幅增长的问题。据《中国数据中心能耗现状白皮书》,早在 2015 年,全国大数据中心的耗电量已达 1000 亿 kWh,相当于三峡电站全年的发电量;2018 年这个数值迅速爬升至 1609 亿 kWh,超过上海全年的社会用电量。

能耗问题如何破解?

 

今年 7 月 14 日,工业和信息化部印发《新型数据中心发展三年行动计划(2021-2023 年)》(以下简称“行动计划”)明确指出:到 2021 年底,全国数据中心平均利用率力争提升到 55%以上,总算力超过 120EFLOPS,新建大型及以上数据中心 PUE 降低到 1.35 以下;到 2023 年底,全国数据中心机架规模年均增速保持在 20%左右,平均利用率力争提升到 60%以上,新建大型及以上数据中心 PUE 降低到 1.3 以下,严寒和寒冷地区力争降低到 1.25 以下。

 

PUE,即 Power Usage Effectiveness,这是一项用于评价数据中心能源效率的指标,它的值取自数据中心消耗的所有能源(总能耗)与 IT 设备消耗的能源的比值。 其中数据中心总能耗包括 IT 设备能耗和制冷、配电等系统的能耗,因此 PUE 值通常大于 1,PUE 值越接近 1 表明非 IT 设备耗能越少,即能效水平越好。

 

华为云贵安数据中心的能效比 PUE 做到了 1.12,处于业界领先水平。董理斌在采访中向 InfoQ 表示,为了把 PUE 做到尽可能低,华为云采取了多重手段。

 

首先,数据中心选址贵安主要也是基于气候的考虑,贵安年均温度约 15℃,空气质量良好,没有化学、颗粒物污染,使采用直通风自然冷却成为可能。为了充分利用自然冷源,放置服务器的机房建筑相比其他普通建筑也做了一些特殊设计,包括更高的层高和用百叶窗替代普通窗户,而百叶窗背后其实就是一个个的机柜。冷风经大楼百叶窗送进机房,热风经热通道从楼顶排出。



 其次,数据中心设施区和办公区域采用中温冷冻水系统,散发的热量一部分通过瀑布和湖面实现自然冷却,另一个部分通过热回收技术用于游泳池和办公区冬季制热,实现余热回收,减少热损耗。此外还引入了服务器液冷技术,能够把热量直接从芯片上带走,减少制冷无关损耗,提升设备密度降低能效比。

 

AI 技术也在其中发挥了重要作用,基于 AI 技术能够实现随业务功率的变化实时调整制冷功率、削峰平谷,使各服务器负荷均衡,进一步提升资源使用效率比。同时在供电环节用功率半导体替换铜器件,结合智能算法,又能进一步降低供电损耗。

 

华为云称,在满负荷运行的情况下,预计每年可节省电力 10.1 亿度,减少碳排放 81 万吨,相当于年植树 3567 万棵。

智能运维:人均运维设备数量提升 10 倍

 

在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。如何用尽可能少的运维人员高效完成数据中心的运维工作,同样是一个非常大的挑战。

 

随着数据中心规模不断扩大,当故障发生时,想要在几十万甚至上百万台服务器中,通过人工来确定故障具体发生在哪个机房、哪个机柜、哪台机器,并找到出问题的具体原因,已经非常困难。为了解决这个问题,华为云结合智能传感和 IoT 等技术构建了数字孪生平台,可以实时显示数据中心环境和设备的状态,把供电和制冷全链路状态以及各模块每台服务器工作状态、工作温度全部可视化。


运行中的河图机器人


机房环境信息实时展示

 

结合华为河图虚拟增强现实技术,运维工程师可以非常方便地实时看到机柜温度、湿度、通风等机房环境信息,人均运维设备数量提升了 10 倍,故障定界定位时间也从 30 分钟大幅降低到 1 分钟。

 

据了解,河图是华为在 2019 年 8 月推出的底层技术平台,定位数据基础设施,其核心能力包括全场景空间计算能力、AR 步行导航、场景编辑、渲染等核心技术。

 

此外,借助大数据分析和 AI 技术,还可以提前分析可能存在的隐患,对基础设施故障进行预测并发布智能风险提醒,从而把运维工作从“被动”变为“主动”,防范于未然。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-09-10 09:063820
用户头像
蔡芳芳 InfoQ主编

发布了 778 篇内容, 共 488.5 次阅读, 收获喜欢 2745 次。

关注

评论

发布
暂无评论
发现更多内容

即刻报名,企业服务与新经济论坛亮点提前揭秘!

SelectDB

数据库 大数据 数据仓库 实时数仓 apache doris

DAPP智能合约双币质押挖矿项目系统开发

l8l259l3365

HarmonyOS音频开发指导:使用AVPlayer开发音频播放功能

HarmonyOS开发者

HarmonyOS

深入理解 Netty FastThreadLocal

vivo互联网技术

性能优化 Netty ThreadLocal 内存泄漏 FastThreadLocal

万字长文:拆解银行数智运营之困!

京东科技开发者

人工智能 数字化转型 金融 企业号10月PK榜

对话在行人|九州通:携手用友打造招聘共享中心实现招聘数智化

用友BIP

2023全球商业创新大会 对话在行人

用大模型Prompt解决行业问题

百度开发者中心

大模型训练 Prompt

即时通讯音视频开发(二十):一文读懂视频的颜色模型转换和色域转换

JackJiang

网络编程 即时通讯 IM

管控变更对提升质量的重要性

老张

质量保障 配置管理

Loopback for Mac(音频路由和虚拟音频设备软件) v2.3.2直装激活版

mac

苹果mac Windows软件 Loopback 虚拟音频软件

社区团购,拯救消费降级的利器

用友BIP

社区团购

研发日常踩坑-Mysql分页数据重复 | 京东云技术团队

京东科技开发者

MySQL 数据库 分页 企业号10月PK榜

云计算进入 AI 原生时代

Baidu AICLOUD

大模型 RDMA AI 原生云

IBM只有29%的职位看学历?基于技能的招聘到底是什么?

用友BIP

智能招聘

在Vue中使用Mock.js虚拟接口数据实例详解

树上有只程序猿

Vue Mock.js

不会写代码同学的福音——AI 代码生成器 Amazon CodeWhisperer(通过注释写代码)

亚马逊云科技 (Amazon Web Services)

人工智能 CodeWhisperer Amazon Lambda 云上探索实验室

中国水泥行业数字化采购:驱动产业链供应链现代化的关键

用友BIP

数智采购

高性能计算与多模态处理的探索之旅:英伟达GH200性能优化与GPT-4V的算力加速未来

蓝海大脑GPU

C4D 2024插件:Arnold for mac(C4D S2024阿诺德渲染器) v4.6.6.1完美激活版

mac

苹果mac Windows软件 Arnold for Cinema 4D C4D R24插件

梦幻西游手游详细图文架设教程

echeverra

梦幻西游

Mac电脑高效音频录制 Piezo 最新 for mac

mac大玩家j

Mac软件 音频录制软件 录音软件

和鲸ModelWhale与中科可控X系列异构加速服务器完成适配认证,搭载海光芯片,构筑AI算力底座

ModelWhale

gpu 服务器 信创 算力 数据科学

瑞技伙伴 | ZPE 带外管理方案,稳固您的IT世界

Bytebridge

数据中心 带外管理方案 ZPE

ABAQUS二次开发怎样接入Python代码?ABAQUS软件教程

思茂信息

abaqus abaqus软件 abaqus有限元仿真

峰会倒计时 3 天!互联网与文娱论坛演讲亮点预告!

SelectDB

数据库 大数据 数据仓库 实时数仓 apache doris

哪家堡垒机支持国密算法?有哪些功能?

行云管家

运维 堡垒机 安全运维 国密浏览器 国密算法

选择香港服务器发展线上业务的未来趋势:技术与市场的变化

一只扑棱蛾子

香港服务器

正确选择数据库安全运维平台的几个原则-行云管家

行云管家

数据库 数据安全 数据库安全 安全运维

腾讯云入选2023 Gartner分布式混合基础设施魔力象限

Geek_2d6073

注释在编程中的重要性:理解程序员的两难选择

小魏写代码

cpu温度监测推荐 Turbo Boost Switcher Pro激活最新版

胖墩儿不胖y

Mac软件 温度监测工具

探访华为云全球最大云数据中心,背后藏着这些“黑科技”_架构_蔡芳芳_InfoQ精选文章