写点什么

云原生 2.0 加速:分布式云探寻全面云化的通路

  • 2021-06-03
  • 本文字数:3579 字

    阅读完需:约 12 分钟

云原生2.0加速:分布式云探寻全面云化的通路

企业数字化转型成为势不可挡的浪潮,尤其后疫情时代,各行各业都在积极数字化转型,谋求新的市场环境下的生存空间。据 Gartner 预测,2021 年中国 IT 支出将达到 3.09 万亿,相比 2020 年增长 7.7%。市场需求的不断升级,促使云基础设施服务市场快速响应。

 

经历以“设备”为中心的服务器阶段,以“资源”为中心的云化阶段,企业数字化转型进程如今来到以“应用”为中心的云原生化阶段。降低人力依赖度,提高资源运维效率,降低部署繁杂度,提高应用便捷度,以及更加智能和安全可信,成为“云原生 2.0”区别于此前的主要优势。

 

在 4 月 8 日的华为云 TechWave 全球技术峰会上,华为云对去年提出的“云原生 2.0”进行进一步解读:全面云化和全栈智能是实现企业数字化治理的基石。换句话说,迁移平滑、运维稳定、开发便捷则是企业数字化转型的底色,分布式云 x 云原生在当下普遍被认为是企业实现数字化治理的有效通路。

 

5 月 31 日,华为云线上举办 TechWave 云基础设施专题日,基于云基础设施新范式进一步解读分布式云、云原生基础设施产品及背后黑科技,首次亮相分布式云操作系统瑶光。

“一朵云”的关键特点

 

华为云分布式云具备四个关键特点:一张分布式网络满足便捷安全接入,一致运行环境构建无差别体验,一套管理体系应对精细化企业治理,一朵分布式云实现全场景覆盖。

具体而言,一张分布式网络,指的是实现企业 IDC 到公有云环境的便捷和安全接入,构建企业多种组网环境之间的高效互通;通过 VPC 云边内网互通,中心云服务与企业机房本地应用实现无缝互访,且可分钟级按需发放到边缘。

 

在华为云分布式云产品经理郑梁看来,这意味着物理分布,逻辑归一的分布式 IT 架构,典型场景如中心训练、边缘推理;本地数据脱敏后,还可以将数据回传中心数据湖,持续增加训练样本迭代优化。

 

这种分布式 IT 架构的实现,依托于华为云擎天架构,提供一致的运行环境。部署的便捷和运行的按需弹性服务,是分布式云给予的保证。在企业日常运营中,本地部署可以满足数据低延迟的诉求,一旦出现流量洪峰,本地数据库和中心 Region 协同工作,缓解流量压力。

 

由于企业所处行业、组织架构不同,满足统一资源统筹和业务管理的诉求往往不易实现。华为云基于自身实践和对政企客户的深入了解,推出基于分布式云的管理体系,通过 EPS 和 IAM 的能力,构建一张整体管理视图,在人、物、财三方面实现精细化权限管理,匹配企业多层级、多部门的组织模型和管理诉求;通过 RMS 和 CES 能力,对整个分布式云统一资源管理和运维监控,进行精细化治理。 

在不同业务场景的部署上,这朵分布式云有多种表现形式:中心 Region、智能边缘云 IEC、智能边缘小站 IES、智能边缘平台 IEF 和专属 Region。如果按照网络的概念来类比,中心云类似骨干网的核心节点,智能边缘云类似于城域网节点,各类企业的现场边缘类似于接入网。

 

其中,中心 Region,服务丰富,满足集约效应和规模弹性;智能边缘云 IEC 提供小于 10ms 网络接入时延,实现热点区域的广覆盖和多线接入能力,满足就近接入及稳定低时延诉求,据郑梁介绍,IEC 帮助国内某头部直播平台实现转码质量提高 20%,带宽成本节省 50%以上。

 

区别于前者,智能边缘小站 IES,把云服务延伸到企业数据中心,满足数据本地化和极低时延的要求,目前具备 4 节点起步的能力,可无缝拓展至 16 柜,支持 10+云服务,提供小于 5ms 的本地时延,能实现整柜到货、4 周内快速交付。中图云创通过本地部署智能边缘小站 IES,在落地“全景新阅读”的沉浸式体验时,为 VR 设备提供端到端<30ms 稳定低时延,节省 30%的带宽成本。智能边缘云 IEC 和边缘小站 IES 的运维皆由华为云来负责。

 

智能边缘平台 IEF 更轻量化,向上支撑应用,向下封装资源,目前支持包括电力、交通等行业在内的 200+智能应用。在已经落地的全国高速取消省界项目中,实现了 7.4 万边缘节点,48 万边缘应用“一张网”管理,比传统方式提效 10 倍,使车辆省界通行时间从 15s 降低到 2s。

 

专属 Region 主要面向大型政企治理诉求,提供全栈数字化转型底座。已经可以看到的实例是,中国一汽部署专属 Region 后,整体运维效率提升 40%,通过使用全栈云服务,满足了企业办公、数字化营销、车联网、智慧出行等业务部署的要求。

 

这些服务的实现,底层扎根于华为云擎天架构,顶层则依靠华为云瑶光分布式云操作系统的统一调度、管理和分发。

华为云的“智慧云脑”——瑶光分布式云操作系统

 

瑶光是华为云在 2019 年底发布的国内首个分布式云操作系统,相当于华为云的“智慧云脑”。

 

在整体设计上,华为云瑶光的关键架构包含多个层次:顶层是智能资源经营系统,二层是多目标优化系统,三层是全域调度系统,四层是对分式云站点管理,最小单元则是对多元硬件的管理,已经率先实现对 x86、鲲鹏、昇腾等多样性算力的兼容。这五层系统,基于端到端的仿真平台,进行算法的训练仿真与迭代,实现分布式云操作系统的自学习和自调优。

瑶光的存在,目标实现全域资源供给极优,多样性算力使用极简。其中一大的难点在于,公有云租户对于云厂商们而言,动态变化的陌生租户业务类似一个黑盒,难以进行有效画像和预测。针对这个问题,瑶光构建了端到端的资源控制系统。

 

其通过采集 CPU 微架构、利用率、操作系统内核等指标建立 QoS 量化模型,实时监测每个实例 QoS 干扰水平,然后通过将“对抗学习”和“知识迁移”相结合。其中,华为云自研的特征识别 CDA-WGAN 算法能将业务特征识别准确度提升 10%以上,瑶光使用的自研 METRO 多维时序预测算法,与常用的开源算法相比能提升 40%的准确,降低 70%的误差。

 

此外,为了真正实现“一朵云”的全域调度并保障确定性 SLA,华为云开发了调度算法 DQA。DQA 通过对网络服务质量、计算资源成本、云站点资源均衡度分别建模,并在收益函数中进行统一计算,帮助业务时延降低 40%,同时成本优化达到 33%。 同时,为了匹配动态业务诉求,华为云瑶光建立了包含机型设计、容量规划、资源分配等全链路仿真平台,为了匹配动态业务诉求,华为云瑶光建立了包含机型设计、容量规划、资源分配等全链路仿真平台。

 

华为云瑶光将“复杂”留给自身,将“简单”交给客户。

“简单”背后的黑科技,容器技术再革新 


长期以来,云原生落地的两大拦路虎是技术的和管理的复杂性,到目前为止的相关实践都是对这两大难题的不断解码。容器技术作为近两年的热门,是云原生基础设施的核心。为了实现计算、网络、调度上的全面进阶,华为云研发了容器集群 CCE Turbo,并在今年为其装配容器卸载技术。 

目前,华为云主要在 3 方面对容器引擎进行了优化,集群整体性能提升了 40%:瘦身容器引擎,剔除冗余部件,优化内部执行逻辑;大量优化 Kubernets 中的 Pod,如基于 rust 语言重写 shimv2 和 agent,减少进程数量;大量优化容器引擎代码减少内存消耗,提升容器的启动性能和 Cgroup 管理能力。

 

在网络加速方面,CCE Turbo 实现了容器到 VPC 的直接连通,弹性网卡 Trunkport 能力,并在此基础上对容器级的网络安全组的安全和效率进一步提升,新增安全组相关的 Kubernetes CRD 对象,简化容器安全访问规则配置。此外,华为云通过实现离线和在线业务的混合部署,及调度能力升级,提升集群资源利用率。

 

值得一提的是,在调度方面,CCE Turbo 实现了面向应用的智能化调度,通过 IO Aware 等调度算法优化、队列优化、Alloc_set 等策略,提升大数据和 AI 作业调度效率,将 AI、大数据类任务计算时间缩短 30%~40%。

 

此外,华为云此前联合合作伙伴共同发布云原生服务中心 OSC,建立云原生服务生命周期治理规范并对接华为云应用市场。据悉,OSC 规范下的云原生应用,可以发布到所有支持 Operator、HELM 标准的仓库中,同时,OSC 还自动对接华为云容器引擎、多云容器平台、监控、告警等服务,实现应用跨公有云、专属云全球化无差异部署。目前,已经有 130+数据库、中间件及行业应用基于 OSC 适配。 

基础能力全面升级,推新场景化解决方案


基于擎天架构,华为云基础能力迎来全面升级,在计算层面,发布全新的通用计算增强型云服务器 C7;在存储层面,对 SFS Turbo、Data+都进行了升级;在网络层面,发布独享型 ELB 和 CLOUD WAN 解决方案。其中,C7 在视频转码、图像渲染等场景性能提升了 30%,在 MySQL 等数据库场景性能上提升了 50%,在 Nginx 等网络服务器场景性能上提升了 60%。

此外,华为云还推出两款全新场景化解决方案:异构计算三维建模联合解决方案和 4K 影视云制作解决方案。其中,异构计算三维建模联合解决方案由华为云和瞰景科技联合打造,建模性能提升 30%,单次测量即可达到精度要求;4K 影视云制作解决方案可以帮助节目制作的端到端效率提升 30%,成本大幅降低,将大幅加速 4K 节目的普及。

 

帮助企业实现全面云化、拥有全栈智能的能力充满挑战,也是当下所有云服务商共同面临的长期课题。不局限交付位置,能够将公有云服务分发到业务所需位置,通过对不同节点统一管理,满足低延迟、本地化、多种混合场景的用户需求,分布式云 x 云原生的优越性已经显而易见。可以预见,分布式云 x 云原生的进展将在未来几年决定云的走向。

2021-06-03 16:502839

评论

发布
暂无评论
发现更多内容

pgsql数据库自动备份

衝鋒壹号

10月月更

Go设计模式“金旋风”——代理模式

Regan Yue

Go 设计模式 代理模式 10月月更

为什么大家偏爱怪异盒模型border-box?

茶无味的一天

CSS 前端 HTML5, CSS3

书单推荐|书籍是人类的良师益友

图灵社区

书单 教师节

【牛客刷题-算法】NC141 判断是否为回文字符串

清风莫追

数据结构 算法 刷题笔记 10月月更

【一Go到底】第六天---值类型、引用类型、标识符

指剑

Go golang 10月月更

GitHub上的宝藏级SpringBoot核心文档,拿走不谢!

Geek_0c76c3

Java 数据库 开源 程序员 开发

书单推荐|书籍是人类的良师益友

图灵教育

书单 教师节

二本Java菜鸟9面字节遭虐,苦修数月深造这份 Java面试宝典,终进阿里

程序知音

Java java面试 程序员面试 后端技术 Java面试八股文

踩上元宇宙的风口后,消费级AR眼镜真的复兴了吗?

脑极体

Qt|使用QuaZip压缩包中文乱码问题解决

中国好公民st

c++ qt 10月月更

2022-10-06:以下go语言代码输出什么?A:[1 2 3] [1 2 3] ;B:[1 2 3] [3 4 5]; C:[1 2 3] [3 4 5 6 7 8 9];D:[1 2 3] [3

福大大架构师每日一题

golang 福大大 选择题

浅谈中小企业如何正确选择网络营销模式

石头IT视角

【C语言难点突破】指针的常见易错点

Geek_65222d

10月月更

开发者有话说|在刷怪升级的成长路上,技术人应该掌握的三个大招

迷彩

个人成长 10月月更 学会学习 学会提问 学会思考

【结构体内功修炼】结构体实现位段(二)

Albert Edison

C语言 结构体 10月月更 位段

clickhouse准实时数仓能力探索

水滴

实时数仓 OLAP 数仓 10月月更 clickhosue

【Nacos源码之配置管理 三】TaskManager 任务管理的使用

石臻臻的杂货铺

nacos 10月月更

【Nacos源码之配置管理 四】DumpService如何将配置文件全部Dump到磁盘中

石臻臻的杂货铺

nacos 10月月更

【愚公系列】2022年10月 Go教学课程 020-Go容器之数组

愚公搬代码

10月月更

Vue项目处理错误上报如此简单

茶无味的一天

Vue 异常捕获

你的方案逻辑自洽吗?

老张

测试方案 思维逻辑

在Chrome浏览器中最快速实现拾色器(颜色吸管)

茶无味的一天

前端 谷歌浏览器

【牛客刷题-算法】加精 _ 合并两个有序的链表 - 从思路设计、bug排除到最终实现的全过程

清风莫追

算法 链表 算法数据结构 10月月更

Android Coder带你了解反射

子不语Any

后端 java; 10月月更

极客时间架构训练营模块二作业

李晨

架构

Redis--Redis事务及错误处理方式

Java学术趴

10月月更

Redis--Redis持久化方式

Java学术趴

10月月更

【Go实现】实践GoF的23种设计模式:访问者模式

元闰子

Go 设计模式 访问者模式

阿里P8面试官总结的《2022最新java面试题》,搞定90%以上的技术面

程序知音

Java 程序员面试 后端技术 Java面试题 Java面试八股文

【牛客刷题-算法】NC151 最大公约数

清风莫追

数据结构 算法 最大公约数 10月月更

云原生2.0加速:分布式云探寻全面云化的通路_服务革新_张俊宝_InfoQ精选文章