写点什么

云原生 2.0 加速:分布式云探寻全面云化的通路

2021 年 6 月 03 日

云原生2.0加速:分布式云探寻全面云化的通路

企业数字化转型成为势不可挡的浪潮,尤其后疫情时代,各行各业都在积极数字化转型,谋求新的市场环境下的生存空间。据 Gartner 预测,2021 年中国 IT 支出将达到 3.09 万亿,相比 2020 年增长 7.7%。市场需求的不断升级,促使云基础设施服务市场快速响应。

 

经历以“设备”为中心的服务器阶段,以“资源”为中心的云化阶段,企业数字化转型进程如今来到以“应用”为中心的云原生化阶段。降低人力依赖度,提高资源运维效率,降低部署繁杂度,提高应用便捷度,以及更加智能和安全可信,成为“云原生 2.0”区别于此前的主要优势。

 

在 4 月 8 日的华为云 TechWave 全球技术峰会上,华为云对去年提出的“云原生 2.0”进行进一步解读:全面云化和全栈智能是实现企业数字化治理的基石。换句话说,迁移平滑、运维稳定、开发便捷则是企业数字化转型的底色,分布式云 x 云原生在当下普遍被认为是企业实现数字化治理的有效通路。

 

5 月 31 日,华为云线上举办 TechWave 云基础设施专题日,基于云基础设施新范式进一步解读分布式云、云原生基础设施产品及背后黑科技,首次亮相分布式云操作系统瑶光。

“一朵云”的关键特点

 

华为云分布式云具备四个关键特点:一张分布式网络满足便捷安全接入,一致运行环境构建无差别体验,一套管理体系应对精细化企业治理,一朵分布式云实现全场景覆盖。

具体而言,一张分布式网络,指的是实现企业 IDC 到公有云环境的便捷和安全接入,构建企业多种组网环境之间的高效互通;通过 VPC 云边内网互通,中心云服务与企业机房本地应用实现无缝互访,且可分钟级按需发放到边缘。

 

在华为云分布式云产品经理郑梁看来,这意味着物理分布,逻辑归一的分布式 IT 架构,典型场景如中心训练、边缘推理;本地数据脱敏后,还可以将数据回传中心数据湖,持续增加训练样本迭代优化。

 

这种分布式 IT 架构的实现,依托于华为云擎天架构,提供一致的运行环境。部署的便捷和运行的按需弹性服务,是分布式云给予的保证。在企业日常运营中,本地部署可以满足数据低延迟的诉求,一旦出现流量洪峰,本地数据库和中心 Region 协同工作,缓解流量压力。

 

由于企业所处行业、组织架构不同,满足统一资源统筹和业务管理的诉求往往不易实现。华为云基于自身实践和对政企客户的深入了解,推出基于分布式云的管理体系,通过 EPS 和 IAM 的能力,构建一张整体管理视图,在人、物、财三方面实现精细化权限管理,匹配企业多层级、多部门的组织模型和管理诉求;通过 RMS 和 CES 能力,对整个分布式云统一资源管理和运维监控,进行精细化治理。 

在不同业务场景的部署上,这朵分布式云有多种表现形式:中心 Region、智能边缘云 IEC、智能边缘小站 IES、智能边缘平台 IEF 和专属 Region。如果按照网络的概念来类比,中心云类似骨干网的核心节点,智能边缘云类似于城域网节点,各类企业的现场边缘类似于接入网。

 

其中,中心 Region,服务丰富,满足集约效应和规模弹性;智能边缘云 IEC 提供小于 10ms 网络接入时延,实现热点区域的广覆盖和多线接入能力,满足就近接入及稳定低时延诉求,据郑梁介绍,IEC 帮助国内某头部直播平台实现转码质量提高 20%,带宽成本节省 50%以上。

 

区别于前者,智能边缘小站 IES,把云服务延伸到企业数据中心,满足数据本地化和极低时延的要求,目前具备 4 节点起步的能力,可无缝拓展至 16 柜,支持 10+云服务,提供小于 5ms 的本地时延,能实现整柜到货、4 周内快速交付。中图云创通过本地部署智能边缘小站 IES,在落地“全景新阅读”的沉浸式体验时,为 VR 设备提供端到端<30ms 稳定低时延,节省 30%的带宽成本。智能边缘云 IEC 和边缘小站 IES 的运维皆由华为云来负责。

 

智能边缘平台 IEF 更轻量化,向上支撑应用,向下封装资源,目前支持包括电力、交通等行业在内的 200+智能应用。在已经落地的全国高速取消省界项目中,实现了 7.4 万边缘节点,48 万边缘应用“一张网”管理,比传统方式提效 10 倍,使车辆省界通行时间从 15s 降低到 2s。

 

专属 Region 主要面向大型政企治理诉求,提供全栈数字化转型底座。已经可以看到的实例是,中国一汽部署专属 Region 后,整体运维效率提升 40%,通过使用全栈云服务,满足了企业办公、数字化营销、车联网、智慧出行等业务部署的要求。

 

这些服务的实现,底层扎根于华为云擎天架构,顶层则依靠华为云瑶光分布式云操作系统的统一调度、管理和分发。

华为云的“智慧云脑”——瑶光分布式云操作系统

 

瑶光是华为云在 2019 年底发布的国内首个分布式云操作系统,相当于华为云的“智慧云脑”。

 

在整体设计上,华为云瑶光的关键架构包含多个层次:顶层是智能资源经营系统,二层是多目标优化系统,三层是全域调度系统,四层是对分式云站点管理,最小单元则是对多元硬件的管理,已经率先实现对 x86、鲲鹏、昇腾等多样性算力的兼容。这五层系统,基于端到端的仿真平台,进行算法的训练仿真与迭代,实现分布式云操作系统的自学习和自调优。

瑶光的存在,目标实现全域资源供给极优,多样性算力使用极简。其中一大的难点在于,公有云租户对于云厂商们而言,动态变化的陌生租户业务类似一个黑盒,难以进行有效画像和预测。针对这个问题,瑶光构建了端到端的资源控制系统。

 

其通过采集 CPU 微架构、利用率、操作系统内核等指标建立 QoS 量化模型,实时监测每个实例 QoS 干扰水平,然后通过将“对抗学习”和“知识迁移”相结合。其中,华为云自研的特征识别 CDA-WGAN 算法能将业务特征识别准确度提升 10%以上,瑶光使用的自研 METRO 多维时序预测算法,与常用的开源算法相比能提升 40%的准确,降低 70%的误差。

 

此外,为了真正实现“一朵云”的全域调度并保障确定性 SLA,华为云开发了调度算法 DQA。DQA 通过对网络服务质量、计算资源成本、云站点资源均衡度分别建模,并在收益函数中进行统一计算,帮助业务时延降低 40%,同时成本优化达到 33%。 同时,为了匹配动态业务诉求,华为云瑶光建立了包含机型设计、容量规划、资源分配等全链路仿真平台,为了匹配动态业务诉求,华为云瑶光建立了包含机型设计、容量规划、资源分配等全链路仿真平台。

 

华为云瑶光将“复杂”留给自身,将“简单”交给客户。

“简单”背后的黑科技,容器技术再革新 


长期以来,云原生落地的两大拦路虎是技术的和管理的复杂性,到目前为止的相关实践都是对这两大难题的不断解码。容器技术作为近两年的热门,是云原生基础设施的核心。为了实现计算、网络、调度上的全面进阶,华为云研发了容器集群 CCE Turbo,并在今年为其装配容器卸载技术。 

目前,华为云主要在 3 方面对容器引擎进行了优化,集群整体性能提升了 40%:瘦身容器引擎,剔除冗余部件,优化内部执行逻辑;大量优化 Kubernets 中的 Pod,如基于 rust 语言重写 shimv2 和 agent,减少进程数量;大量优化容器引擎代码减少内存消耗,提升容器的启动性能和 Cgroup 管理能力。

 

在网络加速方面,CCE Turbo 实现了容器到 VPC 的直接连通,弹性网卡 Trunkport 能力,并在此基础上对容器级的网络安全组的安全和效率进一步提升,新增安全组相关的 Kubernetes CRD 对象,简化容器安全访问规则配置。此外,华为云通过实现离线和在线业务的混合部署,及调度能力升级,提升集群资源利用率。

 

值得一提的是,在调度方面,CCE Turbo 实现了面向应用的智能化调度,通过 IO Aware 等调度算法优化、队列优化、Alloc_set 等策略,提升大数据和 AI 作业调度效率,将 AI、大数据类任务计算时间缩短 30%~40%。

 

此外,华为云此前联合合作伙伴共同发布云原生服务中心 OSC,建立云原生服务生命周期治理规范并对接华为云应用市场。据悉,OSC 规范下的云原生应用,可以发布到所有支持 Operator、HELM 标准的仓库中,同时,OSC 还自动对接华为云容器引擎、多云容器平台、监控、告警等服务,实现应用跨公有云、专属云全球化无差异部署。目前,已经有 130+数据库、中间件及行业应用基于 OSC 适配。 

基础能力全面升级,推新场景化解决方案


基于擎天架构,华为云基础能力迎来全面升级,在计算层面,发布全新的通用计算增强型云服务器 C7;在存储层面,对 SFS Turbo、Data+都进行了升级;在网络层面,发布独享型 ELB 和 CLOUD WAN 解决方案。其中,C7 在视频转码、图像渲染等场景性能提升了 30%,在 MySQL 等数据库场景性能上提升了 50%,在 Nginx 等网络服务器场景性能上提升了 60%。

此外,华为云还推出两款全新场景化解决方案:异构计算三维建模联合解决方案和 4K 影视云制作解决方案。其中,异构计算三维建模联合解决方案由华为云和瞰景科技联合打造,建模性能提升 30%,单次测量即可达到精度要求;4K 影视云制作解决方案可以帮助节目制作的端到端效率提升 30%,成本大幅降低,将大幅加速 4K 节目的普及。

 

帮助企业实现全面云化、拥有全栈智能的能力充满挑战,也是当下所有云服务商共同面临的长期课题。不局限交付位置,能够将公有云服务分发到业务所需位置,通过对不同节点统一管理,满足低延迟、本地化、多种混合场景的用户需求,分布式云 x 云原生的优越性已经显而易见。可以预见,分布式云 x 云原生的进展将在未来几年决定云的走向。

2021 年 6 月 03 日 16:501570

评论

发布
暂无评论
发现更多内容

甲方日常 65

句子

工作 随笔杂谈 日常

得不到提升的开发老鸟,试试这3个方法,让你事半功倍!

Linux服务器开发

程序员 互联网人 后端开发 底层应用开发 Linux服务器开发

老师讲的真棒!阿里P7级别面试经验总结,终获offer

欢喜学安卓

android 程序员 面试 移动开发

深入浅出 WebRTC AEC(声学回声消除)

阿里云视频云

音视频 WebRTC 音频技术

IO问题成顽疾,鹅厂专家来教你

数据君

数据库

开发实践丨用小熊派STM32开发板模拟自动售货机

华为云开发者社区

物联网 小熊派 开发板

关于Kubernetes和Docker关系的八个问题

杨明越

终于拿到蚂蚁金服Offer!!!分享一下全程面试题和面试经验!

小Q

Java 学习 编程 架构 面试

Java“基础-中级-高级”程序员面试大全

Crud的程序员

Java java程序员 java基础

电信新报告 | 数字化转型:搁置还是加速?

VoltDB

5G安全 通信 电子信息

老师讲的真棒!总结2020年最全180道Android岗面试题,Android校招面试指南

欢喜学安卓

android 程序员 面试 移动开发

网咯请求中的 connectTimeout 和 soTimeout

不在调上

没有它你的DevOps是玩不转的,你信不?

华为云开发者社区

容器 DevOps 微服务

专访 CNCF 大使张磊:让云原生不再是大厂专属

阿里巴巴云原生

开源 开发者 云原生 OAM CloudNative

高并发下,如何让你的数据库再快一点?

数据君

数据库

安装MySQL后,需要调整的10个性能配置项

Simon

MySQL percona server

不满意社区的轮子,我们自创了一套 React Hooks 风格的数据加载方案

LeanCloud

API React Hooks

英特尔携手德晟达、游密,发布云会议终端解决方案,打造视听新体验

新闻科技资讯

只需三步!慢日志去无踪

数据君

数据库

Redis为什么这么快?

数据君

redis

P8架构挑战:七大专题1425页考点,你能成功吗?

小Q

Java 学习 程序员 架构 面试

企业面临大危机,CRM崩溃告急,程序员竟用特殊手段化解危机!

Learun

敏捷开发 CRM

快速学会!啃完999页Android面试高频宝典,挥泪整理面经

欢喜学安卓

android 程序员 面试 移动开发

开发者,别让自己孤独

阿里巴巴云原生

开源 开发者 云原生 OAM CloudNative

JVM调优不知道怎么回答,阿里总结四大模块,学不会就背过来

小Q

Java 学习 架构 面试 JVM

疫情之下,被公司优化掉!同事大部分都去了创业型的公司,而我仅仅一年经验,却斩获多家大厂offer

Java~~~

Java java面试 架构师技能 面试程序员

时序数据库DolphinDB与Druid的对比测试

DolphinDB

数据分析 时序数据库 Druid 数据库选择 DolphinDB

数据库面试要点:关于MySQL数据库千万级数据查询和存储

华为云开发者社区

数据库 sql 存储

了不起!靠技术脱贫,他们只用了短短两年!

华为云开发者社区

人工智能 华为 技术

关于Redis分布式锁这一篇应该是讲的最好的了,赶紧收藏起来

比伯

Java 编程 架构 面试 技术宅

http client 中的 connectionRequestTimeout, connectTimeout, socketTimeout

不在调上

云原生2.0加速:分布式云探寻全面云化的通路-InfoQ