阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

K8s 容器设计模式实践,分散收集模式

  • 2016-11-27
  • 本文字数:8058 字

    阅读完需:约 26 分钟

《Kubernetes 与云原生应用》专栏是 InfoQ 向轻元科技首席架构师王昕约稿的系列文章。本专栏包含 8 篇内容,将会从介绍和分析 Kubernetes 系统以及云原生应用入手,逐步推出基于 Kubernetes 的容器设计模式实践案例,希望对计划应用 Kubernetes 的朋友有所帮助。本文是该专栏的第 7 篇。

  1. Kubernetes 系统架构与设计理念

  2. 云原生应用的设计理念与挑战

  3. Kubernetes 与云原生应用的容器设计模式

  4. Kubernetes 容器设计模式实践案例 - 单节点多容器模式

  5. Kubernetes 容器设计模式实践案例 - 多节点选举模式

  6. Kubernetes 容器设计模式实践案例 - 工作队列模式

  7. Kubernetes 容器设计模式实践案例 - 分散收集模式

  8. 云原生应用的容器设计模式综述与展望

K8s 与容器设计模式

目前 K8s 社区推出的容器设计模式主要分为三大类:第一类,单容器管理模式;第二类,单节点多容器模式;第三类,多节点多容器模式;一类比一类更复杂。根据复杂性的不同,本系列文章给出不同篇幅的实践案例介绍。

云计算跟分布式系统是一个事物的两种解读:云计算是面子,分布式系统是里子。云计算给用户刻画出的是方便的、弹性的、自动化的随时随地可以得到的信息处理服务;而后台,需要云平台背后的研发和运维工程师创建维护好一个复杂的分布式系统。本系列文章所推出的容器设计模式,旨在将分布式系统,特别是将分布式应用模式化,简化分布式系统的创建和维护。

本文将介绍容器设计模式的最后一种,分散收集模式。这是最复杂的一种,但也是最具通用意义的一种模式。分散收集模式先将服务扇出到多个微服务实例上做独立处理,再将所有处理结果扇入到一个逻辑根微服实例上作合并,以此来完成对一个复杂问题的处理;这和数学和计算机算法中的分治法非常相似。这一模式对利用 k8s 平台运行分布式系统有普遍应用价值。

分散收集模式

分散收集模式利用分布式系统弹性计算能力的容器设计模式。在这一模式中,计算服务的使用者,即服务的客户端,将初始计算请求发送给一个“根计算节点”。根计算节点对计算任务做出分割,将任务分割成大量的小计算任务,然后将小计算任务分配给大量计算服务器进行分布式平行计算 。每个计算服务器都计算初始计算任务的一小块,将计算结果返回给根计算节点。根计算节点将所有计算结果合并起来,组成一个针对初始计算任务的一个统一的结果,返回给申请计算任务的客户端。

这一系统中的分布式服务器非常适合用容器技术来实现,具体到 K8s 系统中,就是一个 K8s 的 Pod;具体到 Docker 系统中,就是一个 Docker 容器。利用容器快速部署启动和运行时开销特别小的特点,任务可以被分到很多小服务器上并行处理,这些容器形成的小服务器跟其他任务共同使用基础设施计算节点的能力。

一个典型的分散收集模式的分布式系统如图 Fig01 所示。根节点接受到来自客户端的服务请求,将服务请求分配给不同的业务模块分散处理,处理结果收集到根节点,经过一定的汇聚合并运算,产生一个合并的结果交付给客户端。

Fig01 分散收集模式示意图

本文中案例的代码

本文中使用的代码在 Github 仓库: https://github.com/xwangqingyuan/metaparticle

本文中使用的代码主要以 metapaticle 项目为基础: https://github.com/brendandburns/metaparticle

本文作者在此基础上增加了用于演示 scatter gather 容器模式的案例,在 https://github.com/xwangqingyuan/metaparticle/tree/master/examples 目录下

分布式计算模式项目 Metapaticle

Metapaticle 项目的目的在开发并展示一种基础设施即代码的编程模式,力图将基础设施管理逻辑和功能运算逻辑以同一种语言实现在同一短小精干的程序中。

在分布式计算系统中,不仅功能性计算的逻辑是重要的,对计算系统的逻辑拓扑结构的控制也是重要的。大家可以想象,依靠流行大数据分析框架 Hadoop MapReduce,Spark,Storm 和 Flink 等进行分布式大数据运算,代码中往往包含逻辑拓扑结构的逻辑。

在以往的分布式计算特别是云计算体系中,大多将基础设施管理的逻辑由配置文件和自动化运维工具来配置,而功能运算逻辑由通用的编程语言来控制。这一模式也比较符合过去基础设施管理逻辑和功能运算逻辑的特点。

在过去,基础设施相对固定,变化较小,因此用来管理它的配置文件和自动化运维工具不需要支持太强大的动态逻辑功能;另一方面,过去大多数编程语言的抽象度和表达能力较底层,以命令式的编程范式为主;因此,功能运算逻辑和基础设施管理逻辑相距较远。即便如此,当开发人员开始运维自己的软件系统时,不可避免地将同时用两种语言分别管理基础设施和功能运算逻辑,往往给开发人员带来不舒服的感觉。

随着云计算特别是容器技术的流行,计算机系统的基础设施越来越动态,人们对基础设施管理控制的逻辑控能力要求越来越大。同时,随着计算机语言的发展,函数式编程,声明式语言越来越收到开发人员的熟悉;人们越来越倾向于使用高抽象度的、高表达力的函数式编程模式甚至声明式语言来快速地实现功能逻辑,使得很多应用功能逻辑的代码看上去越来越简单得像“配置文件”。这样,对基础设施管理逻辑控制能力的需求和对功能运算逻辑控制能力的需求似乎越来越接近了。

在这种背景下,metaparticle 项目被设计用来探索将基础设施管理逻辑和功能运算逻辑以同一种编程语言来实现的模式。正像我们提到的,随着云计算和容器的发展,基础设施管理逻辑和功能运算逻辑越来越融合成一个整体的分布式计算任务。Metaparticle 谋求的正是用同一种语言搞定一个整体的计算任务。

目前 metaparticle 主要支持 javascript 语言,主要是利用它的简单性和它对函数式编程的支持。当然,按照 metaparticle 的设计思想,未来 Python,Scala,Swift 这些较高级的语言都可是用来实现 metaparticle 的模式。Metaparticle 的设计思想在于用同一种语言完成同一个分布式计算任务,但是并不会谋求限制到某一种特定语言。Metaparticle 项目还很初级,主要对我们的帮助还是试验和启发作用。

Metaparticle 支持 3 种分布式系统的服务模式:分散收集模式(Scatter/Gather)、分片模式(Shard)和水平扩展模式(Spread)。其中分散收集模式是更具通用性的一种模式,正好也是本系列文章中准备介绍的最后一种容器设计模式,也是最复杂的一种设计模式。本文中针对分散收集模式的演示案例,以 metaparticle 为基础,先要通过 nodejs 的包管理工具安装 metaparticle 模块,然后通过 node 来试验本文中的案例。

安装 Metaparticle

本文中的演示案例以 Metaparticle 的 Scatter/Gather 模式为基础,要安装可参照文件 https://github.com/xwangqingyuan/metaparticle/blob/master/README.md 和 https://github.com/xwangqingyuan/metaparticle/blob/master/examples/server1.md

要通过 NPM 安装 Metaparticle,可以直接运行:

复制代码
$ npm install metaparticle

也可以下载代码后,通过本地代码安装:

复制代码
$ git clone <a href="https://github.com/xwangqingyuan/metaparticle.git"><u>https://github.com/xwangqingyuan/metaparticle.git</u></a>
$ npm install ./metaparticle/

在安装过程中如果碰到缺少的nodejs module,直接用npm install即可。

通过分散收集计算正态分布(高斯分布)的统计特性

在本演示案例中,利用分散收集模式模拟展示一个正态分布的统计直方图。

计算高斯分布的示例代码文件 scatter-gather-gaussian.js 清单。

复制代码
// Import the main library
var mp = require('metaparticle');
// A simple function for calculating a Gaussian distributed value
// from a uniform random value
var gaussian = function (sigma, mean) {
var u1 = 2 * Math.PI * Math.random();
var u2 = -2 * Math.log(Math.random());
var n = Math.sqrt(u2) * Math.cos(u1);
return n * sigma + mean;
};
// This function is executed on each leaf
var leafFunction = function (data) {
var result = { 'n': [] };
for (var i = 0; i < 100; i++) {
result.n.push(gaussian(25, 100));
}
return result;
};
// This function is executed on each root
var mergeFunction = function (responses) {
var histogram = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0];
for (var i = 0; i < responses.length; i++) {
for (var j = 0; j < responses[i].n.length; j++) {
if (responses[i].n < 0 || responses[i].n > 200) {
continue
}
var ix = Math.floor(responses[i].n[j] / 20);
histogram[ix]++;
}
}
return histogram;
};
var svc = mp.service(
// name of the service
"histogram-service",
// library function that creates a scatter/gather service
mp.scatter(10, leafFunction, mergeFunction));
// Expose the root service to the world
svc.subservices.gather.expose = true;
// And serve
mp.serve();

在本例中,根服务器将计算任务分配给 10 个叶子服务器计算。方法mp.scatter用来调度整体的分布式计算。方法mp.scatter的第一个参数是分片的个数,第 2 个参数是叶子服务器的计算函数leafFunction,第 3 个参数是根服务器合并的计算函数mergeFunction

在本例中,每个叶子节点都模拟一个方差为 25,均值为 100 的正态分布随机变量。计算函数leafFunction用来产生 100 个随机变量,计算函数mergeFunction用来合并所有子节点的随机变量,统计这些随机变量的样本值处在不同区间的个数。

启动分散收集模式计算高斯分布的服务器端容器服务。

复制代码
xwang@dev-xwang:/gitws/github.com/xwangqingyuan/metaparticle/examples$
node scatter-gather-gaussian.js
building image (this may take a bit)
building image done.
deploying

运行客户端程序发送请求计算统计结果。

复制代码
xwang@dev-xwang:/gitws/github.com/xwangqingyuan/metaparticle/examples$
node client.js histogram-service
[0,4,55,139,296,284,160,53,9,0]

通过计算结果可以看到,正如一般正态分布所预期的一样,正态分布的主要样本个数集中在直方图中间的部分296 和 284,越向两边样本个数越少。

停止并删除分散收集模式的服务器端容器服务。

复制代码
xwang@dev-xwang:/gitws/github.com/xwangqingyuan/metaparticle/examples$
node scatter-gather-gaussian.js delete

通过分散收集计算均匀分布的统计特性

在本例中,每个叶子节点都模拟一个处于 0 到 200 之间的均匀分布的随机变量。计算函数leafFunction用来产生 100 个随机变量,计算函数mergeFunction用来合并所有子节点的随机变量,统计这些随机变量的样本值处在不同区间的个数。

计算均匀分布的示例代码文件 scatter-gather-uniform.js 清单。

复制代码
// Import the main library
var mp = require('metaparticle');
// A simple function to caculate a uniform integer
var uniform = function (lower, upper) {
return Math.round(lower + (upper-lower)*Math.random());
};
// This function is executed on each leaf
var leafFunction = function (data) {
var result = { 'n': [] };
for (var i = 0; i < 100; i++) {
result.n.push(uniform(0, 200));
}
return result;
};
// This function is executed on each root
var mergeFunction = function (responses) {
var histogram = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0];
for (var i = 0; i < responses.length; i++) {
for (var j = 0; j < 10; j++) {
histogram[j] += responses[i].n[j];
}
}
return histogram;
};
var svc = mp.service(
// name of the service
"histogram-service",
// library function that creates a scatter/gather service
mp.scatter(10, leafFunction, mergeFunction));
// Expose the root service to the world
svc.subservices.gather.expose = true;
// And serve
mp.serve();

启动分散收集模式计算均匀分布的服务器端容器服务。

复制代码
xwang@dev-xwang:/gitws/github.com/xwangqingyuan/metaparticle/examples$
node scatter-gather-uniform.js.js
building image (this may take a bit)
building image done.
deploying

运行客户端程序发送请求计算统计结果。

复制代码
xwang@dev-xwang:/gitws/github.com/xwangqingyuan/metaparticle/examples$
node client.js histogram-service
[1244,980,1066,961,679,1097,825,1021,719,911]

通过计算结果可以看到,正如一般均匀分布所预期的一样,均匀分布的主要样本个数在 10 个收集得到的样本区间分布比较均匀,围绕平均数 1000 上下波动。

停止并删除分散收集模式的服务器端容器服务。

复制代码
xwang@dev-xwang:/gitws/github.com/xwangqingyuan/metaparticle/examples$
node scatter-gather-uniform.js delete

通过分散收集计算整数中的数字出现频率

在本例中,利用分散收集模式,模拟统计一系列整数的 10 进制占位数字的统计特性。

在本例中,每个叶子节点都计算 100 个处于 0 到 100 之间的均匀分布的整数的所有占位数字的出现次数,例如 56 这个整数,有 5 和 6 两个数字,会给 5 和 6 这两个数字的次数分别增加 1。计算函数leafFunction用来产生 100 个随机变量,并统计这 100 个随机变量的数字(0-9)出现次数,计算函数mergeFunction用来合并所有子节点的计算的出现次数,计算出总的出现次数。

计算整数中的数字出现频率的示例代码文件 scatter-gather-count-digit.js 清单。

复制代码
// Import the main library
var mp = require('metaparticle');
// A simple function to caculate a uniform integer
var uniform = function (lower, upper) {
return Math.round(lower + (upper-lower)*Math.random());
};
// This function is executed on each leaf
var leafFunction = function (data) {
var result = {'n': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]};
for (var i = 0; i < 100; i++) {
var num = uniform(0, 100);
var str = "" + num;
for (var j = 0; j < str.length; j++) {
var digit = parseInt(str.charAt(j));
result.n[digit]++;
}
}
return result;
};
// This function is executed on each root
var mergeFunction = function (responses) {
var histogram = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0];
for (var i = 0; i < responses.length; i++) {
for (var j = 0; j < 10; j++) {
histogram[j] += responses[i].n[j];
}
}
return histogram;
};
var svc = mp.service(
// name of the service
"histogram-service",
// library function that creates a scatter/gather service
mp.scatter(10, leafFunction, mergeFunction));
// Expose the root service to the world
svc.subservices.gather.expose = true;
// And serve
mp.serve();

启动分散收集模式计算高斯分布的服务器端容器服务。

复制代码
xwang@dev-xwang:/gitws/github.com/xwangqingyuan/metaparticle/examples$
node scatter-gather-count-digit.js
building image (this may take a bit)
building image done.
deploying

运行客户端程序发送请求计算统计结果。

复制代码
xwang@dev-xwang:/gitws/github.com/xwangqingyuan/metaparticle/examples$
node client.js histogram-service
[83,184,178,196,207,202,204,231,205,196]

通过计算结果可以看到,在所有数字中,1-9 的数字出现频率是比较接近的,大概在 200 左右,而 0 作为数字出现频率是较低的,大概少 100 个左右,这是因为 0 不会作为首位数字出现。

停止并删除分散收集模式的服务器端容器服务。

复制代码
xwang@dev-xwang:/gitws/github.com/xwangqingyuan/metaparticle/examples$
node scatter-gather-count-digit.js delete

通过分散收集计算整数末尾数字的出现频率

在本例中,利用分散收集模式,模拟统计一系列整数的 10 进制末尾数字的出现。

在本例中,每个叶子节点都计算 100 个处于 0 到 100 之间的 5 的倍数的末尾数字的出现频率。计算函数leafFunction用来产生 100 个随机变量,并统计这 100 个随机变量的数字(0-9)出现次数,计算函数mergeFunction用来合并所有子节点的计算的出现次数,计算出总的出现次数。

计算高斯分布的示例代码文件 scatter-gather-count-last-digit.js 清单。

复制代码
// Import the main library
var mp = require('metaparticle');
// A simple function to caculate a uniform integer
var uniform = function (lower, upper) {
return Math.round(lower + (upper-lower)*Math.random());
};
// This function is executed on each leaf
var leafFunction = function (data) {
var result = {'n': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]};
for (var i = 0; i < 100; i++) {
var num = uniform(0, 20)*5;
var str = "" + num;
var digit = parseInt(str.charAt(str.length-1));
result.n[digit]++;
}
return result;
};
// This function is executed on each root
var mergeFunction = function (responses) {
var histogram = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0];
for (var i = 0; i < responses.length; i++) {
for (var j = 0; j < 10; j++) {
histogram[j] += responses[i].n[j];
}
}
return histogram;
};
var svc = mp.service(
// name of the service
"histogram-service",
// library function that creates a scatter/gather service
mp.scatter(10, leafFunction, mergeFunction));
// Expose the root service to the world
svc.subservices.gather.expose = true;
// And serve
mp.serve();

启动分散收集模式计算高斯分布的服务器端容器服务。

复制代码
xwang@dev-xwang:/gitws/github.com/xwangqingyuan/metaparticle/examples$
node scatter-gather-count-last-digit.js
building image (this may take a bit)
building image done.
Deploying
复制代码
运行客户端程序发送请求计算统计结果。
复制代码
xwang@dev-xwang:/gitws/github.com/xwangqingyuan/metaparticle/examples$
node client.js histogram-service [495,0,0,0,0,505,0,0,0,0]

通过计算结果可以看到,在所有数字中,0 和 5 的作为末尾数字占据了所有出现次数,各占出现频率的一半,而其他数字不会作为末尾数字出现;这很显然,因为这里统计的所有整数都是 5 的倍数。

停止并删除分散收集模式的服务器端容器服务。

复制代码
xwang@dev-xwang:/gitws/github.com/xwangqingyuan/metaparticle/examples$
node scatter-gather-count-last-digit.js delete

总结

本文主要介绍了 K8s 集群中,多节点容器模式中的分散收集模式。分散收集模式利用分布式系统弹性计算能力的容器设计模式。在这一模式中,计算服务的使用者,即服务的客户端,将初始计算请求发送给一个“根计算节点”。根计算节点对计算任务做出分割,将任务分割成大量的小计算任务,然后将小计算任务分配给大量计算服务器进行分布式平行计算 。每个计算服务器都计算初始计算任务的一小块,将计算结果返回给根计算节点。根计算节点将所有计算结果合并起来,组成一个针对初始计算任务的一个统一的结果,返回给申请计算任务的客户端。

分散收集模式是本系列容器设计模式的最后一种,也是最复杂的和最有普遍应用价值的一种模式。本文同时介绍了分布式计算模式项目 Metapaticle,该项目的目的在开发并展示一种基础设施即代码的编程模式,力图将基础设施管理逻辑和功能运算逻辑以同一种语言实现在同一短小精干的程序中。

依靠 K8s 集群强大的基础设施编排引擎和控制工具,以容器为基础实施的分布式应用可以获得强大的动态管理基础设施的能力,DevOps 理念从流程管理上连通开发和运维,而 Metapaticle 则考虑从编程范式和编程语言上打通开发和运维,成为一种新的 DevOps 自动化工具。


感谢魏星对本文的策划, 陈兴璐对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-11-27 16:103653

评论 1 条评论

发布
用户头像
云计算跟分布式系统是一个事物的两种解读:云计算是面子,分布式系统是里子。
这个太形象了
2018-12-13 15:04
回复
没有更多了
发现更多内容

当Kubernetes遇见Macvlan——实现CNI路由插件

陆云

Kubernetes 集群

云原生技术中台 CNStack2.0 正式发布

阿里巴巴云原生

阿里云 云原生 CNStack 云原生中台

和鲸科技入选2022年度数字化创新服务商丨Digital 36 调研发布

ModelWhale

云计算 大数据 数字化转型 数据智能 企业服务

【jquery Ajax 】form表单教学+评论案例

坚毅的小解同志

11月月更

眼见为实:被误导的Tomcat的工作原理

KINDLING

Java tomcat 多线程 ebpf

干货|无源元件之——电阻器基础知识(超全)

元器件秋姐

OH应用程序集成AGC认证服务实现邮箱登录

白晓明

OpenHarmony AGC认证服务

【Node.js】npm与包【万字教学~超超超详细】

坚毅的小解同志

node.js 11月月更

数据报告 | 新冠疫情对美国民众消费行为的影响

前嗅大数据

疫情 数据分析 爬虫 数据采集 消费

【jquery Ajax】接口的学习与Postcode插件的使用

坚毅的小解同志

ajax 11月月更

【Node.js】模块的加载机制

坚毅的小解同志

node.js 11月月更

【Node.js】模块化学习

坚毅的小解同志

node.js 11月月更

眼见为实:ForkJoin的“分而治之”,竟然有隐藏的坑?

KINDLING

Java Linux 多线程 forkjoin ebpf

【jquery Ajax 练习】图书管理

坚毅的小解同志

ajax 11月月更

【区块链Go】基础语法

坚毅的小解同志

#go 11月月更

【jquery Ajax】基础概念与使用教学

坚毅的小解同志

ajax 11月月更

曳影1520已成功运行Anolis OS!详聊平头哥在RISC-V软件生态的探索和实践 | 龙蜥技术

OpenAnolis小助手

操作系统 芯片 risc-v 龙蜥峰会 平头哥

大数据培训学习后没有面试机会怎么办

小谷哥

【jquery Ajax 】art-template模板引擎案例——新闻列表

坚毅的小解同志

ajax 11月月更

还不会正则表达式? 放心 我会出手(万字教学)

坚毅的小解同志

正则表达式 11月月更

大数据的5V特征分别是什么?

好程序员IT教育

大数据 V5

【jquery Ajax 】art-template模板引擎的概念与使用

坚毅的小解同志

jquery ajax 11月月更

盘点 | 云原生峰会重磅发布

阿里巴巴云原生

阿里云 云原生

前端培训和自学的哪种方式更合适?

小谷哥

ZETA精彩亮相2022 IOTE展 以全栈式物联生态赋能产业数智化转型

ZETA开发者

物联网 ZETA 物联网技术 LPWAN 技术融合

教育行业数据可视化应用方案与实践

葡萄城技术团队

前端 数据可视化 智慧医疗 智慧工程

Meta force2.0佛萨奇矩阵公排系统开发合约部署搭建

开发微hkkf5566

无序和混乱终结者,极狐GitLab Workflow 到底有什么魔力?

极狐GitLab

DevOps Code Review CI/CD workflow 极狐GitLab

大数据培训和自学怎么学习

小谷哥

眼见为实:关于微服务熔断这几个知识点,你可能理解错了

KINDLING

Java 微服务 熔断 SpringCloud ebpf

eBPF程序摄像头——力争解决可观测性领域未来最有价值且最有挑战的难题

KINDLING

Java Linux 监控 可观测 #ebpf

K8s容器设计模式实践,分散收集模式_架构_王昕_InfoQ精选文章